JP2005318645A

JP2005318645A - エンコードされたビデオビットストリームのセクションを交換するための方法及びシステム

Info

Publication number: JP2005318645A
Application number: JP2005146060A
Authority: JP
Inventors: Jay Yogeshwar; ジェイ・ヨーグシュウォー; Sheau-Bao Ng; シャウ−バオ・ン; Teiichi Ichigawa; 偵一伊知川; Hiroaki Unno; 裕明海野; Hidenori Mimura; 英紀三村; Tetsuya Kitamura; 哲也北村; J Cookson Christopher; クリストファー・ジェイ・クックソン; Greg B Thagard; グレッグ・ビー・サガード; Andrew Drusin Rosen; アンドリュー・ドルージン・ローゼン
Original assignee: Toshiba Corp; Time Warner Entertainment Co LP
Current assignee: Toshiba Corp; Time Warner Cable Enterprises LLC
Priority date: 1995-07-13
Filing date: 2005-05-18
Publication date: 2005-11-10
Anticipated expiration: 2016-04-19
Also published as: EP0839374A1; US6219043B1; CA2202171C; JP4430580B2; CA2202171A1; AU5552096A; US6026232A; AU707082B2; EP0839374A4; WO1997003443A1; JP3445278B2; JPH11500592A; KR100287656B1; JP3842537B2; JP2001128126A

Abstract

【課題】編集したときに画質を劣化させないようにする。
【解決手段】エンコードビデオのセクションを除去するため、エンコードされたビットストリーム内の始点および終点を決定する。エンコードデータの始点及び終点アドレスは、各ピクチャーで消費されたビット、各ピクチャーのシーケンスヘッダーのビット数、各ピクチャーグループ（GOP）ヘッダーのビット数、及び全スタッフビットを加算して計算される。挿入されるビットをエンコードするため、無関係な信号成分のデコードを防ぐ処理が実行される。この処理は編集ポイント前の最終ピクチャーを判断し、編集ポイント後のフレームに関する参照フレームとしてその最終ピクチャーを使用することで行われる。更に最初の量子化値でエンコードされた最初のビデオの短期間が、置き換えビデオの終わりに含まれる。
【選択図】図３６

Description

まず、関連出願について述べる。

本願は、1995年5月8日に提出された「エンコードされたビデオビットストリームのセクションを交換するための方法およびシステム」と題する米国特許明細書連続番号08/438,014に関連している。本願は又、「オーディオエンコーダの数が低減されるオーディオ映像エンコードシステム」と題する米国特許明細書連続番号08/467,991、「既にエンコードされたビデオフレームの品質を手動で変えるための方法およびシステム」と題する明細書連続番号08/466,391、「ユーザが既にエンコードされたビデオフレームの品質を手動で変えるための方法およびシステム」と題する米国特許明細書連続番号08/469,370、「量子化レベルを変化させることにより、ビデオエンコーダのビット割当てを制御するレート制御式デジタルビデオ編集法およびシステム」と題する米国特許明細書連続番号08/466,766、および「レート量子化モデルを使用しエンコードするビデオエンコード方法およびシステム」と題する米国特許明細書連続番号08/473,783に関連し、これらの特許明細書は共に1995年6月6日に提出され、本明細書に参考として取り入れられている。

本発明はエンコードされたビットストリームセクションが新たなセクションに置き換えられるエンコードシステムに関し、特にエンコードされたビデオセクションがデコード副成分(decoding artifacts)を減少するように置き換えられるビデオエンコードシステムに関する。

圧縮法が利用できるようになる前は、オーディオ、ビデオ、及びフィルムは単にオーディオ、ビデオ、及びフィルムのセクションすなわち一部を切り取り、必要に応じてそのセクションを新たな又は代替えのセクションに置き換えることにより編集が行われていた。しかし、データをエンコードする圧縮法が用いられるようになると、単純な「カット及び貼り付け」編集は、ビデオフレームを構成するのに用いられる情報として不可能となった。従ってエンコードされたビデオセクションを単純に切り取ることは、変更されていないビデオセクションを劣化させることがあり、新たなビデオがすでにエンコードされたビットストリームに単純に挿入されると、デコード副成分を含むことがある。

MPEGビデオエンコードにおいてこの問題を解決するために、以前のビデオ内に置き換えられる新たなビデオセクションを閉じたピクチャのグループ（GOP：group of pictures）としてラベル付けする方法がある。MPEGエンコードにおいて、閉じたピクチャのグループは、第１のコード化されたＩフレーム直後のＢタイプフレーム内に用いられる予測が、後方予測のみを使用することを示す。または、MPEGは「broken_link」と呼ばれるフラッグの使用を可能とする。このフラッグは設定されたとき、第１のコード化されたＩフレーム直後の第１のＢフレームが、予測に用いられる参照フレームを利用できないために、正しくデコードされないことがあるということを示す。そのデコーダは正しくデコードできないフレームの表示を防ぐためにこのフラグを用いる。

上記解決策は、エンコードされたビデオを劣化させ、品質の低いビデオを提供することがある。

そこで本発明は、すでにエンコードされたデータセクションが、エンコードされた他のデータセクションに置き換えられるシステムであって、目にみえるデコード副成分の少ないまたは無い新規な方法および装置を提供することを目的としている。

また本発明の目的は、置き換えるべきエンコードされたビデオセクションが、既にエンコードされたビデオ内にエラーすなわちビデオデコード副成分を含めないように、エンコードされた他のビデオセクションと置き換えられるビデオエンコードシステムを提供することである。

更に本発明は情報を新規で有用な方法で格納するデータ構造を有するメモリを提供することを目的とする。

上記及び他の目的はエンコードされたビットストリームのセクションを置き換える新規な方法およびシステムにより達成される。エンコードされたビデオのセクションを取り除くために、デジタル的にエンコードされたビットストリーム内で、エンコードされたビデオの始点および終点を判断する必要がある。これは、目的の画面に対するビットオフセットを判断するために既にエンコードされた各フレームに用いられたビットの数を加算することにより行われる。他の方法としてエンコードされたビットストリーム内の特定フレームの正確な位置又は時間を示す情報を維持するためにディレクトリを用いることができる。

オリジナルビデオの例えば第２セクションの１／２である１つのGOPの第１セクションは、エンコードされる新たなビデオの始点に位置し、次のGOPの最初の２つのＢフレームを正しくエンコード及びデコードするのに必要な切断点の前のGOPの最後のＰフレームを生成するために用いられる。この短い初期セクションからのエンコードされたデータは、すでにエンコードされたデータ内で置換されることはなく、スタート点後の最初の２つのＢフレームにより参照される参照フレーム（最後のＰフレーム）を生成するためにのみ利用される。

又、前記オリジナルビデオの短いセクションはビデオの終点に位置し、最初にエンコードされたときに用いられた量子化値を用いてエンコードされる。GOP内のエンコードされたビデオのフレームは既にエンコードされたフレームに戻って参照されるので、最初のエンコードのフレームが前記終点直前のビデオの新たなフレームに戻って参照されると、デコードに関する突然の不具合が発生することがある。従って、オリジナルビデオがオリジナルフレームに同等なフレームに戻って参照されるのが望ましい。オリジナルビデオの１／２が編集セグメントの始点で再びエンコードされるが、これは本質的なものではない。

他の方法として、置換ビデオ内のフレームが置換ビデオの外側のフレームに依存しないように、置換ビデオは周知の閉じたピクチャのグループモードを用いてエンコードされる。この方法の新規な特徴は、予備ビットが双方向フレームに割り当てられ、Ｂフレームのビット数がＰフレームに用いられるビット数の概算値を示すように、この双方向フレームは閉じたGOPモードのために単一方向予測のみを有することである。この方法では、閉じたGOPモードは大きなデコード副成分をＢフレームに含まず、ＢフレームはほぼＰフレームと同一の品質を有する。

デジタル格納媒体に格納されたエンコードされたビデオも本発明の一部を構成する。本発明は又、新規で有用なデータ構造を格納するメモリを含む。このメモリは好適な光ディスクである。

以下、この発明の実施の形態を説明する。

本発明は、複数の構成要素および機能を備えるデジタルビデオエンコードシステムである。システムのさまざまな構成要素をさらに容易に識別する目的で、本明細書は、以下に示す項に編成されている。

Ｉ. はじめに
II. システム構成要素
III. 汎用システム動作
IV. システム代替策
V. 最適エンコード効率を維持しながらオーディオエンコーダの数を低減する
VI. エンコードされたビデオの情報を記憶するためのログファイル、ならびにログファイルおよびエンコードされたビデオにアクセスするためのログインタプリタユーティリティ
VII. エンコードされたビデオの品質の変更
A. 期間での品質の変更
B. フレームの領域内での品質の変更
VIII. 品質変更後のビデオの再エンコード
A. 品質が単独フレーム内で変更された場合のビット割当て制御
B. 編集ポイントでのデコードを回避しながら再エンコードする
1. 最初にエンコードしたときに使用された状態にエンコーダを復元する
2. ピクチャのグループのクローズモードでの再エンコード
IX. エンコードに使用されるレート量子化モデリングX. データ構造を使用して、オーディオ、ビデオ、およびサブピクチャのデジタル信号を結合する。

I. はじめに
開示されたシステムは、デジタル圧縮システムとしても知られるデジタルオーディオ映像エンコードシステムに関する。本明細書に開示される考えは、あらゆる種類のエンコードスキームで使用可能で、特に、正式にはISO/IEC 13818-2、MPEG-2システム情報を指定するISO/IEC 13818-1、およびMPEG-2の前身であるMPEG-1（ISO/IEC 11172-ビデオ）として知られるMPEG-2（エムペグ：Moving PictureExperts Group）に適用できる。本明細書では、MPEG-1およびMPEG-2は集合的に「MPEG」と呼ばれる。MPEG規格は、圧縮されたまたはエンコードされたビデオストリームの構文だけを指定しているが、圧縮をどのように実行するかは指定していない。MPEGエンコードされたデータストリームは圧縮済みのデータストリームであるため、エンコードプロセスは圧縮プロセスと呼ぶことができるし、その逆も可能であることに注意すべきである。また、システムはドルビー（登録商標）AC-3を使用して実行できるオーディオのエンコード、つまりISO/IEC 13818-3に定義されるMPEG-2規格にも関する。前記規格のそれぞれが、それらを参照することにより本明細書の一部をなすものとする。

MPEGビデオ圧縮は、時間的な因果関係の予測圧縮である。MPEGエンコーダは新しいビデオピクチャを受け取ると、新しいビデオピクチャを、エンコーダが既にエンコードされたピクチャに基づいて作成した予測されたピクチャと比較する。予測が以前に伝送された情報に基づいて立てられるために「因果関係(causal)」予測コーディングという用語が使用され、予測が時間的なピクチャ単位で実行されるために、「時間的(temporal)」因果予測コーディングという用語が使用される。予測手順には、ビデオピクチャ内での領域の運動の予測が必要である。したがって、時間的予測は、動き補償予測と呼ばれることもある。

旧ピクチャと新ピクチャの比較の結果は、後のビデオピクチャに格納される新しい情報を表す。それから、「残留情報(residual information)」と呼ばれる新しい情報は、一連の情報圧縮プロセスを受けることとなる。まず、離散コサイン変換(DCT)と呼ばれる一次数学変換が実行される。DCT演算により、ピクセル残留情報が係数の列に変換される。MPEG圧縮においては、DCTは8x8ピクセルから成るブロックで実行される。同様に、DCT係数も8x8配列数内に入れられる。その後、これらの係数は、量子化ステップサイズつまりq-レベルに基づき、精度の設定された程度まで個別に量子化される（すなわち四捨五入される）。量子化プロセスは、通常、値ゼロが設定された多くの係数を生み出す。さもなければ、この量子化プロセスは、量子化雑音と呼ばれるコーディング構造が生じさせることとなる。

量子化された係数は、その後、ゼロ値が設定された係数でのランレングスコーディング、およびそれぞれが結果として生じるランレングス値とゼロ以外の係数値をそれぞれ表す2つの数の組の可変長コーディングの組み合わせを使用してコーディングされる。これらのランレングス非ゼロ値の組のコードは、他のオーバヘッド情報とともに、ビデオピクチャに対応する圧縮済みデジタルデータストリームを形成する。出力データ転送レートや記憶容量のような物理的な制限のために、適切な量の圧縮が達成されるように、量子化の程度を変化させることが必要である。これがバッファフィードバックと呼ばれる。

MPEGに準拠するデコーダは、エンコードされたのデジタルデータストリームを読み取り、エンコードプロセスと逆の演算を実行する。

一般的には、デジタルデータストリーム中のビット総数は、実質上、ビデオピクチャを表すために必要とされるビット総数を下回るため、圧縮が達成される。しかしながら、MPEGビデオコーディングによって例証されるような圧縮が、決して歪みや人為構造(artifacts)を免れないことを認識することが重要である。前述したように、圧縮人為構造の主要なソースは量子化プロセスである。

開示されたシステムは、圧縮プロセスまたはエンコードプロセスの間に量子化の程度を動的に調整することを目的とする。特に、調整は人間のオペレータによって出される指示に従って行われる。調整は、より大きなビデオシーケンスの部分に適用する場合もあれば、ビデオシーケンス全体に適用することもある。
II. システム構成要素
ここで、類似した参照番号が複数の図を通して同一の部分または対応する部分を示し、さらに特定するとその図1Aを示す図面を参照すると、エンコーダシステムアーキテクチャのブロック図が示されている。ビデオエンコードプロセスとは、中断やエラーなくエンコードおよび編集を達成するために同期して動作する多くの異なった装置を必要とする1つの複雑なプロセスであることに注記すべきである。しかし、オーディオエンコードおよびビデオエンコードは、適切なタイムコードが使用される限り、別個に実行できる。図1Aには4つのワークステーションが描かれているが、通常、エンコードシステムのユーザまたはオペレータが対話するのは1台のキーボードおよびワークステーションだけである。ワークステーションは、プロセッサ、RAM、ROM、ネットワークインタフェース、ハードディスク、キーボード、モニタ、およびそれ以外の従来の構成要素のような従来の汎用コンピュータ構成要素を具備する。

ワークステーション30は、実施例ではSun SPARC20 Unix（登録商標）ワークステーションであるシステム制御ステーションとして機能する。ワークステーション30には、マウスやそれ以外のポインティングデバイスであるキーボード32およびポインティンブデバイス33のような従来のワークステーション入力装置だけではなく、グラフィックコンソールディスプレイモニタ31も具備される。ユーザは、おもに、コンソールディスプレイ31に表示されるグラフィックユーザインタフェース(GUI)を介してワークステーション30を視覚的に操作することとなる。

ワークステーション30は、以下に説明する別のワークステーション40、10および20に接続され、それらを制御する。ワークステーション30は、やはり以下に説明するオーディオインタフェース装置72およびデジタルビデオキャプチャ記憶装置60にも接続される。ワークステーション30は、米国電子工業会(EIA)規格RS-232によって定義される直列インタフェースを介してワークステーション40に接続される。同様に、ワークステーション30とオーディオインタフェース装置72の間の接続も直列RS-232規格による。ワークステーション30とデジタルビデオキャプチャ記憶装置60の間の接続は、業界規格のS-バスインタフェースを介している。

フレームジョガー41は、オペレータが、VTR51または52どちらかのビデオを編集を実行しなければならない箇所に位置決めできるようにするために、ワークステーション40に接続される。システムは、ビデオの位置を制御するために、オペレータが入力するタイムコードを使用することができる。ただし、ジョグ制御装置は、ビデオを位置決めするためにジョブノブの使用を可能にすることによって、システムのユーザフレンドリ度を高めている。ワークステーション30は、ビデオディスプレイモニタ61で表示されるビデオが、デジタルキャプチャ記憶装置60または録画VTR62、あるいはその両方からのビデオであるのかどうかを制御する。

ビデオエンコード装置50は、MPEG-1、MPEG-2、またはそれ以外のビデオ圧縮規格に従って圧縮を実行するデジタルビデオエンコーダである。市販されているMPEG-1エンコーダは、ソニー（登録商標）RTE-3000である。MPEG-2エンコーダは、本明細書に参照により取り入れられる1994年12月27日に出願された日本特許明細書6-326435に説明される教示に従って構築することができる。ワークステーション10は、業界規格S-バスインタエースを介してビデオエンコード装置50を直接的に制御し、ワークステーション10は、イーサネット（登録商標）ネットワークのような標準ネットワーキング装置を介してワークステーション30からコマンドを受け取る。エンコードプロセスの間、ワークステーション10は、ビデオエンコード装置50のビデオエンコード制御プログラムのリアルタイム実行をサポートする。実施例においては、ワークスステーション10は、Sun SPARC20 Unixワークステーションである。

ワークステーション10は中央ワークステーション30からのコマンドに応え、圧縮プロセスを開始する。圧縮プロセスの間、ワークステーション10は、ビデオ信号の特定の領域に適用される量子化の程度を動的に制御する。量子化が変化させられる特定の領域は、空間的領域または時間的領域、あるいはその両方に及び、量子化が厳密にどのように制御されるのかは以下に説明する。

ビデオエンコード装置50への入力ビデオは、再生VTR 51内のテープからである。再生VTR51は、職業用のデジタルビデオ規格、ITU-R 601（以前はCCIR 601ビデオ規格と呼ばれていた）ビデオテーププレーヤである。この規格は、PALシステムだけではなくNTSCシステムにも適用する。再生VTR 51内のテープには、ビデオカメラまたはフィルムカメラによってキャプチャされたか、あるいはコンピュータによって作成されたさまざまな画像および場面を表す電磁情報が記憶されていることが注記される。ビデオエンコード装置50からのエンコードされた出力は、1つ以上のハードディスク21で記憶するためにワークステーション20に転送される。

ビデオエンコード装置50によりエンコードおよび出力されたビデオデータを表示するためには、MPEG-2のようなデジタルビデオデコーダが必要になる。しかし、本明細書の作成時点では、実現されたシステムは、このようなデコーダはシステムの初期開発段階の間は容易に手に入らなかったため、別個のMPEG-2デコーダを実装していない。したがって、ビデオエンコード装置50は、MPEG-2ビデオストリームをワークステーション20に出力するだけではなく、MPEG-2のエンコードデータに同等な復号化されたビデオ画像がビデオエンコード装置50から録画VTR 52へ出力される。録画VTR 52は、D1インタフェースとして知られる業界規格のデジタルビデオ信号コネクタによりビデオエンコード装置50に接続され、ワークステーション40によって制御される。再生VTR 51および録画VTR 52の両方共、AmpexDCT職業用ビデオテープレコーダを使用して適切に実現される。

オーディオは、例えばドルビーAC-3フォーマットまたは代わりにISO/IEC 13818-3規格に記述されるようなMPEG-2に準拠するフォーマットにエンコードされ、圧縮される。エンコードシステムのオーディオソースは、4つのデジタルオーディオテープ(DAT)プレーヤ、71a、71b、71cおよび71dである。スタジオ品質のDATプレーヤは、ソニーが市販している。DATプレーヤ71a-71dは、ワークステーション40によって業界規格プロトコルRS-422を介して接続され、制御される。DATプレーヤ71a-71dによって出力されるオーディオ信号は、オーディオエンコーダ70a、70b、70c、および70dにそれぞれ入力される。これらのオーディオエンコーダは市販のドルビーAC-3モデルDP 525エンコーダを使用して実現され、オーディオインタフェース装置72によって制御される。通常、オーディオエンコードは指定されたタイムコードで開始、終了する。オーディオインタフェース装置72は、ワークステーション30からその間のRS-232接続上でエンコード開始タイムコードおよびエンコード終了タイムコードのような命令を受け取る。さらに、オーディオインタフェース装置72は、さまざまなデジタル圧縮済みオーディオデータを、ワークステーション20に伝送される単独デジタルストリームに多重化する。ワークステーション20は、オーディオエンコード装置70により出力される圧縮済みデジタルデータに対応する複数のファイルに、入力デジタルオーディオストリームを多重分離する。ビデオエンコード装置50は、そのビデオ同期信号に基づく同期信号をオーディオインタフェース装置72に提供する。同期信号により、オーディオビットストリームは、ビデオエンコード装置50により出力されるビデオビットストリームに同期できるようになる。

ワークステーション30は、さまざまなオーディオエンコード装置70a-70dのどれかからオーディオデコーダ73へオーディオデータの複製を提供するようにオーディオインタフェース装置72に指示する機能を備える。オーディオデコーダ73は、圧縮済みのオーディオを、ユーザがスピーカ75を介してオーディオを聞くことができるように復号化する。どのオーディオエンコード装置をモニタするかについての選択は、キーボード32またはポインティングデバイス33のどちらかによってコンソールディスプレイ31上でのグラフィックユーザインタフェースを通して人間のオペレータが決定する。オーディオインタフェース装置72の構成は、前述の機能を実行する機能を備えたハードウェアである。このハードウェアは、1つ以上のプログラミングされたマイクロプロセッサまたは開示された機能を達成するために配列される従来の回路要素、あるいはその両方である。

ワークステーション40はスタジオ装置制御ステーションであり、録画ビデオテープレコーダ52とともに、再生ビデオテープレコーダ51およびデジタルオーディオテーププレーヤ71a-71dの両方を制御するために適切なコマンドを発行する。また、ワークステーション40は、デジタルビデオキャプチャ記憶装置60に、適切な時点でビデオのキャプチャを開始するように命令する。ワークステーション40とさまざまなビデオテープデッキおよびオーディオテープデッキの間の接続は、業界規格のRS-422プロトコルである。このプロトコルを使用すると、各テープデッキはワークステーション40に、標準タイムコードフォーマットでその現在のテープロケーションを知らせることができるようになる。ワークステーション40はこのような情報を使用して、ビデオとオーディオの情報が正しく、再生、記録されるように、さまざまなテープデッキを適切に同期させる。この実施例では、ワークステーション40は、DOSおよびカリフォルニア州、モアパークにあるEditingTechnologies Corp.Ensemble Proが市販しているソフトウェアプログラムであるEnsemble Proを実行する標準的なIBM互換パーソナルコンピュータである。ワークステーション30がRS-232通信ポートを介してワークステーション40で実行しているEnsemble Proと通信できるように、マイナーな改良をEnsemble Proプログラムに加えたことを注記する。この改良はEditing Technologies, Corp.を介して市販されているか、あるいは過度の実験を行わないでも当業者により実行できるかのどちらかである。

デジタルビデオキャプチャ記憶装置60は、エンコードシステム内で、以下に示す2つの機能を行う。第1に、この装置は、ビデオ信号に適用されてきた手動編集の便利な「前と後」比較を行うためにそのキャプチャ記憶機能を使用し、第2に、ビデオディスプレイにグラフィックオーバレイ機能を提供する。このグラフィックオーバレイ機能は、例えば、空間手動編集フェーズの間に使用され、人間のオペレータが、量子化およびその結果割り当てられたビットの数が変化する関心のある領域を定義できるようにする。

本発明では、デジタルビデオキャプチャ記憶装置は、カリフォルニア州、マウンテンビューにあるViewgraphicsの市販されているDRABMベースのオーディオ製品モデルVS6000として実現されている。この装置に入力されるデジタルビデオは、ITU-R-601（旧CCIR 601）画像解像度を備える業界規格D1による。デジタルビデオキャプチャ記憶装置60の出力は、ビデオ信号の赤、緑、および青の構成要素を表す3つの別個のアナログ信号を介してビデオディスプレイに接続される。グラフィックオーバレイ情報は、デジタルビデオキャプチャ記憶装置60によって出力される最終アナログ信号の作成前に、デジタルビデオキャプチャ記憶装置60により処理されるため、他のビデオデータとともにビデオディスプレイモニタ61では人間のオペレータが見ることができる。

Unix環境で動作しているワークステーション30は、デジタルビデオキャプチャ記憶装置60を使用するビデオディスプレイモニタ61の上にそのグラフィックウィンドウをマップする。これによって、人間のオペレータは、モニタ61に示されるディスプレイのグラフィックオーバレイ面で（矩形の描画のような）グラフィック動作を実行できるようになる。装置60は、オーバレイ機能を実現する。オーバレイは、メモリ内の情報をモニタを駆動するアナログビデオ信号に変換する前に、ビデオメモリで実行される。システムが使用するVS6000は、ビデオメモリの上部に8-ビットメモリを持つ。この8-ビット面で、コンピュータはあらゆるカラーグラフィックスおよびテキストを描画できる。この8-ビット面での「色」の1つが透明色である。透明色であるこのオーバレイ面上の任意のピクセルは、その下にあるビデオメモリの値を採る。一般的には、オーバレイ面の大部分が透明色になり、（線、テキストなどの）グラフィックは透明以外の色を使用する。したがって、ビデオメモリおよびオーバレイグラフィックメモリの両方からなるディスプレイメモリが形成される。モニタ61で表示するために究極的にはアナログ信号に変換されるディスプレイメモリである。人間のオペレータは、通常、キーボード32と結び付いたポインティングデバイス３３Ｗ使用し、このようなグラフィック動作およびこのようにして作成されたグラフィックオブジェクトの操作を実行する。

ワークステーション20は、オーディオインタフェース装置72だけではなくビデオエンコード装置50からデジタルデータストリームを受け取る。ワークステーション20は、イーサネット接続でワークステーション30に接続され、ワークステーション20は、業界規格のS-バスインタフェースを介してビデオエンコード装置50およびオーディオインタフェース装置72にも接続される。受け取られたデジタルデータストリームは、別個のデータファイルとして1つ以上のハードディスクの中に記憶される。別個のダイレクトメモリアクセス(DMA)カードは、キャプチャされたデジタルストリームデータをハードディスク21に転送するときに使用される。結果的に大量のデジタルデータが生じる長いビデオシーケンスの場合、ハードディスク21は、Sun Microsystems製のSPARCstorage Array X655A/G5のような市販されているハードディスクを使用して実現できる。この実施例においては、ワークステーション20は、Sun Microsystems製の市販されているSPARKserver 1000である。

また、ワークステーション20は、ビデオ圧縮済みデータおよびオーディオ圧縮済みデータに対応するデータファイルも、復号化装置への移送または伝送に適切な単独フォーマットファイルにフォーマットする。最終的な媒体はディスクベースであるのが望ましく、その場合フォーマットは、関連するディスクフォーマットに準拠することになる。通常、フォーマットされたファイルは、デジタルテープのようななんらかの中間デジタル記憶手段により、1つまたは複数の最終伝送媒体への転送が発生する機構へ移送される。図示されているデジタル記憶装置22は、このような目的に使用される。本実施例では、デジタル記憶装置22は、市販されている8 mm Exabyteテープドライブを具備する。デジタル記憶装置22のインタフェースは、業界規格の小型コンピュータ用周辺機器インタフェース(SCSI)である。

複数のSCSI装置を同じSCSIバスに接続できることは既知である。したがって、デジタル記憶装置22は、市販されているデジタルリニアテープ(DLT)ドライブ、磁気光学(MO)ディスクドライブ、またはフロッピー（登録商標）ディスクドライブのような他のSCSI装置も具備できる。これらの構成は容易に対応され、フォーマット段階の前またはフォーマット段階の間に必要となる可能性がある補助データ用の柔軟な入力機構を提供するのに役立つ。例えば、映画の製作では、字幕情報は、大部分の場合、前記のSCSI装置の1つを必要とする媒体内で利用できる。このような場合、補助データはワークステーション20で実行中のソフトウェアプログラムによって読み取られ、補助データがフォーマットされたファイルに格納されるように処理される。補助データは、米国のクローズキャプションフォーマットである字幕データを格納する場合がある。補助データには、プログラムコードやポストスクリプトデータのような希望のデータを入れることができる。

図1Bは、図1Aのシステムに対応し、図1Aのシステムと同じように機能するオーディオ／映像エンコードシステム98がブロック図で示している。図1Bでは、エンコードシステムヘのビデオ入力がカメラ80から供給され、オーディオはマイクロフォン82から供給される。映像情報およびおそらくオーディオ情報を記憶する映画フィルムは、フィルムを照明するためのライトおよびフィルムから画像をキャプチャするための光検出器を具備する転送装置88を介してエンコードシステム98に転送される。入力装置80、82、および88からの情報は、オーディオテープレコーダまたはビデオテープレコーダによってのような、エンコードシステム98によってエンコードされる前に電磁フォーマットで記憶される。オーディオテープおよびビデオテープは、図1Aのシステムによりエンコードされる。

エンコードシステムにより作り出される最終的なデジタルビットストリームは、光ディスクをプレス加工する光ディスクマスタリング装置90、光ディスクに書き込む光ディスク書込み装置84に送られるか、あるいはテレビジョン送信機86を介して、テレビジョン受像器またはセットトップボックスデコーダに伝送されることがある。光ディスクのプレス加工および作成は、例えばマスタディスクを使用する既知で市販されている方法で実行される。エンコードされた情報は、ビデオオンデマンドシステムでも使用できる。エンコードされたビットストリームは、究極的には、エンコードプロセスに対応する復号化プロセスにより復号化され、オーディオ映像情報はテレビまたはモニタでユーザに表示される。復号化装置は、テレビまたはモニタで表示するためにエンコードされたディスクを復号化するデジタルビデオディスクプレーヤを具備する。

エンコードシステムがオーディオおよび画像を表す電気信号を入力し、電気信号を新しいフォーマットに変換し、究極的には、エンコードされた元の情報を作成し直すために信号が復号化されることは、図1Bから明らかである。
III. システム動作
図2は、図1にブロック図で示されるシステムの一般的な動作を説明するフローチャートである。図2から分かるように、システムはその動作サイクルの間に複数の「状態」を経過する。濃い実線は標準的な操作経路を示し、実線は中断終了経路を描き、破線はバイパス経路を示す。

システムによる最初の動作はセットアップ状態100で発生する。このステップによって、圧縮状態102が入力される前に、入力パラメータを指定することができる。圧縮状態102では、再生VTR 51内のテープに記憶されるビデオ画像が、ビデオエンコード装置50によりデジタル圧縮されたフォーマットにエンコードされる。

圧縮状態102の後、ユーザは、編集状態104の過去に圧縮されたデータの画質に基づいて手動で圧縮プロセスを編集することができる。これによって、ユーザは、ビデオの1フレームの領域内または期間で画質を改善または低下させることができる。「編集」という用語が、場面自体をピクチャストリームに付加したり、削除することを意味しないことに注意すべきである。本明細書中では、「編集」という用語は、量子化および続いてビデオの質を変更することを意味する。画像が編集状態104で編集された後、新しいユーザ指定パラメータに従ってデータをエンコードするために、圧縮状態102で再び圧縮動作を実行することが必要である。

ユーザがビデオの編集された形式を確認してから、字幕のようなオーディオ、ビデオおよびそれ以外の情報を含むすべての情報が、フォーマット状態106で、まとめて希望のフォーマットに結合される。完了状態108では、あらゆる一時ファイルが消去され、プロセスは終了状態110で終了する。図2に説明される個々の状態に関するさらに詳細な情報は、ここでは図3から図6を参照して説明する。

図3は、セットアップ状態100で実行されるステップを示している。ステップ120は、セットアップ状態を開始し、ステップ122はシステムを初期化した。このステップでは、ワークステーション30に格納されるシステム制御ソフトウェアの実行が開始し、コンソールディスプレイ31に表示され、キーボード32およびポインティングデバイス33を介してパラメータを入力させるユーザインタフェースを担当するグラフィックユーザインタフェース(GUI)プログラムのようなそれ以外のプログラムが起動される。また、ステップ122の間に、ワークステーション30のシステム制御装置ソフトウェアが他の装置に照会し、システムの利用可能な装置を含むシステム状態を突き止める。

ステップ124では、GUIを通してユーザに情報が表示される。歓迎のメッセージ、システムに関する情報、エンコードプロセスに使用されるパラメータ、および過去にエンコードされたあらゆるファイルの存在が表示される。表示されたシステム情報には、オーディオエンコーダ、VTR、オーディオテープデッキ、およびその構成を含むシステムに接続される装置を具備する。システムに既にエンコードされたファイルが格納されている場合は、情報はファイルを作成するのに使用されたオーディオエンコードパラメータおよびビデオエンコードパラメータを記述する情報がユーザに表示される。

ステップ126では、それから、標準システムパラメータまたはユーザ指定システムパラメータを使用するエンコード、システムパラメータに対する変更、または選択されたパラメータが受入れ可能であることの確認を開始するためのコマンドのようなユーザからの情報を入力する。

それから、ステップ128では、エンコード動作と復号化動作の準備をするために、グラフィックユーザインタフェースからシステム制御装置ソフトウェアに、入力されたデータを転送することにより、入力データを処理する。セットアップ状態は130で終了する。

図4には、圧縮状態102で実行されるプロセスがブロック図が示される。標準動作フローに従い、ユーザは、既に、セットアップ状態で圧縮されるビデオおよび付随オーディオシーケンスを指定した。それから、ユーザは、システムに、自動手順、つまり自動圧縮手順を実行するように指示する。自動圧縮手順の間のビデオ圧縮により、ユーザは期間で、あるいはビデオの1フレームの中で動的量子化プロセスを制御することはできない。これは、コーディング決定が、ビデオエンコード装置50により計算される客観的な基準に基づいて下される初期圧縮実行として意図される。自動圧縮がすでに実行されていた場合は、ユーザは、空間的（フレームまたはビデオ上で）または時間的的（ビデオシーケンスで）のどちらかで、編集圧縮モードでの量子化を手動で調整できる。

圧縮状態では、ステップ140で開始した後、ステップ142で圧縮動作に備える。この動作中、ビデオのタイムコードおよび圧縮パラメータとともに圧縮される付随オーディオのような圧縮プロセスのパラメータが、ワークステーション10を介してワークステーション30からビデオエンコード装置50にダウンロードされる。

それから、ステップ144では、希望の圧縮の種類が決定される。初めて情報を圧縮するときには、圧縮プロセスは自動的に、ユーザの介入なく実行される。ステップ146では、自動圧縮プロセスの準備をする。この準備中に、ワークステーション30は、デジタルオーディオテーププレーヤ71a-71dおよび関連するオーディオエンコード装置70a-70dの内のどれを使用しなければならないかを決定する。また、ワークステーション30は、ワークステーション20に、オーディオインターフェス装置72を介した、ビデオエンコード装置50およびオーディオエンコーダ70a-70dの出力からのビットストリームキャプチャに備えるように命令する。さらに、再生VTR 51、録画VTR 52、およびDATプレーヤ71a-71dは、テープを適切な開始位置まで進める。それから、ワークステーション40が再生ビデオテープレコーダ51、録画テープレコーダ52、およびDATプレーヤ71a-71dに、ステップ148での移動を開始するように信号を送る。その後、ステップ150で、ビデオエンコード装置50を使用するMPEG-1またはMPEG-2フォーマットのような希望のフォーマットに従ってビデオデータがエンコードされる。また、オーディオデータも、ドルビーAC-3フォーマットのような希望のフォーマットに従ってエンコードされる。手動編集プロセスを後で補助するためにログファイルを作成する必要がある。ログファイルは、ビデオデータの後での編集を実行するために必要となるエンコードされたビデオデータのパラメータを示す。エンコードプロセスは、適切なタイムコードに到達するステップ160で停止する。このタイムコードは、エンコードされるべき情報の最後である場合もあれば、ビデオシーケンスの最後ではないユーザが指定したポイントである場合もある。

ステップ144で、自動圧縮プロセスがすでに実行され、ユーザが、以下に図5に関して説明するように、編集状態の間に指定されたパラメータを使用してビデオの1つ以上のフレームの画質を手動で変更することを希望すると判断されると、ステップ144で、編集−圧縮動作を実行する必要があるかどうかが判断されるだろう。ステップ152では、手動編集が開始するポイントである希望の開始ポイントへの再生VTR 51の合図を含む編集圧縮動作の準備が行われる。また、オーディオ情報は、いったん自動圧縮動作でエンコードされると、変更する必要はないので、オーディオ装置はディスエーブルされる。それから、ステップ154で、再生VTR 51および録画VTR 52が移動する。

ステップ156では、その後、図5に説明する編集状態でユーザによって指定されたパラメータに従ったビデオデータのエンコードが開始する。編集圧縮は、終了タイムコードに達したステップ160で終了する。ステップ162では、ユーザに、圧縮およびエンコードが完了した旨のメッセージが表示され、プロセスはステップ164で終了する。

図5は、編集状態104で実行されるプロセスを説明する。前述したように、ここで言われる編集とは、ビデオシーケンス内で場面を削除、短縮、または移動させる従来のビデオの編集ではない。本明細書でいう編集状態とは、ビデオの一部またはビデオの時間シーケンスの質を、手動でビデオの量子化を設定することにより変更することである。

ステップ170で編集状態を開始した後、ステップ172では、ユーザはエンコードされたビデオのビット割当てを変更することによるビデオの手動の編集を希望するかどうか尋ねられる。ユーザがビット割当ての変更を望まない場合、プロセスはステップ188で終了する。ユーザがビット割当ての変更を望む場合は、ユーザはステップ174で編集対象のビデオセグメントを定義する。これは、画質を変更しなければならないビデオの期間を選択することによって実行される。それから、ステップ176で、ユーザが空間的編集または時間的編集を希望するのかを判断する。空間的編集がビデオのフレームの中でビットの量子化または割当てを変更するのに対し、時間的編集は、ビットの割当てを期間で変更する。ユーザが空間的編集を選択すると、フローは、編集されるフレーム内の領域を入力するステップ178に進む。また、適用される変更の相対的な程度も入力される。本発明の場合、ゼロを含む-5から+5の整数目盛りが、変更の相対量を示すために使用される。ユーザは、キーボード32またはポインティングデバイス33あるいはその両方を使用してビデオの領域をマークし、-5から+5の間で-5と+5を含む整数の内の1つを指定する。ユーザは、ある領域に以前設定された量子化レベルを変更してはならないことを示すこともできる。例えば、ユーザはある一定の領域のビット割当ての増加を希望する場合、それ以外の領域のビット割当てを減少しなければならない必要がある。ユーザがある領域を「保護つき(protected)」とも呼ばれる変更不可と設定すると、画質領域の改善に必要となるビットは保護つきの領域からは採取されない。

ステップ176でユーザが時間的編集を希望すると判断されると、フローは、どのように期間を編集しなければならないのかを入力するステップ180に進む。空間的編集と同様に、時間的編集の場合も、ユーザは、ビデオのある特定のシーケンスに適用される変更の相対度を示す-5と+5の間の整数値を指定する。この変更は、選択された期間全体で有効となる。

空間的編集または時間的編集のどちらかがステップ178と180で実行されてから、ステップ182で、ビデオシーンが、手動で入力されたパラメータに従って、エンコードし直され、例えばMPEG-2フォーマットに圧縮し直される。ユーザが画質がどのように変更されたのかを詳しく比較できるように、既にエンコードされたのデータは新規に編集されたデータの隣に表示される。

オペレータが編集対象のセグメントを示すと、VTR 52からのビデオが記憶装置60に転送され、記憶装置60で利用可能な総メモリの多くても半分を占める。そのセグメントは、「前の」セグメントに対応する。編集−圧縮プロセスの間、ビットストリームはワークステーション20によってキャプチャされ、マスタビデオビットストリームファイルから別個のビットストリームファイルとして記憶される。マスタビデオビットストリームファイルは、映画全体の圧縮済みビットストリームである。編集−圧縮されたビデオはVTR 52で録画される。エンコードプロセスの間、オペレータはピクチャを、それがVTR 52で録画されているのと同時に表示することになる。オペレータがエンコードした後のピクチャの表示を希望する場合は、VTRを再生機械として使用できる。オペレータが「前と後」の比較を実行したいと考える場合、VTR 52の対応するセグメントが記憶装置60に転送され、装置60の総メモリの残りの半分までを消費する。

このエンコードの後、オペレータは、変更されたビデオを保存する必要があるかどうかを決定する。オペレータが「後」のセグメントを無視することを決めた場合、マスタビットストリームは変更されずに残され、編集−圧縮済みのビットストリームは削除される。VTR 52がマスタビットストリームを反映できるようにするには、「前」のセグメントを録画する目的だけに、編集済みのセグメントで別の自動−圧縮が実行される。装置60を「前」のセグメントをVTR 52に転送して戻すために装置を使用するという代替策も可能である。オペレータが「後」のセグメントを記憶することを決めた場合、以下に説明するように、マスタビットストリームファイルを更新して、編集−圧縮済みのビットストリームファイルを入れる必要がある。

ユーザが、ステップ184でビデオが受け入れられると判断した場合、既にエンコードされたデータは新規にエンコードされたデータで置き換えられる。このステップは、以下の別項でさらに詳しく説明する。新規にエンコードされたデータが以前エンコードされたデータを置き換えると、ステップ192で、ユーザが更に編集を希望するかどうかを判断する。さらに編集を希望する場合には、フローはステップ174に戻る。ユーザがビデオの編集を終了したら、フローは編集状態を終了するステップ188に進む。

ユーザが、ステップ184でビデオが受け入れられないと判断した場合は、ユーザは、編集変更が記録されないようにステップ186で編集動作を終了するか、あるいはユーザはビデオを編集し直す。ビデオは、編集で新しいパラメータを選択するユーザによって編集し直される。ユーザが希望する場合は、編集対象の新しいビデオセグメントを定義することも可能である。

ユーザが圧縮（自動−圧縮だけ、または編集−圧縮とともに自動−圧縮のどちらか）に満足すると、圧縮済みビデオ、圧縮済みオーディオ、およびそれ以外のすべてのファイルを含む個々のデータファイルが、最終フォーマットへのフォーマットの準備が完了した状態となり、フォーマット状態166に入る。補助データには、最終的なフォーマット済みデータファイルに記憶される字幕のような情報を含むことがある。図6にブロック図で示されるフローチャートでは、ステップ200でのフォーマット状態の開始後、ユーザが補助データを記憶することを決定すると、ワークステーション20は、フロッピーディスクドライブ内にフロッピーディスクなどを具備するデジタル記憶装置22から補助データを読み取る。それから、ステップ204で補助データがエンコードされたオーディオおよびビデオと結合され、最終的なフォーマット済みファイルを作り出す。システムによって作成される最終的なデジタルビットストリームは、ISO/IEC 13818-1に定義される「プログラムストリーム」として構築できる。代わりに、最終的なビットストリームは、直接衛星DSSフォーマット、光ディスクでの使用に適したVBR（可変ビットレート）またはその他の種類のフォーマットのような任意の種類のフォーマットとすることができる。エンコードされたビデオとオーディオは別個に記憶できるため、システムは、同じエンコードされたビデオとオーディオを別々の最終フォーマットにエンコードすることができる。これは、さまざまなフォーマットを作り出す機能を備える1つのフォーマッタを使用するか、または別個のフォーマッタによって達成される。ステップ206では、フォーマットされたファイルがディスク21で記憶される。

フォーマットされたファイルがステップ210のデジタル記憶装置22内のテープに書き込まれるステップ208で完了状態になる。その後で、もはや必要とされていない一時ファイルを削除するさまざまな「ハウスクリーニング」機能を実行するステップ122で終了状態に入る。圧縮プロセスが終了される前のような異常終了要求が発生した場合、打切り手順が、オーディオテーププレーヤおよびビデオテーププレーヤを停止し、破壊されている可能性があるデータファイルもクリーンアップするワークステーション30で実行される。プロセスは、それからステップ216で終了する。
IV. システム代替策
望ましいシステム構成要素およびその動作は前記に説明したが、言うまでもなく代替ハードウェアが図1Aおよび図1Bに開示されるハードウェアを代用することができる。ビデオエンコード装置50は、利用できる場合にはMPEG-2ビデオエンコーダであるのが望ましい。しかし、MPEG-1ビデオエンコーダとしても知られる市販されているISO/IEC 1172-ビデオ標準エンコーダを使用することもできる。MPEG-1エンコーダに対する必要な改良は、MPEG-1バッファ管理モジュールが、ワークステーション10のような外部ソースから制御できるようにする必要がある。さらに、入力ビデオサポートは、ITU-R 601（前CIR 601）解像度ビデオを格納するために増大されなければならない。このような改良は、過度の実験を行わないでもデジタルビデオエンコードの当業者により実行できる。

4つのオーディオテーププレーヤと4つのオーディオエンコーダが図1Aに描かれているが、それ以外の構成はオーディオシステムに容易に採用できる。例えば、1台の市販されている8 mmデジタルオーディオプレーヤを複数のDATプレーヤの代わりに使用することができる。1台のTASCAMデジタルオーディオプレーヤを使用すると、ワークステーション40から必要とされるのは1つのRS-422制御信号だけであるが、最大8つの別個のオーディオチャネルを同時にサポートできる。オーディオエンコーダが同時に8つのオーディオ入力を受け入れることが可能でなければならず、オーディオインタフェース装置72もオーディオデータストリームの4つから8つへの増加に対処するために改良されなければならないのは言うまでもない。

オーディオおよびビデオの同時エンコードの代替策として、オーディオおよびビデオエンコードは、別個の時間またはロケーション、あるいはその両方で実行され、後で最終的なフォーマットに結合することができる。これには、SMPTE（全米映画テレビジョン技術者協会）タイムコードフォーマットのような既知のタイムコードの使用が必要となる。タイムコードは、ビデオテーププレーヤ、ワークステーション、または別個のスタンドアロン式タイムコード作成プログラムによって作成される。

録画VTR 52は、ビデオデコーダが利用可能で、ワークステーション20に接続されている場合には排除できる。その場合、再構築されるビデオは、圧縮フェーズ中のビデオエンコード装置50から録画される代わりに、ディスク21内のディスクファイルから作成されるだろう。録画VTR 52を排除すると、テープ費用だけではなく装置費用という点でも、システムの費用が大きく節約される。

さらに、グラフィック動作をディスプレイビデオのグラフィックオーバレイ面で実行する能力は、市販のX-端末オプションを使用して、コンソールディスプレイ上でサポートすることができる。例えば、コンソールディプレイ31は、ビデオをオーバレイグラフィックウィンドウで表示する機能を備えたX-端末で置き換えられる。ペンシルバニア州のKing of PrussiaのHuman Designed Systems 社のHDSV View Stationのような市販されているマルチメディアディスプレイ端末は、表示および手動編集領域定義動作のためにX-端末に接続することができる。ただし、ビデオデコーダの職業用品質のビデオは、人間のオペレータが再構築されたビデオ信号の質を評価できるように、図1Aに図示されるモニタ61のような職業用モニタで表示しなければならない。
V. 最適エンコード効率を維持しながらオーディオエンコーダの数を低減する前述したように、図1Aは、マルチパスビデオエンコード装置50および4台のワンパスオーディオエンコーダ70a、70b、70c、および70dを備えたエンコードシステムをブロック図している。再生VTR 51は、ビデオエンコード装置50にエンコードされるべきビデオ信号を供給し、デジタルオーディオテープ(DAT)プレーヤ71a-71dが、それぞれワンパスオーディオエンコーダ70a-70dにエンコードされるべきオーディオ信号を供給する。

本発明の実施例では、最終フォーマット済みオーディオ映像データストリーム内の8つのオーディオトラックをエンコードする。各オーディオトラックは、1つ以上のオーディオチャネルを具備する。オーディオトラックは他の装置でもオーディオを格納できるが、例えば、あるオーディオトラックが左チャネルと右チャネルを備える場合がある。図7に説明する。もっとも効率的なオーディオ映像エンコードを実行するためにオーディオエンコーダの数を求める方法、およびこのオーディオ映像エンコードを実行する方法は、図7に説明する。図7では、開始後、ステップ240でビデオエンコードに必要とされるパスの数Pが求められる。ビデオをMPEGフォーマットにエンコードするためには、通常、2つ以上のパスがビデオのエンコードに必要となる。本発明の場合、望ましいパス数は2であるが、3つ以上のパスも可能である。それから、ステップ242でエンコードされるオーディオトラックの数Tが求められる。本発明では、異なったオーディオトラック数も可能であるが、オーディオトラックの数は8が望ましい。次に、ステップ244では、もっとも効率的なオーディオ映像エンコードを実行するために必要とされるワンパスオーディオエンコーダ数AEが計算される。必要なオーディオエンコーダの数は、ビデオエンコードに必要とされるパスの数で除算されるエンコードされるべきオーディオトラック数に等しい。実施例では、エンコーダの2つのパスで除算される8つのオーディオトラックは、必要な4つのオーディオエンコーダに等しい。オーディオエンコーダの計算された数が整数ではない場合、オーディオエンコーダの計算された数は、整数となるように切り上げる必要がある。例えば、7つのオーディオトラックだけしかツーパスビデオエンコーダにエンコードされない場合、7/2=3.5となり、3.5は次にもっとも大きい整数4に切り上げられる。本システムによって実行されるエンコードプロセスの間、1つのビデオパスはオーディオエンコーダの内3台しか使用しないが、それ以外のビデオエンコードパスは4台のオーディオエンコーダすべてを使用する。ステップ240-244が、システムの初期設計時にだけ実行される必要があり、オーディオ映像作業がエンコードされるたびに必要とされるワンパスオーディオエンコーダの数を計算する必要はないことに注意すべきである。さらに、ステップ240、242および244は、ワークステーション30のようなコンピュータによってコンピュータ／マシン実装されるか、あるいはユーザまたはオーディオ映像エンコードシステムの設計者により判断される。

オーディオエンコーダの数が求められ、オーディオ映像エンコードシステムがセットアップされてから、オーディオ映像エンコードプロセスが開始できる。ステップ246では、1にカウンターがセットされる。カウンターは、ビデオエンコードシステムの各パスをカウントするに用られる為に可変である。それから、ステップ248は、オーディオトラックのすべてではないが、いくつかでワンパスオーディオエンコードを実行しながら、第1ビデオエンコードパスを実行する。例えば、8つのオーディオトラックおよび1つのツーパスビデオエンコーダが存在する場合、第1パス中に4つのオーディオエンコーダを使用できる。それからステップ250で、カウンターが1だけ増される。ステップ252では、ステップ248で使用されたのと同じオーディオエンコーダを使用して、エンコードされていないオーディオトラックのワンパスオーディオエンコードを実行しながら、次のビデオエンコードパスを実行する。例えば、第2ビデオエンコードパスの間、ステップ249で使用される4つのオーディオエンコーダは、オーディオトラック５から8をエンコードできる。それからステップ254で、カウンタがP、必須ビデオエンコードパス数に等しいかどうかが判断される。実施例では、2つのビデオエンコードパスしかないため、プロセスは終了するだろう。終了しない場合、フローはステップ250、252、および254から成るループを実行するために戻る。

言うまでもなく、8つのオーディオトラックがあるオーディオ映像作品用のツーパスビデオエンコーダを使用するだけではなく、それ以外の実施例も可能である。例えば、スリーパスビデオエンコーダは、6つのオーディオトラックで使用できる。この状況では、オーディオエンコーダのもっとも効率的な数は3（6/2=3)である。ツーパスビデオエンコーダが使用され、合計6つのオーディオトラックがエンコードされる場合、オーディオエンコーダのもっとも効率的な数は3となるだろう。代替策として、スリーパスビデオエンコーダを、エンコードするオーディオトラックが5つあるシステムで使用することができる。この代替システムでは、オーディオエンコーダの内の1つしか使用されず、他の2つのビデオエンコードパスが、両方オーディオエンコーダの両方が使用されている間に発生する一方、ビデオエンコードパスの内のどれか1つが動作している状態の2つのワンパスオーディオエンコーダが必要である。従来の技術の当業者に明らかになるように、ビデオエンコーダとオーディオトラック数のこれ以外の組み合わせも、本明細書に記載される教示を考慮すると可能である。

できるかぎり効率的であるという点での本発明の重要な一面とは、ビデオエンコードのパスが発生している間につねにオーディオエンコードを実行し、オーディオエンコードが実行している間につねにビデオエンコードのパスを実行するということである。この取り決めでは、ビデオエンコード動作の1パスの間に、オーディオエンコーダの少なくともいくつかがつねに使用されることになる。できるかぎり効率的であるためには、オーディオトラック数をオーディオエンコーダの数で均等に除算できない場合（つまり、エンコードされるオーディオトラックの数をビデオパス数で除算すると余りが出る場合）、エンコードプロセス全体で、ビデオパスから余りを差し引いた数に等しい数の休止していたオーディオエンコーダがある。例えば、スリーパスビデオエンコーダおよび4つのオーディオトラックの場合、2つのオーディオエンコーダが必要とされ、余り1が出る（例えば、4/3=1で余りが1）。したがって、もっとも効率的であり、スリーパスビデオエンコードが完了されのと同時にオーディオエンコードを完了するためには、オーディオエンコーダが休止となるのはわずか2回である（例えば、3つのビデオパスから余り1を差し引くと2に等しい）。エンコーダが休止する2回は、同じパスで発生可能であり（同じビデオエンコードパスに異なった2つのオーディオエンコーダがある）、前記例のそれ以外の2回のビデオエンコードパスのそれぞれがオーディオエンコーダのすべてを活用するか、あるいは1つの休止オーディオエンコーダがある2つのビデオエンコードパスがあるという意味である。これらの2つのパスでは、同じまたは別のオーディオエンコーダが休止となることがある。
VI. エンコードされたビデオの情報を記憶するためのログファイル、ならびにログファイルおよびエンコードされたビデオにアクセスするためのログインタプリタユーティリティ
開示されたエンコードシステムは、当初、MPEG-2、MPEG-1、またはそれ以外のデジタルビデオエンコードフォーマットのような圧縮済みデジタルフォマットにビデオをエンコードする。このエンコードは、システム構成要素に関する第II項および汎用システム動作に関する第III項に説明する。したがって、エンコードされたビデオデータは、例えばハードディスク上のデジタルフォーマット内で記憶される。

デジタルビデオエンコードプロセスの間、ビデオの統計およびそれ以外の情報が作成され、ログファイルに記憶される。MPEGビデオエンコードに精通した従来の技術の当業者は、ビデオを記述する統計および情報の種類、およびこれらの統計および情報を作成する方法を熟知している。従来のエンコードシステムでは、この種類の情報およびデータは作成されるが、通常、ビデオエンコードの後に廃棄される。しかし、本発明の場合、ピクチャをコーディングするために使用された合計ビット、ピクチャをエンコードする平均二乗エラー、ピクチャあたりの平均量子化スケールなどのような作成されたこの情報は、エンコードプロセスの後で、システムRAMからログファイルにダンプされる。本発明によって使用されるログファイルの例は、図8A-10Bに説明する。これらのログファイルは、VBRシステムで特に有効であり、ビデオエンコーダの初期パス（複数の場合がある）の間に作成される。それから、ログファイルは、最終エンコードパスの間およびビデオの後での編集および再エンコードの間に使用される。

本発明により使用されることがある、シーケンスレーヤのログファイル、ピクチャレイヤログファイル、およびマクロブロックレーヤのログファイルという異なった3種類のログファイルがある。これらのログファイルのそれぞれが、その各レイヤの統計および情報を記述する。図10（A）にブロック図で示される完全フォーマット、および図10（B）にブロック図で示される短縮フォーマットという異なった2種類のマクロブロックレーヤのログファイルフォーマットがある。マクロブロックレーヤのの詳細な情報が必要とされる場合には、完全フォーマットが使用され、マクロブロックの詳細のすべてを追跡調査する必要がない場合には、短縮フォーマットが使用される。2時間の映画中のマクロブロックの数は多数であるため、マクロブロックログファイルは大量の記憶スペースを消費する。したがって、大きな記憶スペースが使用できない限り、完全または短縮フォーマットのマクロブロックファイルを記憶することはできない可能性がある。ただし、マクロブロック情報を入手する必要がある場合は、エンコードビデオを復号化するか、あるいはそれ以外の手段でこの情報を再構築することができる。

図8A-10Bにブロック図で示されるログファイルフォーマットの詳細の多くは重要ではなく、これらのファイルフォーマットは、単に、エンコードプロセスの間に作成できるデータの例図としてのみ提供されたことに注記すべきである。しかし、ログファイル中の情報のいくつかは、ビデオの質を変更するプロセスの間に使用されるので重要である。以下に説明するように、エンコードされたビデオの編集ポイントを決定するためには、初期のピクチャにより消費されるビット数を総計する必要がある。合計される情報は、図9Bおよび図9Cに描かれ、ピクチャごとのビット数（generated_bit_picture）、シーケンスヘッダ（bits_sequence_header)、ピクチャのグループ(GOP)ヘッダのビット数(bits_GOP_header)、およびスタッフィングとして使用されるビット数またはスペースを埋めるために使用されるビット数(stuffing_size)に関する。

図11は、ログファイルを使用して実行されるさまざまな機能のフローチャートを説明する。ビデオセグメントの初期エンコードの後、ステップ270では、図8A-9Cにブロック図で示されるビデオエンコーダの自動実行から作成されたピクチャおよびシーケンスレーヤのログファイルを読み込む。それから、ステップ272でエンコードされたビデオに録画されるピクチャごとのログファイルレコードのバイトオフセットを示すインデックステーブルを作成する。2つのテーブルが作成される。一方はフレーム番号により、もう一方はタイムコードによりインデックスが付けられる。タイムコードインデックステーブルには、ピクチャごとのログファイルの中にオフセットされるバイトが記憶され、タイムコードの昇順で並べ替えられる。同様に、ピクチャフレームインデックステーブルには、（エンコーダによって確認されるように）入力されたピクチャ番号の昇順で並べ替えられるログファイル内へのバイトオフセットが記憶される。

作成されたインデックステーブルは、任意の希望されるピクチャまたはマクロブロックのログ情報をすばやく選び出すのに有効である。ログファイル内のシーケンス、ピクチャまたはマクロブロックのデータを記憶するためには固定サイズレコードが使用されているが、エンコーダはそれらをコーディングする前に入信ピクチャを並べ替える。加えて、3:2の割合で毎秒30フレームに引き下げられた映画（毎秒24フレーム）ソースを取り扱う場合、ある種のタイムコードは省略される。インデックステーブルは、ピクチャの並べ替えおよびタイムコードの省略にも関らず、適切なデータの位置をすばやく突き止めるための手段となる。

ビデオのさまざまなフレームと期間がその品質を手動で改変されるに従い、エンコードされたビデオは頻繁に変化するので、本発明によるエンコードシステムが、各ピクチャをコーディングする際に使用されるエンコードされたのビット数のディレクトリまたはインデックスを維持しないことを注記すべきである。ただし、エンコードされたの情報を記述するログファイルは固定サイズレコードであるため、ピクチャまたは期間の品質が改変されても、ログファイル内の情報のディレクトリまたはインデックスを維持することは容易である。

インデックステーブルの作成後、ステップ274を使用することにより、ユーザは、ブロック276、278、および280に描かれるさまざまなログファイルユーティリティを使用するログファイルからさまざまな情報をすばやく入手できる。ログファイル中のレコードが必要とされる場合、作成されたインデックスは、ログファイル内の希望のレコードを突き止めるために使用され、完全なレコードがログファイルから引き出される。それから、このレコードは希望される個々のパラメータを検索するために解析される。個々のレコードをインデックステーブルを使用して解析するプロセスは、他のログ解釈プログラムユーティリティのすべての基礎となる。解析プロセスは既知であり、従来の技術の当業者は、編成されたファイルから希望の情報を検索する方法を理解している。

ステップ276は、ログファイルのカットアンドペーストユーティリティである。フレーム内でまたは期間で手動で量子化（および画質）を変更した後、ログファイルのオリジナルセットは、編集中に発生した変更に対応するように更新されなければならない。ログファイルのカットアンドペーストユーティリティは、編集済みのセグメントタイムコードに対応するログファイル内でオフセットの位置を突き止め、ログファイル内の情報を再エンコードされたビデオに対応する新しい情報で置き換える。再エンコードのプロセスについては、以下のVIII項に説明する。

ステップ278では、デジタルでエンコードされたビットストリームの編集を可能とするためにパラメータを入手するためのユーティリティを示している。ビデオが最初にエンコードされ、ユーザがビデオのフレームの品質または期間の改変を希望する場合、削除され、希望の品質を備えた新規にエンコードされたビデオで置き換えられなければならないエンコードされたビデオ内の適切な部分を突き止める必要がある。

エンコードされたビデオのビットストリーム内の編集ポイントのバイトオフセットは、編集ポイントに対応するピクチャまで各ピクチャをエンコードするのに使用されるビットの累積項目を計算することにより求められる。指定のピクチャが位置するファイルの最初からのバイトまたはビットの総数を求めるために、以前のピクチャのそれぞれをエンコードするのに使用されたビット数が合計される。合計されたピクチャログファイルから入手される情報とは、ｉ番目のピクチャをエンコードするのに使用されるビットＢｉの数、シーケンスヘッダを構成するビットＳｉの数、ピクチャのグループ（GOP）ヘッダをエンコードするのに使用されるビットＧｉの数、スタッフィングとして使用されるビットＴｉの数である。N番目のピクチャのビットオフセットは、次に示すように計算される。

Σ_i=1 ^N-1（Ｂｉ＋Ｓｉ＋Ｔｉ）（１）

バイトオフセットは、ビットオフセットを8で除算することによってだけ計算される。エンコードされたビデオビットストリーム中のアドレスオフセットを求めるためにログファイルを使用する代替策として、ビットストリームデコーダを使用して、ピクチャオフセットのディレクトリを作成することができる。ただし、エンコーダは、ディレクトリを更新するために編集が終わるたびにビットストリーム全体を実行しなければならないため、このアプローチは面倒である。

最後に、ステップ280では、タイムコードをもっとも近いピクチャのグループ（GOP）の最初または最後に四捨五入するためのユーティリティを示している。エンコードされたビットストリームのすべての切取りまたは編集は、ピクチャのグループ（GOP）の境界で実行される。ただし、GOP境界はビデオに編集を実行するオペレータにはわからない。オペレータがいったん編集セグメントの開始ポイントおよび終了ポイントを指定すると、システムはGOP境界を計算する。GOP境界は、各ピクチャレコード内に記憶されるGOP番号と呼ばれるピクチャレイヤパラメータを検討することにより設定される。ピクチャレイヤログファイルの連続レコードを通してトレースすることにより、図9Bの中のGOP番号（GOP_number）が変化すると、GOP境界があると判断される。

ログファイルおよびログファイルユーティリティは、ビデオエンコーダに密接に関係しているので、ログファイルは図1Aに図示されるワークステーション10のハードディスク内に記憶され、ログファイルユーティリティはワークステーション10により実行される。代わりに、ワークステーション30またはそれ以外のの任意の処理システムにログファイルが格納され、ログファイルユーティリティが実行されることがある。
VII. エンコードされたビデオの品質の変更
A. 期間での品質の変更
エンコードシステムにより作成されるエンコードされたビデオは、光ディスクのような最終的なデジタル記憶媒体に書き込まれることを目的とする。ディスク上のエンコードされたビデオは、一定ビットレート(CBR)動作と比較すると、ビデオの異なったセクションの間でのビットレートの大きな変更の可能性を提供する可変ビットレート(VBR)でエンコードされる。VBRコーディングにより、著しく異なるビット数を異なったピクチャに割り当てることができるようになるため、画質は経時的に変化する。さらにVBRは、CBR動作では不可能なスケール内でのユーザによって定義されたビデオのセクションにデータレートを割当てし直す可能性も提供する。CBRにより同じことを達成する場合には、デコーダできわめて大きなバッファが必要になるだろう。

エンコードシステムによって手動編集と呼ばれることが可能になるが、手動編集とは、映画の中で場面を短縮または延長したり、異なった場面を置換することではなく、画質を変更することである。画質は経時的に変更することができ、本項に説明するように時間的編集または時間的手動編集と呼ばれる。別の項では、フレームのあるセクションからフレームの別のセクションにビットをシフトすることによって、データのフレーム内での画質を変更する、空間編集または空間手動編集と呼ばれることについて説明する。

時間的編集、つまり編集セグメントのさまざまなセクションの間でのビットを再割当てで、以下に示す3つの主要な制約を満たす必要がある。

1.編集される映画／ビデオの総容量が割り当てられた容量を上回らないこと。

2.編集セグメント内にバッファアンダフローがないこと。
および
3.時間的編集によって生じさせられる編集セグメントの外側にバッファアンダフローがないこと。

制約1は、結果として生じる編集済みのセグメントが最初にエンコードされたセグメントと同じビット数を消費するように編集セグメントをエンコードし直すことにより処理される。変種セグメントが検討される期間全体であることを注記すべきである。編集セグメント内の異なる期間には、ユーザにより品質が指定され、編集セグメントのこれらの期間は単にセクション、または期間と呼ばれる。

アンダフロー状態が存在するかどうかを突き止めるためには、デコーダのモデルを使用して目標ビットを確認することが必要である。エンコーダのVBR動作では、ビデオバッファ検査機構（VBR)モデルの修正されたバージョンが使用される。このモデルは、VBRの簡略修正モデルと呼ばれ、デジタル記憶装置媒体(DSM)に使用できる。VBRモード用のVBVは既知でありMPEG-2規格で定義され、ISO/IEC 13818-2の第C.3.2項の付録Cに特に記載される。

VBR用VBVモデルでは、デコーダのバッファはいっぱいのままであるが、アンダフローしないように制限されている。さらに、バッファは一定のレートRmaxでバッファがいっぱいになるまで充填し、それからバッファが空になり始めるまで、ビットはバッファに伝送されない。各フレーム間隔ごとに、あるフレームを復号化するために必要とされるビットがバッファから削除される。これを念頭に入れておくと、VBRモードでは、ピクチャの列に割り当てるビットが多すぎると、バッファアンダフローが発生することが分かる。ピクチャのビットがバッファから削除されるに従い、バッファは空になり、高画質ピクチャのビットの大多数がバッファを充電できるレートより早いレートで削除される場合、バッファがアンダフローする。アンダフローを防止するために、ピクチャをエンコードするために使用されるビット数が低減される。ピクチャのビット数を低減すると、充填レートは同じに保たれるが、ビットをバッファから削除するレートが低減される。VBV占有がいっぱいである場合、VBVバッファヘのビットストリーム伝送は即座に停止されるため、バッファオーバフローはVBRに関して発生できない。つまり、バッファオーバフローではなく、単にバッファがいっぱいな状況が存在する。 ISO/IEC 13818-2、付録C、第C.3.2に説明されるように、 VBRの簡略修正VBVモデルは以下の通りである。

1. sequence_headerでのbit_rate_fieldはmax_bit_rateを表す。

2. VBVは当初空である。VBVバッファ（つまりVBVバッファファイル）をmax_bit_rateのレートでいっぱいに満たしてから、復号化プロセスが開始する。ピクチャデータは、MPEG-2国際規格に定義されるCBRのVBVモデルのようにただちに削除、エンコードされる。

3. ビットストリームは、VBVバッファがいっぱいになるまでmax_bit_rateのレートでVBVバッファの中に格納される。VBVバッファ占有がいっぱいの場合、VBVへのビットストリーム転送は即座に停止される。次のピクチャのデータが削除されてから、ビットストリーム伝送は即座に開始する。

4. VBVバッファはアンダフローしないものとする。

5. 各vbv_delayフィールドがFFFFに設定される。

期間でビデオの品質を変更するには、ビデオのフレームにビットを追加またはビデオのフレームからビットを削除する必要がある。ここで、ビデオのセクションに追加またはビデオのセクションから削除されるビットの数についての説明を行う。ビデオのセクションに追加またはビデオのセクションから削除できるビットの数は、検討されているビデオのセクションの有効ビットレートに依存する。有効ビットレートRは、以下のように計算される。

R=（総割当てビット／フレーム数）＊Frame_Rate (2)
総割当てビットはビットレートに正比例しているので、割当てビット数を参照することは、異なる単位を使用する場合を除き、ビットレートと同じ意味を伝える。保証された最小レート、例えばRminがビデオの任意のセクションに適用されると仮定すると、セクション「ｉ」から削除できる最大ビット数は以下の通りである。

Ｔ_ｉ＝（Ｒ_ｉ−Ｒ_ｍｉｎ）＊Ｎ_ｉ／Ｆｒａｍｅ＿Ｒａｔｅ (3)

この場合、Niはセクション「ｉ」のフレーム数で、Ｒｉは同じセクションの有効レートである。保証された最小値は、セクションに最小品質レベルを保証するために必要とされる。同様に、指定されたセクション「j」に追加できる最大ビット数は、以下の通り計算される。

Ｔ_ｊ＝（Ｒ_ｍａｘ−Ｒ_ｊ）＊Ｎ_ｊ／Ｆｒａｍｅ＿Ｒａｔｅ (4)

この場合、Rmaxは最大レート、つまりバッファがいっぱいでないときに充填するレートであり、Njはセクションjのフレーム数である。

期間で画質を変更すること（時間的編集）についての説明は、今度は図12およびそこに参照される図に関して行う。開始後、ステップ281では、第II項および第III項で前述したようにユーザの介入なく自動ビデオエンコードを実行する。自動エンコードの場合、作成されるデータストリームの最大レートおよび最小レートがある。最大ビットレートは、ビデオデコーダの機能により決定され、例えばRmaxは毎秒Mbitsである。最小ビットレートは、希望される最小画質に応じて、ユーザが指定できる。典型的な最小ビットレートRminは毎秒3 Mbitsである。ビデオの部分が低いビットレートとなり、ビデオの部分が高いビデオレートとなることができるように、平均エンコードレートとは異なり、平均エンコードレートをやや下回るRminを設定するのが望ましい。Rminがビデオの平均エンコードレートをわずかに下回って設定されると、結果として生じるエンコードビデオはかなり一定した画質となる。通常、Rmax=毎秒8 MbitsでRminが毎秒約3 Mbitsの場合、ビデオの平均値は毎秒約3 1/2から5 Mbitsとなるはずである。

移動ビデオエンコードがステップ281で実行された後、レート量子化関数を求める必要がある。本発明のプロセスでは、希望の品質を獲得するのに必要なビット数が求められるが、再エンコード時には、希望のビットレートを結果的に生じさせるために量子化値を設定しなければならない。レート量子化関数は、それぞれ参照により本明細書に取り入れられる記事、画像処理に関するIEEE会報、第3巻、第5号、1994年9月、533-545ページのラムチャンドラン(Ramchandran)その他による「マルチ解像度およびMPEGビデオディスクロージャに適用される依存量子化のためのビット割当て」、IEEE ICASSP、1993年、V381-V-384、ラムチャンドランその他による「MPEGビデオ符号器に適用される依存量子化のためのビット割当て」、および1994年にプリンストンビデオ会議で提示されたレイニンガー(Reininger)による「レート−歪み曲線を使用する多重化されたMPEGビデオ用の共同マルチチャネルビットレート制御」に説明されるような従来の方法で計算できる。

次に、ステップ284では、選択された期間のユーザ品質設定値を入力する。ユーザは、究極的にはピクチャの量子化を制御するのに使用される異なったセクションの優先順位を入力する。量子化は、損失のあるMPEGエンコードの解像度とも呼ばれる画質を制御する。図13には、期間でビデオの品質を変更するために情報を収集する目的で使用されるユーザインタフェーズを説明する。当初、ユーザは、品質を変更することになる編集セグメント全体の期間を入力する。この応報の入力は、図13のユーザインタフェースには図示されていないが、図13のユーザインタフェースが表示される前に入力される。図13に示される例の場合、変更対象の編集セグメントの期間が、例えば時間0分から時間5分までとなることがある。ユーザが編集セグメントの総期間を記述した後に、編集セグメント内のさらに短い期間に、優先順位Pを含む-5から+5までの範囲のさまざまな優先順位が指定され、この期間の品質が保護され、改変してはならないことを示している。優先順位「なし」は、Pという優先順位と同じ意味である。エンコードシステムは前記入力スキームに限定されず、ユーザの希望の優先順位を入力するために、それ以外の範囲または記号を使用できるのは言うまでもない。

優先順位を指定するのに加えて、ユーザは最小ビットレートも入力する。このビットレートは、ステップ281の自動ビデオエンコードの間にビデオをエンコードするために使用される最小ビットレートと異なっている場合がある。ユーザインタフェースのもう1つの特徴とは、それを使用すると、ユーザが「バックグラウンド優先順位」を設定できるという点である。これは、ユーザが優先順位を指定したのではない選択済みの期間内の期間にこのバックグラウンド優先順位が設定されることを意味する。例えば、図13では、バックグラウンド優先順位に「1」が指定されるとすると、未指定の期間00:03:20:01から00:03:59:99には、ユーザが手動でこの特定のセクションに優先順位を指定しなくても、「1」という優先順位が自動的に指定される。

図13に描かれるインタフェースの底部では、編集セグメント内で新しい期間を作成するために「挿入」ブロックが使用され、以前に作成された期間を変えるために「リコール」ブロックが使用され、期間に加えられる変更を保存するために「更新」が使用され、期間を削除するために「削除」が使用される。
光ディスクのようなエンコードされたビデオ用の究極のデジタル記憶装置媒体は、自動的にエンコードされたデータがディスクに書き込まれる場合には、理想的には容量まで満たされる制限された記憶領域容量を備える。したがって、画質を向上させ、ある特定の期間のビットレートを引き上げる場合はつねに、品質が向上した期間に必要な余分な記憶容量を供給するために、品質が低下したビデオのセクションが存在しなければならない。したがって、本発明の実施例では、品質を改善するのに必要なビットはビデオの別のセクションから取らなければならないため、別の期間に違う画質を割り当てないで、1つの期間だけに高い画質を割り当てることは不可能である。したがって、編集されたビデオのセグメントには、バックグラウンドセクションとは異なり、時間的な手動編集が適切に動作するために「保護つき」のセクションとマークされていない少なくとも1つのセクションがなければならない。さらに、ユーザが優先順位を設定した結果、同じ画質およびビットレートが、それらが選択されるたびに生じることはないが、編集セグメント内のピクチャのビットの修正された数を求めるためのプロセスを理解すると明らかになるように、ある特定のセクションの品質は、他のセクションの割り当てられた優先順位および他のセクションの長さにも依存する。

本発明によるエンコードシステムにより活用される特徴とは、視聴者が、自動エンコードプロセス中にまたは後日、エンコードされたビデオをレビューすることができるという点である。エンコードされたビデオが視聴者に表示されるに従って、視聴者は、ビデオを停止したり、関心のあるタイムコードを書き残したりしなくても、ビデオの関心のあるポイントや領域を記憶するために、リターンキーを押したり、画面に表示される「ボタン」の上でグラフィックユーザインタフェースを「クリック」するなどの機能を実行できる。これらの関心のあるポイントは、後日、ユーザが呼び出し、映画全体をレビューしなくても綿密に検討することができる。これは、ユーザが変更を希望するエンコードビデオ内のポイントを決定する便利で、効率的な方法となる。この機能は、関心のあるポイントや領域が発生した時点での位置に対応して、タイムコードを記憶することによって達成される。

ユーザがステップ284で希望の品質設定値を入力してから、ステップ286でユーザの入力に基づいてフレームごとに修正されたビットが計算される。このプロセスは、図14-16Bに関して詳細に記述される。ビデオの編集セグメント内で時間のビットレートを変更するための一般的な手順は、図14のフローチャートに説明される。ユーザの入力に基づいてビットレートを計算するために、ステップ302では、-5と+5の間の範囲内から10と0の間の範囲内にあったユーザの入力をマッピングする。-5という初期入力は、10というマッピングされた設定値に対応し、最小品質であり、+5という入力は0というマッピングされた設定値に対応し、最大画質である。同様に、0という入力された品質選択は5というマッピングされた設定値に対応するなどである。ステップ302で実行されるマッピングの目的とは、割り当てられたビット数がマッピングされた設定値により乗算される量-1のべきまで引き上げられるe（2.71828...）に比例することである。この場合、優先順位の設定値がさらに小さい場合のビット数が、優先順位が高い場合より下回るように、さらにe-10はe0を下回る。目標ビットを優先順位-4から+4に対応して求めるプロセスは、図16Aと図16Bに詳細に説明される。

ステップ304では、「保護つき」のセクションがあるかどうか判断される。保護つきセクションとは、画質を以前の自動エンコードから変更してはならないセクションのことである。保護つきセクションがある場合は、フローはステップ306に進み、そこで保護つきセクションの再エンコードに割り当てられるビット数が最初の自動エンコードの結果生じる以前のビット数に等しくなるように設定される。このようにして、保護つきセクションのピクチャ品質は変化しない。

ステップ308では、最大品質または最小品質に設定されるセクションがあるかどうか判断される。最大品質とは、ユーザ入力+5に対応し、最小品質とはユーザ入力-5に対応する。最大画質および最小画質の場合、依然としてビデオバッファの制約を満たし、エンコードされたビデオを記憶する媒体の記憶容量を上回らずに、それぞれ最高品質のビデオと最低品質のビデオが設定されたエンコードされたビデオを入手するのが望ましい。最大品質または最小品質に設定されるセクションがある場合は、フローは、ステップ310に進み、そこで最大ケースまたは最小ケースの修正ビット数が計算される。このプロセスは図15に詳しく示される。

図15では、最大ケースおよび最小ケースに割り当てられたビット数を求めるプロセスが、マッピングされた優先順位の10と0にそれぞれ割り当てられたビデオのセクションに最小レートおよび最大レートを割り当てることによってステップ320で開始する。図14のステップ302では、このマッピングおよび時間的編集の記述の残りの部分が実行され、それ以外の明確な指示がないかぎり、マッピングされた優先順位が参照される。以下に記述されるように、最大データレートはデコーダの能力により制限を受け、毎秒1 Mbitsとなり、最小データレートは、示しているように図13でユーザインタフェースによりブロック図され、通常は毎秒3Mbitsとなる自動エンコードモードの間に使用される最小ビットレートを下回ることもあれば、上回ることもある。

それから、ステップ322では、マッピングされた優先順位1から9が設定されたセクションがあるかどうか判断される。つまり、最大品質または最小品質が割り当てられていることに加え、ユーザが割り当てるそれ以外の中間品質が存在するのである。それ以外のマッピングされた優先順位がある場合には、フローはステップ324に進み、1と9の間のマッピングされた優先順位が設定されるすべてのセクションの平均ビットレートが計算される。この平均が許容範囲（最大ビットレートと最小ビットレートの間）にない場合、フローはステップ328に進む。ステップ328では、最大レート、つまり最高の画質を実現するレートは、平均が最小レートを下回る場合に低減される。最大レートを引き下げることにより、非最大状況および非最小状況（マッピング優先順位1-9）に使用できるビット数が多くなり、それにより平均が希望の範囲内または希望の範囲近くとなる。代わりに、ステップ328では、平均が最大レートを上回る場合、最小データレートは引き上げられ、それにより非最大状況および非最小状況（例えば、優先順位1-9）のビット数が引き下げられる。ステップ328の後、フローは平均が範囲内になるまでステップ324、326、および329が繰り返される324に戻る。さらに、最大ビットレートおよび最小ビットレートは、「保護つき」セクションが品質の調整の前と同じビットを受け取ることを確実にするために調整される。

いったんステップ326で平均が範囲内にあると判断すると、フローはステップ330に進み、それぞれマッピングされた優先順位10と0が設定されるセクションに計算された最小レートおよび最大レートが割り当てられる。それから、ステップ332で、残りのビットは、保護つきではなく、最大状況や最小状況でもないセクションに分配される。マッピングされた範囲1-9が設定されるビデオのセクションおよびデータレートの変更方法については、図16Aおよび図16Bに関して後で説明する。

ステップ322でマッピングされた優先順位1-9が設定されるセクションが存在しない、つまり最大セクション、最小セクションまたは保護つきセクションだけが存在すると判断した場合は、ステップ340で、ビットの最終割当てが自動エンコードによるビットの初期割当てと等しくなるまで、必要に応じて最小レートおよび最大レートを調整する。ステップ340を実行する2通りの代替方法がある。第1に、最大ビットレートRmaxは、例えば毎秒8 Mbitsで固定されている。総合的な編集セグメントの合計ビットは理解されているため、最小データレートであるRminは、自動エンコードの間に獲得されると同じビット総数を達成するために調整されるだけである。Rminを総ビットの以前の数を達成するために調整することができない場合には、自動エンコードの間に獲得されるビット総数を達成するために、最大データレートRmaxが調整される。

代替策として、ステップ340では最大品質セクションに優先順位1および最小品質セクションに優先順位9が指定され、編集セグメントの期間の新しいビットレートを求めるために、図16Aおよび図16Bにブロック図で示されるビット割当てアルゴリズムが実行される。それから、ステップ342で図16Aおよび図16Bに従って計算されたデータレートが、以下に説明するように、最低指定品質および最高指定品質が設定されるセクションに割り当てられ、図15のプロセスが終了する。

ステップ308およびステップ310が、必要な場合に実行された後で、ステップ312で、すべてのセクションにマッピングされた優先順位1-9が設定されるかどうか判断する。これが当てはまると、フローはステップ314に進み、図16Aおよび図16Bに詳説するように、マッピングされた優先順位の修正ビット数が計算される。

図16Aの最初のステップでは、使用される共通ビットプールのサイズを決定する。当初、保護つきではないマッピング優先順位1-9が設定されるすべてのセクションでゃ、一定数のビットが削除されている。再分配深度と呼ばれる係数k1は、このために使用され、例えば、0.4に設定され、以前に（つまり自動エンコード実行から）割り当てられたビットの40%が、保護つきでもなく、最大品質や最小品質によりマークされてもいないあらゆるセクションから削除されることになることを意味する。

次に、ステップ362では、ユーザ選択品質がどの程度品質に影響を及ぼすかを判断する。動的範囲係数と呼ばれる変数k3が設定され、優先順位から生じることになる品質変更を決定する。k3がどのように設定されるかに応じて、例えば優先順位2は、品質での相対的に小さな向上、または品質での比較的に大きな向上のようなさまざまな品質の変更を課す場合がある。通常、動的範囲係数k3は、1.0に設定される。

ユーザ選択優先順位をビットの再分配で使用するには、形式exp（−優先順位/k3）の指数的な関係が使用される。指数内の動的範囲係数k3が、指数曲線の形状を決定する。曲線は、動的範囲係数の値が大きくなるほど急勾配となり、実質上、変化する優先順位が設定されたセクションの間で割当てし直したビットでの不均衡が強まる。この負の指数は、マッピングされた優先順位の絶対値が増加するに従い（さらに低い優先順位セクション）、そのセクションに割り当てられるビットは減少する、つまりマッピング優先順位1は最高の優先順位で、9まで数を引き上げると設定される優先順位が低くなることを意味する。

ステップ364では、ユーザ選択優先順位が正規化される。つまり、ユーザが選択した優先順位が、各セクションの相対優先順位を決定するために使用される。まず、E1が計算される。

Ｅ_ｉ＝ｅｘｐ（−ｐ_i／ｋ_３）（５）

この場合、p1とはマッピングされたユーザ選択優先順位で、ｉは、保護つきまたは最大品質や最小品質が設定される期間を除く、編集セグメント内のセクション期間である。次に、優先順位製機化係数k2が、以下のように計算される。

ｋ_２＝Σ_i=1 ^NＥ_ｉ（６）

この場合、Nはセクション数である。優先順位正規化係数は、優先順位に従って割当てし直されたすべてのビットの合計が、つねに、ビットの使用可能な共通プールに等しくなることを確実にするために必要とされる。

したがって、各セクションの相対優先順位は、以下のように計算される。

Ｒi＝Ｅ_ｉ／ｋ_２（７）

Riはｉ番目のセクションの相対優先順位の端数であるので、すべてのRiの求和は単一となる。

ステップ366でセクションのサイズが正規化される。割り当てられた優先順位が設定される期間のサイズは異なり、ビットはさまざまなセクションのサイズに比例して分配されなければならないので、これが必要である。第1に、編集済みフレーム総数での各期間内のフレーム数の端数Ti（保護つきではない、非最大、または非最小優先順位が設定されるフレーム）は、以下に従い求められる。

Ｔ_ｉ＝Ｎ_ｉ／Ｎ (8)
この場合、Niはｉ番目の期間内のフレーム数であり、Nは編集セグメントのフレーム総数である。つまり、改変され、保護されておらず、最大でも最小でもない優先順位ではない）優先順位が指定されるすべてのフレームである。したがって、サイズ正規家系数k3は、以下の等式に従い計算される。

ｋ_４＝Σ_i=1 ^N（Ｔｉ*R_ｉ）（9）

この場合、Nはセクション数である。図16Aのステップ366から、フローは図16Bのステップ368に進む。

図16Bでは、ステップ368で、以下の等式に従い、ビットの共通プールが求められる。

Ｃ＝Σ_i=1 ^N（ｋ_ｉ*Ｂ_ｉ）（１０）

この場合、Biはｉ番目のセクションの自動エンコード手順の間に使用されたビット数に図15のステップ332で分配されたあらゆるビットを加算したビット総数である。求和は「N」セクション上である。

それから、ステップ370で、以下の等式に従い各セクションに割り当てられるビットのターゲット数を求める。

Ｆ_ｉ＝Ｃ＊Ｔ_ｉ＊Ｒ_ｉ／ｋ_４＋（１−ｋ_ｉ）＊Ｂ_ｉ（１１）

各セクションのビット総数Fiは、ビットの共通プールのパーセンテージにビットの共通プールに与えられたビット分低減されたビット(Bi)の元の数を加算したものに等しい。ビットの共通プールからのビットのパーセンテージは、各セクションのフレーム総数の端数(Ti)、セクションの相対優先順位(Ri)、およびセクションのそれぞれに総計されるフレームおその対応する端数で乗算されるセクションの優先順位に依存するサイズ正規化係数(k3)に基づいている。

ステップ370で計算されたセクションごとに割り当てられたビットのターゲット数が最大データレートと最小データレートの間にない場合がある。これが当てはまると、ステップ372で、再分配深度k1が0.01低減され、フローは、ステップ368のビットの共通プールを計算し直し、ステップ370のビットのターゲット数を計算し直すために戻る。ステップ368、370、372および374のループが、ステップ370で計算されたビットのターゲット数が最大データレートと最小データレートの間になるまで実行される。

それから、ステップ376では、ビット位取り因数Siおよびイントラフレームおよび非イントラフレームが、希望の品質を獲得するために異なるビット数を必要とする。まず、ビット位取り因数Siが、以下の等式に従い計算される。

Ｓ_ｉ＝Ｆ_ｉ／Ｂ_ｉ（１２）

次に、イントラピクチャおよび非イントラピクチャの位取り因数が計算される。イントラ位取り因数SIiは、以下の等式い従い計算される。

ＳＩ＝Ｓ_ｉ−（Ｉ_ｆ＊Ｓ_ｉ‘）（１３）

大きなイントラフレームにより、バッファアンダフローが発生する可能性があり、イントラ因数Ifは、イントラピクチャのビット割当てでの変動を、If=0.8のときに20%に制限することによって安全率を示す（つまり、SIiは範囲0.8<ＳＩｉ<1.2に制限される）。Si'-Si-1.0であることに注意する。非イントラビット位取り因数SNiは、以下のように計算される。

ＳＮ＝Ｓ_ｉ−（Ｉ_ｆ＊Ｓ_ｆ’＊ＢＩ_ｉ／ＢＮ_ｉ）（１３）

この場合、BIiおよびBniは、ピクチャタイプによってｉ番目のセクションで合計される総イントラビットと非イントラビットである。

最後に、フレームごとに使用されるビット数は、適切な食らい取り因数（イントラ位取り因数または非イントラ位取り因数のどちらか）で乗算される元のビット数を使用して求められる。それから、図16B（および図14）のプロセスが終了する。

この時点で、各フレームの修正されたビット数が計算され、図12のステップ286が完了する。ただし、フレームの変更済みビット数によりバッファアンダフローが生じたり、編集セグメントの立ち下がり端でのビット数の占有が、編集セグメントの外のそれ以降のフレームがアンダフローするように変化する場合がある。これらの状況は、必要ならば、図17に詳説される図12のステップ288で調べ、訂正される。

図17は、バッファアンダフローがないか確認、訂正し、編集セグメントの立ち下がり縁でのビット再割当てのための問題を確認、訂正するプロセスを説明する。図17では、ステップ390で編集セグメントのフレームのそれぞれのビット割当てをスキャンする。それから、ステップ392で、前述のVBVモデルを使用する新しいビットの分配のアンダフローがないか確認する。アンダフロー問題が存在し(u_flowリスト）、各アンダフローを排除するのに必要なビット数が求められ、u_valに記憶されるポイントのリストが作成される。アンダフローが、多すぎるビットによって表されるピクチャのために発生することを頭に入れていおくことが重要である。多数のビットで表される高品質のピクチャがデコーダによってバッファから読み出される場合は、ピクチャが復号化されるときにバッファから多数のビットが削除され、これらのビットは十分に速く再び満たすことはできない。したがって、アンダフローを排除するためには、ビットはピクチャ空削除される。さらに、ステップ392では、バッファがいっぱいであるポイントのリストが作成され、これらのポイントはo_flowに記憶される。前述したように、バッファがいっぱいになると、データはバッファに伝送されなくなるので、バッファがいっぱいであっても問題はないことに注意する。

ステップ394では、編集セグメントの立ち下がり縁でのバッファ占有を調べる。動作のVBRモードでは、編集済みビデオセグメントの立ち下がり縁でのバッファ占有が、編集済みセグメントがまったく同じビット数で置き換えられていても、修正された実行のバッファ占有とは異なる可能性がある。これは、VBR用のVBVモデルの特異性から生じる。したがって、バッファ占有の制約を調べることが重要である。編集セグメントの立ち下がり縁でのバッファ占有がビットの再分配の前とまったく同じか、あるいさらに高い場合に、問題は存在しないことを示すのはかなり簡単である。バッファ占有が以前とまったく同じ場合には、それ以降のフレームの占有も、VBV違反がないかすでに確認済みの以前の実行とまったく同じままとなる。占有が以前より高い場合、バッファがそれ以降のフレームの間にいっぱいになる可能性があり、それは、バッファがいっぱいな場合、データはバッファに送られなくなり、アンダフローは発生しないので完全に許容できる状態である。しかし、以前の実行と比較して、バッファ占有が立ち下がり縁でさらに低い場合に、第3のケースが生じる。これは、それ以降のフレームでバッファアンダフローを作成する可能性があり、密接に調べる必要がある。
編集セグメントの最後のフレームを、バッファセグメントの外側でのフレームのバッファアンダフローを防ぐために処理できる2通りの方法がある。第1のアプローチは、2つの内で簡単な方である。編集セグメントの最後のフレームのビット数により、（ログファイルに記憶される）元のエンコードより大きいまたは元のエンコードに等しいバッファ占有が生じる場合、アンダフロー問題は存在せず、したがって処置を講じる必要はない。編集セグメントの最後のフレームのバッファ内のビット数が、最初にエンコードされたセグメントのバッファ内のビット数を下回る場合、ビットのこの低減された数により、編集セグメントの後のフレームの内容に応じて、編集セグメントの外側のフレームのアンダフローが生じる場合もあれば、生じない場合もある。アンダフローが発生しないように防ぐのに必要となるビット数を求める代わりに、編集セグメントの最後のセグメントのバッファの占有が、元のエンコードの場合と同じになるように調整されるだけである。安全性の目的から、編集セグメントの最後のバッファ占有または十分さは、アンダフローの可能性がないことを保証するために元のエンコードの占有の10%上まで引き上げることができる。編集セグメントの最後のフレームのバッファ占有を元のエンコードのレベルになるように引き上げる必要がある場合は、終了フレームのビット数をステップ398で実行したように低減する必要がある。最後のフレームはアンダフローポイントとして処理され、u_flowリストに格納され、バッファレベルを元のエンコードのレベルまで引き上げるために最後のフレームから削除する必要があるビット数がu_valに付加される。

編集セグメントの再エンコードにより生じるアンダフローを処理するための第2のアプローチは、編集フレームの外側でバッファアンダフロー状況を引き起こさない編集セグメントの最後のフレームのバッファの最小可能レベルを概算する反復プロセスである。これは、元のエンコードのバッファ占有と編集セグメントの最後のフレームの再エンコードのバッファ占有の間の最大差異を概算するプロセスにより実行される。

図18にブロック図で示されるフローチャートを見ると、元のエンコードバッファ占有にはB0が割り当てられ、元のエンコードのログファイルに記憶されていた。ｉ=1...nの場合に編集セグメントの境界を超えたフレーム「ｉ」でのバッファ占有はBiである。この場合、「n」はエンコードされる映画内の最後のフレームに相当する。再エンコードのバッファ占有が、連続するフレームのどれかでアンダフロー状況を引き起こさずに元のエンコードからどの程度低くなることができるかは、再エンコードのバッファレベルを、少なくとも、それが元のエンコードのためであったポイントに設定するだけの第1アプローチとは対照的に決定されなければならない。この条件を満たす境界での新しいさらに低いバッファ占有をB0'にする。これは、編集セグメント境界での最小許容バッファ占有である。以前の実行のバッファ占有より低いバッファ占有を設定する可能性は、差異が、編集セグメント後のもっと遅いフレーム間隔で吸収されるため、アンダフローが発生しないという事実から生じる。

図18のステップ420で開始し、編集セグメントの最後のフレームの再エンコードされたビデオのバッファ占有B0'が、将来アンダフローを引き起こすことなくゼロであると想定する。これは、バッファ占有が、アンダフローを防ぐためにはより高くなければならないが、バッファ占有はゼロを下回ってはならない可能性があるため、B0'に関してもっとも自由な概算である。しかし、図18のプロセスは、再エンコードされたの編集セグメントの最後のフレームのゼロの占有によりアンダフローが生じるかどうか、および生じる場合、アンダフローを引き起こさない値B0'が見つかるまで、編集セグメントの最後でバッファ占有を増加させるかどうかを確認するためにチェックする。

図18のプロセスでは、元のエンコードと再エンコードの間の概算バッファ占有差異「X」を評価する。

Ｘ’＝Ｂｏ−Ｂｏ’ （１５）

差異「X」は、「X」がチェックされ、必要に応じてアンダフローのすべての可能性が排除されるまで調整されていることが保証されるまで、最終的に決定できないので概算と呼ばれる。図18の手順は、境界フレーム直後のフレーム、つまりｉ=1で開始して、一度に1フレームづつ進む。B0'がゼロに等しい第1フレームの場合、概算差異は、ステップ422で計算されるように、元のエンコードの第1フレームのバッファ占有の値であるのにすぎない。

Ｘ’＝Ｂｏ（１６）

次に、ステップ424では、境界フレームの右側にあるフレームにより吸収されるビット数を求める。吸収されるビット数とは、元のエンコードの編集セグメント後のフレームによりバッファの中に格納される場合もあるが、実際には、バッファがいっぱいであるためにさらにビットを受け入れることができなかったために元のエンコードの間バッファに格納されなかったビットを指す場合に使われる言い回しである。量△tiは、バッファがその間いっぱいであったが、B0'の値が引き下げられたために現在では追加ビットを受け入れることができる編集セグメントの後の元のエンコードのｉ番目のフレームの期間を表す。バッファはフレーム全体でいっぱいとなることはできず、ゼロより大きいか、ゼロに等しいため、期間△tiはフレームの期間を下回らなければならない。元のエンコードの間にバッファが一度もいっぱいでなかった場合には、期間△tiはゼロである。したがって、

１／Ｐ＞Δｔｉ≧０（１７）

この場合、'P'は毎秒フレーム単位で測定され、通常、毎秒30フレームであるピクチャレートである。バッファがいっぱいである結果、編集セグメントの右側で吸収されるビット総数は、以下のように計算される。

ａｉ＝Σ_ｋ=1 ^ｉ Δｔ_ｋＲｍａｘ（１８）

この場合、Rmaxはバッファの充填レートである。

ステップ426では、編集セグメントの最後のフレームのバッファ占有レベルを求めるための手順が終了できるかどうかを判断する。ｉ番目のフレームによって吸収されるビットの合計がX'を上回る、つまりai>X'である場合は、バッファアンダフローが発生しないで、ステップ428が実行されるように、バッファはもっと遅いフレームで満たされることができるため、手順は停止される。代わりに、最後のフレームnに到達すると(I=n)、ビデオの最後までX'の概算値によりアンダフロー問題が生じることはない。

ステップ426に対する回答が「ノー」の場合、ステップ430で吸収されずに残るビット数biが計算される。

ｂ_１＝Ｘ’−ａ_１（１９）

それから、ステップ432では、bi>Biであるかを判断する。この場合、Biとは編集セグメントの後のｉ番目のフレームのバッファ占有である。bi>Biの場合、現在のバッファ占有「Bi」が許容するより多くのビットが吸収されないで残っているため、差異の概算値、X'は大きすぎて、アンダフローを生じさせる。したがって、吸収されずに残るビットの間では、「Bi」ビットだけがアンダフローを引き起こさずに吸収できる。次に、差異の概算X'はステップ434で改訂されなければならない。ステップ434では、X'の改訂された概算は、吸収されずに残るビットに吸収されたビットを加算したものとして計算される。

Ｘ’＝Ｂ_１＋ａｉ（２０）

ステップ432で、Bi<Biであると判断する場合、ｉ番目のフレームでのバッファ占有は吸収されないで残るビットより大きいので、アンダフローの問題はなく、X'の概算を変更する必要はなく、フローはステップ436に進む。ステップ436では、次のフレームが調べられ（ｉは1で増分される）、ステップ424、426、430、432、434、および436のループが、ステップ426での判断に肯定的な回答が得られるまで繰り返される。

ステップ426に肯定的な回答が得られると、概算X'は受け入れられるため、ステップ428では、編集セグメントの境界での最小許容バッファ占有B0'は以下の通りである。

Ｂｏ’＝Ｂｏ−Ｘ’ （２１）

編集セグメントの再エンコードされた最後のフレームの実際のバッファ占有がB0'を下回る場合、アンダフロー状況がビットの再割当てのために発生する。この場合、最後のフレームはu_flowリスト内のアンダフローポイントとしてマークされ、アンダフロー状況（変更済みビデオのビット数と結果的に最小許容バッファ占有を生じさせるビット数B0'の間の差異）を防ぐための編集セグメントの最後のフレームから削除する必要があるビット数は、ステップ392について記述されたのと同様にu_valの中に格納される。

本発明のエンコードシステムの場合、ビデオの中のすべてのポイントのバッファ占有を知っていることが望ましく、この情報はログファイルに記憶されることに注記すべきである。しかし、編集セグメントの最後のフレームでのバッファ占有を引き下げる場合には、編集セグメント後のフレームのバッファ占有が変更され、ログファイル内のバッファ占有情報が不正確になり、そのため編集セグメント後のフレームのバッファ占有を計算し直す是正処置を講じる必要があるだろう。

図17のプロセスに戻って参照すると、ステップ396では、u_flowリスト内にエントリがあるかどうかを判断する。ない場合は、アンダフロー問題は存在せず、図17のプロセスは終了する。u_flowリストにエントリがある場合は、フローはステップ398に進み、u_flowリスト内の各位置の左側からもっとも近いo_flowポイントまでのセクションが保護つきとマークされ、u_val内の対応するビット数に等しいビットがこれらのセクションから削除される。バッファアンダフローは1つ以上のフレーム内の多すぎるビットにより引き起こされるため、フレーム内のビット数を低減すると、アンダフロー問題が解決される。アンダフローを防止するために削除されるビットが原因で画質に著しい低下が生じないようにするために、ビットはアンダフローポイントだけから削除されるのではなく、バッファがいっぱいであった最後のポイントまで戻ってすべてのフレームから均一に削除される。これが、アンダフローを防止しながらも最高品質のビデオを獲得する方法となる。

その後、ステップ398で削除されるこれらのビットは、ステップ400で保護つきとマークされないセクションに均一に分配され、図17のプロセスがもう一度開始する。ステップ400でビットを分配しても、アンダフローが問題ではなくなるという保証にはならないため、図17のプロセス全体を繰り返し使用して、アンダフロー状況がないか再度確認する必要がある。

図17のプロセスが完了した後、図12のステップ288は完了し、図12のステップ290が実行される。ステップ290では、ステップ282で求められるレート−量子化関数を使用してフレームごとの平均量子化値を求める。希望されるビットの数は、以前ステップ286で計算され、ステップ288でアンダフロー問題が存在するかどうかを確認するためにチェックされたが、エンコードされたデータに希望のビット数が設定されるようにデータを再エンコードするためには、量子化値を求めなければならない。これは、レート−量子化関数を求め、レートを捜し出すことで量子化値を求めるだけで、決定される。

ピクチャ単位で量子化レベルを求める場合は、レート−量子化関数(RQF)は、ステップ282で求められた。この関数を概算するには、ピクチャごとに2つのデータポイントが必要とされる。RQFは以下の通りである。

Ｒ＝Ｘ＊Ｑ^（−ｇ）＋Ｈ（２２）

この場合、Rは1つのピクチャをコーディングするために使用されるビット数、Qは量子化スケール、X、g、およびHはピクチャ単位のコーディング特性パラメータである。Hは、Hがヘッダにより消費されるビット、運動ベクタ、DC係数などとなるように、量子化スケールとは独立したビットを表す。

エンコーダの最初の実行は、ビデオシーケンス内のコーディングされたピクチャごとに2つのデータポイントを作成するために使用できる。これは、ピクチャ内のマクロブロックごとに使用される1組の交互の量子化スケールにより実行できる。これらは、レート−量子化モデルパラメータ「X」と「g」を計算するために処理される。これらの2つのパラメータは、Hの値とともに、コーディングされたビデオのフレームごとに1つ、ファイル内に記憶できる。

ビデオのある特定なコーディングされたフレームに割り当てられるターゲットビットを作り出す量子化スケールを求めるために、「R」がターゲットビットを表す前記等式が使用され、(X、g、H)の値が前記のログファイルである可能性がある記憶されたデータファイルから読み取られる。この等式に最適の「Q」の値が希望の量子化スケールである。

それから、ステップ292でステップ290で求められた量子化値を使用してビデオの変更されたセクションを再エンコードする。再エンコードの間に特別な手順が講じられない限り、既にエンコードされたビデオの再エンコードセグメントによりエンコードによって問題が生じる可能性があることに注記すべきである。エンコード構造および復号化構造を回避するための再エンコードプロセスの詳細は、以下の別個の項に説明する。ビデオは再エンコードされてから、以前エンコードされたビデオのビットストリームに代入され、プロセスは終了する。

図5に関して記述するように、ユーザは、ビデオが許容できるかどうかを判断するために、ビデオが再エンコードされた後でビデオを表示することができる。ビデオが許容できない場合には、ユーザは新規にエンコードされたビデオを受け入れる必要はなく、既にエンコードされたビデオの使用を続けることができる。ユーザが新規にエンコードされたビデオが望ましいとわかったら、新規にエンコードされたビデオで既にエンコードされたビデオは置き換えられる。それから、ユーザは、図5に説明するように、ビデオの新しいセグメントを、空間的に、または時間的に編集できる。

図19（A）および図19（B）では、オリジナルビデオエンコードからの、およびユーザが手動品質優先順位を入力した後のビットレートの2つの異なる例を示している。図19（A）および図19（B）では、（メガビットを表す106のスケールでの）ビットレートが、ピクチャのグループ番号に対してプロットされる。ブロック図で示される例では、1つのGOPに15のピクチャが格納され、各GOPは0.5秒ごとに表示される。また、実線は元のエンコードを示し、破線はユーザが手動で画質を調整した後のエンコードを示す。

図19（A）では、優先順位2、-3、3、0および保護つきが設定される5種類の異なった優先順位領域のあるエンコードを説明する。優先順位3が設定される期間は、再エンコードの後に、元のエンコードに比較してさらに多くのビットを使用する。優先順位はただ単に互いに相関しているだけなので、優先順位2が設定されるセクションのビットレートは、著しく上昇していないが、-3および0のセクションではビットレートは低下している。保護つきセクションには、再エンコードの前に存在したのと類似した再エンコード後のビットレートが設定されなければならない。

図19（B）は、それぞれユーザが選択した優先順位0、2、0、4、および0が設定された領域のある第2例である。ここでも、優先順位は互いに相関しているので、優先順位0は、ビットレートが未変更であることを意味するのではなく、単に、優先順位2と4が設定されるそれ以外のセクションに相対する優先順位である。優先順位4にが設定されるセクションに高いビットレートを指定するために、ユーザ選択優先順位0が設定されるこれらのセクションは低減され、優先順位2が設定されるセクションには、エンコードの前後とほぼ同じビットレートが設定される。

時間的手動編集の処理は、本発明の実施例の図1Aのワークステーション30で発生する。ただし、時間的手動編集はビデオエンコードプロセスの間は発生しないので、ワークステーション10はビデオエンコードプロセスのレートを低下させないで時間的手動編集計算を実行できる。

本発明が、編集セグメント内でのさまざまな時間セグメントの画質の変更として詳しく記述されることに注記すべきである。言うまでもなく、同じ時間セグメント内にないピクチャのセクションの質の変更を許可するためにこの概念を拡張することは明らかに可能である。例えば、映画の最後の5分間の質を最初の5分間を犠牲にして向上させるために、本発明の教示を適用することができる。以下に説明するように、単独編集セグメントの外側にある期間の品質を変更することが希望される場合、ユーザは、関心のあるセグメントを連続して表示し、チェックし、ビットを割当てし直し、各セクションの立ち下がり縁でのバッファ占有だけではなく、映画の合計ビットに関係する制約が規定の限度内にあることを確認する必要があるだろう。

時間的手動編集は、編集セグメントの元のエンコードのビット数を、編集セグメントの再エンコードのビット数と同じにしておくこととして記述されてきた。しかし、希望される場合には、再エンコードされたの編集セグメントが消費するビットをさらに少なくしたり、十分な記憶容量が存在する場合には、再エンコードされたの編集セグメントのビット数が元のエンコードのビット数を上回ることがある。また、ビデオの元のエンコードを、それにより最終デジタル記憶媒体上の使用できるすべての記憶スペースが消費されないように実行することもできる。したがって、再エンコード後のビット総数は、元を上回るまたは下回る任意の量、例えば5%と1%多いまたは少ないビットを含む、0%と20%の間で多いか少ない量を消費できる。

時間的手動編集の説明は、ビデオエンコード後にビデオを変更することに関して行われてきた。しかし、本明細書に記載される教示は、初期エンコードプロセスがなかったシステムにも適用できる。さらに、共通ビットプールの使用に関する時間的手動編集の教示は、以下に示すビデオフレームの空間手動編集の概念に適用できる。また、空間手動編集の個々のフレームでの動作様式は、以下に説明するように、上質の時間的編集を達成するためにフレームの列に適用できる。
B. フレームの領域内での品質の変更
図20には、1つ以上のフレーム内で領域の品質を変えるための一般的な手順を説明する。開始後、ステップ450では、システム構成要素および一般的なシステム動作に関する項に説明するように、MPEGフォーマットやそれ以外のフォーマットのような圧縮済みデジタルフォーマットに入力ビデオをエンコードする自動ビデオエンコードを実行する。ステップ452では、ユーザにエンコードされたビデオが表示され、ステップ454では、ユーザは1つ以上のフレーム内の領域の品質の変更を示すコマンドを入力できる。

図21には、図1Aに示されるビデオディスプレイモニタ61のようなモニタ上で表示されるビデオのフレームがブロック図が示される。図21のビデオのフレームは、木465、人467、鳥468、および2つの雲471があるとして描かれる。

図21では、フレーム内の領域が、木465を取り囲む領域466、人を取り囲む領域469、および領域470、重複領域469を含めて、ならびに鳥468および人467の頭を含めて限定される。これらの領域は、図1Aに示されるグラフィックポインティングデバイス33を使用して描画された。図21でユーザが設定した品質優先順位には、木を含む領域466の-5、人を含む領域469の+2、および鳥と人の頭を含む領域470の+4が含まれる場合がある。図21内のビデオのフレームのそれ以外の領域には、ユーザ定義優先順位は指定されず、したがって、「無定義」優先順位が指定される。後述するように、「無定義」領域とは、ユーザ定義優先順位が指定されるフレームのエンコードのビット総数を、フレームの元のエンコードの結果生じるビット数に等しくなるように調整する目的で、ユーザ定義領域の量子化レベルを変更した後に最初に修正される領域のことである。ユーザがフレームの領域の品質の変更を希望しない場合、これらの領域は、ユーザによって優先順位ゼロが設定されるとマークされるだろう。

本発明の実施例では、ビデオのフレーム内で優先順位領域を限定すると、ユーザは、当初グラフィックポインティングデバイスを使用して、ビデオの表示されたフレーム上に矩形領域を作成する。後で定義される領域は先に定義される領域の上に格納され、先に定義される領域と重複することがある。本発明が矩形領域を限定することに関して説明していても、本発明の教示を、円や楕円のような曲線を含む領域、八角形や六角形のような多角形の領域、またはそれ以外の、曲線または直線あるいはその両方を含むユーザが定義する形状にも適用できるのは言うまでもない。ユーザは、各領域を定義してから、領域の優先順位を定義する。代わりに、ユーザは、すべての領域の形状を定義し、その後にこれらの領域に優先順位を指定することができる。

ユーザが初期に領域内で優先順位を定義する場合、領域はピクセル位置に対応する。ただし、以下に示される優先順位を割り当てるプロセスは、マクロブロック単位で動作し、マクロブロックはデジタルビデオエンコードに使用される単位である。したがって、マクロブロックがユーザ定義領域内または外周上にある場合、そのマクロブロックには領域の優先順位が割り当てられる。従来の技術の当業者は、単純な数学を利用してユーザ定義領域に対応するマクロブロックを求めることができる。ユーザ定義領域の外周の場合は、領域の外辺部がマクロブロックに交差する場合に、ユーザ定義領域内に単にマクロブロックを入れる代替策として、マクロブロックを領域内に入れるかどうかを判断するさらに精密なプロセスが、ユーザ定義領域内にマクロブロックの50%以上がある場合には、ユーザ定義領域内にマクロブロックを入れて、ユーザ定義領域内にマクロブロックの50%以下がある場合には、ユーザ定義領域からマクロブロックを排除することによって実行することができる。

領域およびその優先順位が定義された後で、ユーザは、希望する場合には領域の重複を変更できる。例えば、ユーザは図21の領域469の上で事前に決定されたファンクションキーを押しながら「クリック」して、領域469を領域470の上になるように変更し、人全体に領域469の優先順位が設定され、鳥468だけに領域470に割り当てられる優先順位が設定されるようにする。重複領域には、ユーザによって入力されるときにスタック優先順位が指定される。このスタック優先順位は、ユーザ定義領域が追加、削除、または修正されるときに、必要に応じて調整される。

領域が定義された後で、ユーザは、希望に応じて領域のけ以上を作りなおしたり、グラフィックポインティングデバイス33を使用して領域を移動することがもできるまた、ユーザにより定義された領域は、グラフィックポインティングデバイス33を使用して削除できる。領域が削除されていても、ユーザ定義優先順位だけが削除されているのであり、言うまでもなく削除中の領域内のオリジナルビデオデータは削除されていないことに注記すべきである。

期間で品質を変更することについての前記項に説明するように、自動エンコードの間または自動エンコードの後で、ユーザはエンコードビデオをレビューすることができ、関心のあるフレームまたは期間が発生するたびに、ユーザはキーボードで単にキーを押したり、入力を別の装置から入力し、特定のフレームまたは期間が重要であることを示す。後で、ユーザはそのフレームまたは期間に戻って、さらに時間を費やして期間を検討し、希望に応じてその期間内で特徴を変えることができる。

ビデオのフレーム内の領域をユーザが定義するプロセスは、ユーザによって修正されるデータのフレームが1つしかない単純なケースについて前述された。しかし、ビデオシーケンス内のデータのフレームを一度に1フレームづつ作業するのはきわめて単調で退屈であるため、本発明を使用すると、ユーザは最初の期間で領域を定義し、後の期間で対応する領域を定義できるようになる。それ以降、最初のフレームと最後のフレームの中間のビデオのすべてのフレームに、ユーザにより最初のフレームと最後のフレームに定義される領域に対応する領域が作成され、最初の領域または最後の領域あるいはその両方の領域と同じ優先順位、もしくは最初のフレームと最後のフレームの優先順位に基づく優先順位が指定されるように、補間プロセスが実行される。さらに、重複領域のスタック優先順位は、補間プロセスの間維持される。中間フレームにその領域が自動的に作成された後、ユーザは、希望に応じて、優先順位、領域の形状を変更することにより改変したり、新しい領域を追加したり、領域を削除することができる。

以下に、補間プロセスがどのように動作するのかの例を示す。ユーザに時間インスタンスt_1とt_nでの2つのフレームの優先順位領域を選択させる。ユーザがフレームt_1に領域を、t_nに対応する領域を割り当てた後、これら2つの領域の座標は、t_1とt_nの間のすべてのフレームの領域仕様を獲得するために中間フレーム上で補間される。定義中の実際の領域に補間を実行できるだけではなく、補間は品質優先順位にも実行できる。補間プロセスには、単純な一時関数が使用される。ユーザがポイントa_1のあるフレームt_1の領域Aを定義し、フレームt_nの対応する領域Aに対応するポイントa_nがあり、中間フレームa_2、a_3...a_(n-1)内の対応するポイントに、以下のように定義される水平縦軸

ａ＿ｉ（ｈ）
＝ａ＿１（ｈ）＋（ａ＿ｎ（ｈ）−ａ＿１（ｈ）
×（ｉ−１）／（ｎ−１）
（２３）
および以下のような垂直縦軸

ａ＿ｉ（ｖ）
＝ａ＿１（ｖ）＋（ａ＿ｎ（ｖ）−ａ＿１（ｖ）
×（ｉ−１）／（ｎ−１）
（２４）

があると仮定する。この場合hとvは問題のポイントの水平縦軸と垂直縦軸に対応する。このプロセスでは、領域を限定する多角形の頂点だけが使用され、頂点は補間される。それから、領域は頂点により限定される。線形補間以外の他の補間技法も実行できる。

前記補間プロセスは、編集対象のセグメント内のすべてのフレームのすべての領域が適切に定義されるまで、必要な回数実行できる。さらにこのプロセスは、ユーザが中間プロセスの補間で決定された領域を移動したり、領域のサイズを変更することができ、補間プロセスが最初のフレームと改変された中間プロセスに、それから中間とフレームと最後のプロセスにもう一度実行できるように発生する微調整プロセスにより再帰的となる。補間プロセスは、おもに、フレームを横切って移動する領域を定義するために使用される。しかし、本発明には、静止しておりフレームの列内で使用される領域を一度定義することも含まれる。

領域が定義され、ユーザ定義優先順位が入力された後、各マクロブロックの新しい量子化値は、ユーザによって入力された優先順位およびマクロブロックの古い量子化値に基づいて、図20のステップ456で概算されるか、求められる。これは、ユーザ選択優先順位のそれぞれで使用される元の量子化値の端数を示している図22に説明される関係に従って決定される。例えば、ユーザが優先順位ゼロを入力すると、使用される元の量子化値の結果として生じる端数は1であり、元の量子化値に変更がないことを意味する。ユーザが優先順位-3を選択すると、元の量子化値の端数は1.58となり、優先順位3が設定されるマクロブロックの元の量子化値が、結果として生じる量子化値を求めるために、1.58により乗算されることを意味する。優先順位-3は品質の低下を意味するので、量子化レベルは、品質の低下を達成するために量子化レベルを引き上げる、つまりマクロブロックに使用されるビットはさらに少なくなければならない。反対に、3のような正の優先順位がユーザによって入力されると、元の自動号化からのマクロブロックの量子化値は量子化レベルを引き下げる0.42で乗算される。引き下げられた量子化レベルは、マクロブロック内のイメージを表すにはさらに多くのビットが必要とされ、したがって、画質が向上することを意味する。図22に示される線上のポイントは(-5, 100)、(-4, 1.75)、(-3, 1.58)、(-2, 1.42)、(-1, 1.25)、(0, 1)、(1,0.72)、(2, 0.58)、(3, 0.42)、(4, 0.25)、および(5, 0.01)である。図22に説明されるマッピングは、q-レベルと優先順位の間のこの方向の線形関係に基づいている。図22で求められたポイントは、実験を通して求められ、さまざまな端数は希望に応じてユーザ選択優先順位と使用できる。

優先順位-5と5はそれぞれ最低可能品質および最高可能品質を獲得することを目的とする。最低品質は、非線形量子化スケールが使用されるときの最大許容量子化レベル112、および線形量子化スケールがMPEG-2エンコードに使用されるときの62の結果である。また、最高品質を達成するために使用される最低量子化レベルは1である。したがって、図22に説明される関係からは、実際の許容qスケールから離れた値が生じることがあるが、これらの計算されたq値は単にその飽和レベルで格納されるだけである。例えば、当初、マクロブロックに量子化スケール20が設定され、ユーザがマクロブロックの優先順位を-5となるように選択すると想定してください。100で乗算される量子化値20が、量子化スケールから離れた新しい量子化レベル2,000を生み出すため、最大量子化値または飽和量子化値が使用される。

前記のように飽和レベルを使用することに加えて、本発明では、MPEGエンコードのIフレーム、Pフレーム、およびBフレームの予防措置を講じる。本発明は、Iタイプフレームの最高量子化レベルを、非線形量子化ケースの場合96となるように、線形量子化スケール使用時には58となるように制限する。同様に、B型フレームおよびP型フレームの最高量子化レベルは、非線形量子化スケールの場合は112、線形量子化スケールの場合は62である。線形量子化スケールおよび非線形量子化スケールは、MPEG規格で定義される。Iフレーム型、Pフレーム型、およびBフレーム型のそれぞれに使用される最低量子化レベルは1である。言うまでもなく、図22にブロック図で示されるユーザ定義入力および元の量子化値の端数は、ユーザの要件を満たすために修正できる。

ステップ456でマクロブロックごとに新規量子化値が計算した後、ステップ458で、ステップ456で求められた量氏化器値の結果生じるフレームごとにビット数を求める。本発明の実施例では、他の領域の品質は低下したが、いくつかの領域の品質が向上した後で、各フレームに同じビット数を獲得しなければならないため、このステップは重要である。新しい量子化値の結果生じるビット数を求めるために、マクロブロックごとの結果として生じるビット数に対する量子化レベルを適切に概算する関数を設定する必要がある。結果として生じるビット数と量子化レベルの間の関係正を求めるために、MPEG-2エンコーダのようなビデオエンコーダの経験的な結果の検討が実施され、求められた関係は実際の経験的な結果に基づいている。多くのビデオシーケンスを使用するさまざまな量子化レベルおよびフレームタイプのシミュレーション結果が実施された。これらの結果に基づき、マクロブロックの量子化レベル(q)とそのマクロブロックをエンコードする際に使用されるビット数(b)の間の以下の関係性は、フレームタイプに応じて、以下の通りであると判断された。

ｌｏｇ（ｂ）＝ｍｌｏｇ（ｑ）＋ｎ（２５）

この場合、Iタイプフレームの場合m=-0.75で、BタイプフレームとPタイプフレームの場合、m=01.0である。さらに、Iフレーム、Pフレーム、およびBフレームの場合それぞれn=15、14.5、および13.8である。これらの値は、前記に注記されるように、多数のビデオシーケンスで平均化される。前記等式は、エンコーダの動作を予測するための優れた近似基準として働き、ビット数と量子化レベルの間の関係はログ領域内で線形である。言うまでもなく、正確であるなら、量子化レベルと結果として生じるビット数の間のそれ以外の関係も、本明細書に記載されるその他のレート−量子化関数を含む、指定された量子化レベルから生じるビット数を求める場合に使用できる。

前記プロセスは、指定された指定量子化レベルから生じるビット数を求める方法を説明する。しかし、複数のエンコードが使用される場合は、新規エンコードからの情報を使用して、量子化関数に対してデータレートをさらに正確にすることができる。初期自動エンコードプロセスの間に、エンコードされるべきビデオの統計を収集するのに使用される第1ビデオエンコードパスがある。それから、実際のエンコードである第2パスの間に、量子化関数に対するデータレートの別の実際のポイントが、指定されたq-レベルから作成されるビット数bを記述する前記等式に対応するqプロットに対するbにおいてのように獲得される。データが、以下に説明するように、ユーザ指定選択に従ってエンコードされた後、結果として生じるビデオは、それが希望される品質の改善を満たすかどうかに応じて、ユーザによって受け入れられるか、拒絶される。再エンコードするたびに、概算されたビットに対するq-レベル関係の実際データが作成される。新しいq-レベル割当てq'が指定されると、求められたデータレートは、再エンコードによって得られる追加データに基づいて、このポイントに関してさらに正確に成る。新規量子化レベル、q'が以前に得られた2つのポイントの間に該当する場合、新規q-レベルで出力されるビット数の概算を得るために、ログ領域内で線形補間を実行することができる。新規量子化レベル「q」が2つの事前に決定されたq-レベルの間に該当しない場合には、モデルは、もっとも近いq-レベルから新しい量子化レベルq'に補外し、エンコード時に作成されるビット数を概算するのに使用できる。データが再エンコードされる時間が長いほど、エンコーダからの出力ビットに対してより優れた概算を得る確率が高くなることを注記する。

概算された量子化値から生じる各フレームのビット数が図20のステップ458で求められた後、ステップ460で、ビット概算数がフレームの元のビット数に十分近いかどうか判断し、必要ならビット数を訂正する。これは、図23-25Cでブロック図で示されるプロセスに従い実行される。

ステップ460が実行されると、図23のステップ472が、最初に、ビット概算数と元のエンコードのビット数の差異を求める。これは、以下の等式に従い計算される。

Ｄ＝Ｂ’−Ｂ（２６）

この場合、B'は、修正されたフレームの概算ビット数、Bは元のエンコードから結果として生じるフレームのビット数、およびDは差異である。元のエンコードから結果として生じるビット数以外のBの値を使用することができるのは言うまでもない。例えば、ユーザは、フレームの総ビット数の増加を希望する場合、元のエンコードから結果として生じるビット数より大きい事前に決定された量である数にBを設定できる。同様にして、ユーザは、フレームの元のビット数を下回るようにBを設定することもできる。したがって、記録されたフレームは、記憶領域の制約、最小品質制約、およびビデオバファアンダフローの可能性に応じて、元のエンコードより多いビットまたは少ないビットを消費することがある。また、フレーム内の領域の量子化値が改変されていない場合、その量子化値を改変された領域から結果として生じるビット数だけを分析し、変更されなかった領域を無視することができる。それから、ステップ474でこの差異を分析し、ビットが多すぎると判断されると、フローは、ビット数を低減するためにマクロブロックの量子化レベルを引き上げる目的の図24A-24Cに説明されるプロセスのために、Bに進む。ステップ474で修正されたフレーム内のビットが少なすぎると判断されると、新規フレームのマクロブロックの量子化レベルは、図25A-図25Cにブロック図で示されるプロセスFに従ってさらに多くのビットを作成するために引き下げられる必要がある。それ以外の場合、差異が許容できるスレッショルド内にある場合は、マクロブロックの量子化レベルを修正する必要はなく、プロセスは図20のステップ462を実行するために戻る。フレーム内のビット数を再エンコードされたビデオに対し同じに保つ場合、ビットは、ある領域から別の領域にシフトされると考えることができる。

ステップ474では、差異Dは、差異をスレッショルドTに比較することで分析される。スレッショルドは、領域の品質の変更の結果生じるビット数が総ビット数の0.001以内である場合、差異は許容でき、プロセスは停止できることを意味する0.001xBに設定される。言うまでもなく、差異が許容できることを示す停止スレッショルドは、別の方法で求められ、希望に応じて引き上げたり、引き下げたり、フレームの元のビット数とユーザ選択優先順位から結果的に生じるビット数の両方に基づくことができる。
図24A-図24C、および図25A-図25Cに説明されるプロセスは、図24A-図24Bがユーザ選択品質の結果として生じるビット数を低減するために使用され、図25A-図25Cがユーザ選択品質の結果として生じるビット数を増加させるために使用されるという点を除き、きわめて類似している。図24A-図25Cで実行されるプロセスの一般的な概要は、これらのプロセスの詳細を説明する前にここで記述する。当初、ビデオのフレーム内のマクロブロックは、「無定義」、「負の優先順位」、「正の優先順位」、「変更不可」の4種類の内の1つとしてラベルが付けられる。領域にユーザによる優先順位が指定されていない場合、またはシステムによってユーザが「無定義」ステータスを割り当てることができる場合、その領域は「無定義」タイプであると見なされる。ユーザが-5と-1の間の、および-5と-1を含む優先順位を割り当てると、これらの領域内のマクロブロックは「負の優先順位」であると考えられる。領域に1と5の間の、および1と5を含む優先順位が割り当てられると、それらの領域には「正の優先順位」が設定されていると考えられる。最後に、優先順位0で割り当てられるすべての領域、またはシステムによってユーザが他のなんらかの方法で、領域の品質を変更させてはならないことを示すことができる場合には、それらの領域のマクロブロックは「変更不可」タイプと見なされる。4種類のマクロブロックのそれぞれの中でのマクロブロックのそれぞれには、4種類の内のそれぞれに独自のインデックスのセットが備えられるように、インデックスｉでラベルが付けられる。ゼロのインデックスｉは、最初のマクロブロックに割り当てられ、インデックスn-1は最後のマクロブロックに割り当てられる。この場合、Nはある領域種類内のマクロブロックの総数である。例えば、「無定義」領域のすべてに対し、これらの領域内のマクロブロックのそれぞれに0からn-1のインデックスが付けられる。3つ以上の「無定義」領域がある場合、「無定義」領域に2つの異なるインデックスｉ＝0がないことに注記する。すべての「無定義」領域に対しては、インデックス0が付いたマクロブロックは1つだけ、インデックス1がついたマクロブロックは1つなどである。

ユーザが領域の優先順位を決定した後にフレーム内のビットが多すぎる場合、フレームの量子化レベルは、フレームのビット数を低減するために引き上げられなければならない。マクロブロックの元の量子化値が、図10（A）または図10（B）のどちらかにブロック図で示されるフォーマットを持つマクロブロックレーヤのログファイルから削除される。代わりに、エンコーダは再実行し、量子化値がエンコーダの元の実行の後に記憶されていなかった場合には、量子化値を求める。しかし、別の代替策では、エンコードされたビットストリームを復号化し、元のエンコードの量子化値を求める。ビット数を低減するために、手順は、「無定義」タイプのマクロブロックごとの量子化レベルを1量子化レベル、一度に1マクロブロックづつ引き上げることで動作する。これで問題が解決されない場合、「無定義」の各マクロブロックのqレベルは、一度に1マクロブロックづつ再度1増加される。事前に決定された最大量子化レベルが設定され、無マクロブロックの量子化レベルを超えて増加できる。「無定義」タイプのすべてのマクロブロックがこの最大レベルに達すると、「負の優先順位」および「正の優先順位」の領域は、同じように1増加される。まず、すべての負の優先順位マクロブロックが1量子化レベル引き上げられ、これでビット差の問題が解決されない場合、「正の優先順位」マクロブロックのマクロブロックの量子化レベルが1増加される。これで問題が解決しない場合、「負の優先順位」マクロブロックの量子化レベルは再び1増加され、これで問題が解決しない場合には、「正の優先順位」タイプのマクロブロックの量子化レベルが1増加される。このプロセスは「負の優先順位」タイプおよび「正の優先順位」タイプのすべてのマクロブロックの量子化レベルが前記最大レベルに引き上げられるまで続行する。これでビット差問題が解決しない場合には、「変更不可」タイプのマクロブロックの量子化レベルが、ビット差問題が解決されるまで、一度に1量子化レベル引き上げられる。十中八九、ビット差問題は、「変更不可」タイプの量子化レベルが変更され始める前に訂正されるだろう。ユーザ選択優先順位が設定されるフレームのビット数が少なすぎて、図25A-図25Cのプロセスに従ってビット数を増加するために、マクロブロックの量子化レベルを引き下げる必要がある場合、類似したプロセスが発生する。

今度は、生じたビットが多すぎてしまったときに図23によって実行される図24Aにブロック図で示されるフローチャートを参照すると、プロセスはブロックタイプを「無定義」タイプに設定するステップ480により図24Aで開始する。それから、ステップ482で、マクロブロックインデックスを、インデックスｉがゼロに等しく設定されることを意味する開始ポイントに設定する。それから、設定されていたマクロブロックタイプ（フローチャートで初めて、「無定義」タイプの第1マクロブロック）の問題のマクロブロック（インデックス＝ｉ内のマクロブロック）の量子化レベルに最大事前定義量子化レベルが設定されているかどうかを判断する、ステップ486が実行される。この訂正プロセスの最大量子化レベルは、訂正されるマクロブロックの品質で大きな劣化がないように高すぎて設定してはならない。可能であるなら、マクロブロックの質に大きな差が出ないように、均一のビット数を減少させる目的で品質を劣化させようとすることが望ましい。したがって、この最大値は線形量子化スケールが使用されるときには量子化レベル62に、非線形量子化スケールがMPEG-2エンコードなどに使用されるときには112に設定される。ただし、最大量子か器値には、それ以外の値も使用できる。問題のマクロブロックの量子化レベルがステップ486で最大ではないと判断されると、ステップ488で問題のマクロブロックの量子化レベルを1量子化レベル増分する。それから、ステップ490で前記のビットレート−量子化機能を使用してフレームのビット概算を計算し直す。それからステップ490では、マクロブロックのインデックスをゾウ文する。マクロブロックのインデックスがマクロブロックタイプの最後のマクロブロックが処理されていないことを示す場合は、フローはステップ484にループバックする。それ以外の場合は、フローはステップ492から、ブロックインデックスをゼロにリセットするステップ498に進み、第1マクロブロックを示す。

フローがステップ484に戻ると、ステップ490で計算し直されるビット概算は、前述するように、スレッショルドに比較される前記の差Dを計算し直すために使用される。ビット概算が高すぎない場合、ユーザ選択優先順位を指定されるフレームのビット数が訂正され、フローは呼び出しプロセスに戻る。それ以外の場合、フローは、問題の（インデックス1が設定される）マクロブロックの量子化値が最大であるかどうかをもう一度判断するステップ486に進む。

ステップ486で、問題のマクロブロックの量子化値が最大であると判断すると、そのブロックの量子化レベルは引き上げる必要はなく、ステップ494では1ブロックインデックスｉを増分する。ステップ496でマクロブロックタイプのインデックスが最後のブロックを通り過ぎていないと判断すると、フローはステップ486に進み、増分されたインデックスの付いたブロックに最大量子化値が設定されているかどうかを判断する。それ以外の場合、ステップ496でマクロブロックが問題のマクロブロックタイプの最後のマクロブロックであると判断すると、ステップ498が実行され、ブロックインデックスが第1マクロブロック（ｉ=0）にリセットされる。それから、フローは図24Bに説明されるプロセスCに進む。

図24Bでは、ステップ500で、ブロックタイプが「無定義」タイプであるかどうか調べる。「無定義」タイプである場合は、ステップ502ですべての「無定義」マクロブロックに最大qレベルが設定されているかどうかを判断する。「無定義」マクロブロックのすべてに最大qレベルが設定される場合、「無定義」タイプのマクロブロックにさらに調整を実行することは不可能であるため、マクロブロックタイプは、ステップ504で「負の優先順位」に変更され、フローは図24Aにブロック図で示されるプロセスDに戻り、ステップ484が実行される。それ以外の場合、ステップ502で、「無定義」タイプのすべてのマクロブロックに最大qレベルが設定されていないと判断すると、フローは修正中のマクロブロックのタイプを変更しないで、プロセスに戻る。この手順は、フレームの結果として生じる数がスレッショルド範囲内になるまで続行するか、あるいは「無定義」型のすべてのマクロブロックが「負の優先順位」に変更されるブロックタイプを結果的に生じさせる最大量子化レベルに設定される。

ステップ500でブロックタイプが「無定義」ではないと判断するとステップ506がブロックタイプが「負の優先順位」であるか判断する。ブロックタイプが「負の優先順位」の場合、ステップ506は、「正の優先順位」のすべてのブロックに最大qレベルが設定されるかどうか判断する。ステップ508の判断の結果が負である場合、ステップ510が実行され、ブロックタイプが「正の優先順位」に設定され、フローは図24Aにブロック図で示されるプロセスDに進む。

ステップ508で「正の優先順位」のすべてのマクロブロックに最大qレベルが設定されると判断すると、ステップ512で「負の優先順位」タイプのすべてのブロックに最大ｑレベルが設定されるかどうか調べる。設定されていない場合、ブロックタイプは変更されず、フローは図24AのプロセスDに戻る。「負の優先順位」タイプのすべてのマクロブロックに、ステップ512で、最大qレベルが設定されていると判断される場合、すべての「無定義」、「負の優先順位」および「正の優先順位」のマクロブロックに最大量子化レベルが設定され、ブロックタイプがステップ512で「変更不可」に設定される。それから、フロは図24AのプロセスDに進む。

図24Bのステップ506が負と判断されてから、プロセスEおよび図24Cのステップ520が実行される。ステップ520でブロックタイプが「正の優先順位」であるかどうか判断する。そうである場合は、ステップ522で「負の優先順位」のすべてのブロックに最大Qレベルが設定されるかどうかが判断される。設定されていない場合、ブロックタイプは「負の優先順位」に設定され、フローは図24Aにブロック図で示されるプロセスDに戻る。ステップ522で「負の優先順位」タイプのすべてのブロックに最大qレベルが設定されていると判断すると、ステップ526で「正の優先順位」タイプのすべてのブロックに最大qレベルが設定されるかどうかを調べる。設定されていない場合、フローは図24Aにブロック図で示されるプロセスDに戻る。それ以外の場合、すべての「無定義」ブロックとともにすべての「負の優先順位」および「正の優先順位」に最大量子化レベルが設定され、ステップ526でブロックタイプが「変更不可」に設定され、フローは図24Aにブロック図で示されるプロセスDに戻る。

ステップ520でブロックタイプが「正の優先順位」ではないと判断すると、ブロックタイプはそれゆえ「変更不可」でなければならず、ステップ530で「変更不可」タイプのすべてのブロックに最大qレベルが設定されるかどうかが判断される。設定されている場合、ユーザ選択優先順位が設定されるフレーム内のビットが多すぎるという問題を解決しないで、すべてのブロックタイプが最大量子化レベルに設定されたので、エラーが生じる。すべてのブロックを最大事前定義qレベルに設定すると、フレームの元のエンコードを上回らないビット数が生じるはずである。ステップ530での判断が負である場合、フローは図24Aに説明されるプロセスDに戻る。

図23のプロセスが、ユーザ選択優先順位領域のあるフレーム内のビット数が少なすぎると判断すると、図25A-図25Cのプロセスが実行される。図25A-図25Cは、量子化レベルがフレームのビット数を増加させるために引き上げられる代わりに引き下げられ、マクロブロックの量子化レベルが、引き下げられたときに量子化Ｒレベルの1のような事前に決定される最小レベルを超えることができないという点を除き、図24A-図24Cにブロック図で示されるプロセスに基づいている。前記に注記した相違点を除き、図25A-図25Cのプロセスが図24A-図24Cのプロセスに同一であるため、図25A-図25Cのさらなる説明は簡略を期すために行わない。

図23-図25Cに記述される訂正プロセスは、本発明が動作する1つの様式である。ただし、異なった種類のマクロブロックの量子化レベルを調整する代替手段も可能である。例えば、「負の優先順位」および「正の優先順位」のマクロブロックの量子化レベルを、前述のように同時に変更する代わりに、「負の優先順位」タイプ、「正の優先順位」タイプおよび「変更不可」タイプのマクロブロックは均一に増加できる。代わりに、ビットが多すぎる場合には、「負の優先順位」タイプの量子化レベルが、最大量子レベルに達するまで引き上げられてから、「正の優先順位」タイプのマクロブロックの量子化レベルが引き上げられる。反対に、ユーザ選択優先順位が設定されるビット数が少なすぎる場合、「負の優先順位」タイプのマクロブロックのレベルが引き下げられる前にビット数を増加するために、「正の優先順位」タイプのマクロブロックの量子化レベルが引き下げられる場合がある。後者の2つのケースでは、「無定義」タイプのマクロブロックの改変は、「負の優先順位」または「正の優先順位」タイプのマクロブロックの前、間、または後に発生する可能性がある。

図23A-25Cのプロセスが実行された後、フローは、新しい量子化値を使用してビデオを再エンコードする図20のステップ462に戻る。この再エンコードは、再エンコードされたのフレームの結果として生じるビット数を、フレームの元のエンコードのビット数にできる限り近づける目的で、レート−制御関数を使用して、量子化値を微調整する間に実行される。レート−制御装置プロセスは、以下の別項に詳しく説明する。また、再エンコードの間、エンコード人為構造が発生する可能性があるため、以下の別項に説明するように、これらのエンコード人為構造を低減する目的で特殊な手段を実行できる。

空間手動編集のプロセスは、本発明の実施例の図1Aのワークステーション30で発生する。しかし、空間手動編集がビデオエンコードプロセスと同時に発生しない場合、ワークステーション10は、ビデオエンコードプロセスのレートを劣化させないで時間的手動編集を事項できる。本発明がフレーム内のさまざまな領域の画質を変更することとして詳しく記述されることに注記すべきである。本明細書の概念を、あるフレームの領域内のビットを別のフレームの領域にシフトすることに拡大することができるのは言うまでもない。さらに、空間手動編集は、前記の時間的手動編集といっしょに適用できる。

空間手動編集は、ユーザ指定領域優先順位が設定されるフレームのビット数をフレームの元のエンコードと同じに保つこととして説明された。ただし、希望される場合、再エンコードされた編集セグメントは、十分な記憶領域容量がある場合には、フレームの元のビット数より多いか少ない事前に決定されるビット数を消費できる。これらのケースでは、改変されたフレームを変更できるビット数を理解しておくことが望ましく、そのため図24A-図25Cにブロック図で示されるプロセスは、設定された差が達成されるまで動作するだろう。したがって、任意のフレームの再エンコードのビット総数は、5%と1%多いまたは少ないビットの両方を含む0%と20%の間で多くまたは少なく、元のエンコードを上回るか、下回る任意の量を消費する。

空間手動編集の説明は、ビデオがエンコードされた後のビデオの変更に関して行われた。しかし、本明細書に記載される教示は、初期エンコードプロセスがなかったシステムにも適用できる。

空間手動編集は、以前に取得されたフレームと同じビット数を達成するために、ユーザ選択優先順位に基づいて量子化値を割り当ててから、必要に応じて、フレームのマクロブロックの量子化レベルを調整することによって動作する。対照的に、前記の項に記述された時間的手動編集は、ビデオのセクションからビットの共通プールを削除し、それらのビットを、ユーザ選択優先順位に従って、共通プールから分配し直す。あるフレームに関して空間手動編集が実行されるプロセスについてのすべての教示は、時間的手動編集の項に説明されるように、時間でビデオのフレームの品質を変更するという概念に適用でき、逆の場合も同じである。例えば、空間編集は、品質の変更を達成するために量子化レベルを修正することとして説明されてきたが、ビット数は時間的編集の項で調整される。フレームまたはマクロブロックのビット数は、直接、量子化レベルに依存するため、ビット数および量子化レベルの修正は、同じ結果を達成し、そのため時間的編集および空間編集は、ビット数または量子化レベルあるいはその両方を修正できる。
VIII. 品質変更後のビデオの再エンコード
A. 品質が単独フレーム内で変更された場合のビット割当て制御
図1Aにブロック図に示されるビデオエンコード装置50のビットレートを制御するために、ワークステーション10または同じ制御機能を実行できるあらゆる専門ハードウェアのような制御装置が、量子化レベル、つまりq-レベルおよびレート制御式エンコーダ内ヘのスライスごとの概算ビット数または予想ビット数をロードする。それから、エンコーダはエンコードを開始し、量子化レベルは、以前に求められた予想ビット数に比較して、作成されたビット数の精度を測定してから調整される。予想ビット数は、空間手動編集および時間的手動編集に関する項で前述されるように、レート−量子化関数を使用して求められる。このプロセスは、一度のn個のマクロブロックの集合に対して連続して実行され、各集合はMB(ｉ)と示され、以下の通りである。

１≦ｉ＜（マクロブロックの合計数／n）（２７）

マクロブロックの最後の集合を再エンコードする場合、作成されるビット数のマイナーな過剰予想が、ビットスタッフィングを使用して吸収できるため、レート−制御装置が、再エンコードプロセス中で作成されたビットの総数が最初にエンコードされた長さより短くなることを保証する。

図26は、事前に割り当てられる量子化レベルでデジタルビデオの集合を再エンコードするための方法を説明するフローチャートである。調整は、量子化モデルが、再エンコードにより作成されるビット数を、作成されたビットの実際の数に対してどれほど正確に予想下のかに基づいて、事前に割り当てられた量子化レベルに加えられる。図26では、レート制御式コーディングプロセスは、ステップ700で開始してから、ステップ702でｉ=1を設定することによって、nマクロブロックの第1集合をマクロブロックの現在の集合として指定する。ステップ704では、マクロブロックの各集合MB（ｉ）の再エンコードで使用される、ビット予想数の完全な集合、EB（ｉ）をロードする。それから、MB(I)はステップ706で再エンコードされ、実際に作成されたビットの数がGB（ｉ）として記憶される。作成済みビットGB（ｉ）、予想ビットEB（ｉ）の間のパーセンテージ差は、ステップ708で予想率、PB（ｉ）＝GB（ｉ）／EB（ｉ）として計算される。さらに、システムは、累積ビットの予想数EB'（ｉ）、累積作成ビット数、GB'（ｉ）をマクロブロックのすべてお再エンコードされた集合に対して計算することが可能で、この場合、EB'(1)=EB(1)、GB'(1)=GB(1)、EB'（ｉ）=EB'（ｉ-1）＋EB（ｉ）およびｉ>2の場合、BG'(1)=GB'（ｉ-1）＋GB（ｉ）である。したがって、PB（ｉ）/EB'（ｉ）を使用することによって、説明されたステップ708の代替策として、PB（ｉ）は、累積ビット予想数EB'（ｉ）および累積作成ビット数GB'（ｉ）を使用して計算できる。これは、マクロブロックのある特定の集合がどれほど正確にエンコードされたのかを示す代わりに、全体としての再エンコードプロセスがどのようにターゲットビット数を満たしているのかのより正確な表示となる。ステップ710では、概算率が使用され、マクロブロックの次の集合、MB(ｉ+1)内のq-レベルの訂正係数を判断する。

この訂正係数は、2通りの方法の内の1つを使用して求められる。第1の訂正係数決定方法は、割合ルックアップテーブルと呼ばれる割合値のテーブル内の率の単純並べ替え済みリストを進み、どの2つの割合オ間に概算率が該当するのかを判断する。テーブル内の2つの数の大きい方のインデックスjは、訂正係数インデックスとして使用される。訂正係数インデックスは、テーブル内のj番目の要素を訂正係数として選択することにより訂正係数テーブル内で訂正係数Δ（ｉ）を探すために使用され、マクロブロックの次の集合はΔ（ｉ）によって調整される。割合ルックアップテーブル、RTには、例えば、以下のような並べ替えられた値が指定され
ＲＴ=｛0.85，0.90，0.95, 1.0，1.05，1.10，1.15，1.2, 1.5 ｝
訂正係数テーブルCTには、以下の値が指定される。

ＣＴ＝｛-3，-2，-1, 0, １，2, 3, 4, 9, ｝
図30は、概算率を使用して訂正係数インデックスを割合ルックアップテーブルから求めるプロセスを説明するフローチャートである。ブロック図のためだけに、PB（ｉ）＝0.87であると想定する。インデックスjは、当初、ステップ722で設定される。PB（ｉ）をRT(j)に比較するプロセスが開始し、前記ルックアップテーブルに定義されるように、ステップ724では、PB(ｉ)=0.87がRT(1)=0.85に比較される。0.87が0.85を上回る場合、プロセスはステップ726に続く。ステップ726で残りのインデックスがあると判断されているので、制御はステップ728に渡され、jは1増分される。ステップ724に戻ると、PB（ｉ）=0.87は現在RT(2)=0.90であるため、制御は、訂正係数インデックスの検索を終了するステップ730に渡される。

図31は、テーブルヘのインデックスが指定されるルックアップテーブル内で値を捜し出す方法を説明するフローチャートである。図31では、第1の方法に従って訂正係数を求めるために、2であるインデックスjが使用され、CT内の対応するエントリを捜し出す。CT内の第2位置から読み取ると、訂正係数は、ステップ736で-2であると判断される。したがって、MB(I+1)のq-レベルは-2で変更される。同様に、PB（ｉ）=1.12の場合、インデックス7はPB（ｉ）より大きいRT内の最初の入力に対応するため、7番目の位置にあるCTの訂正係数は3である。したがって、MB （ｉ+1）のq-レベルは3を追加することによって、例えば3をMB（ｉ＋1)に加算することにより変更される。

第2の訂正係数決定方法では、再エンコードされたマクロブロックの集合のパーセンテージが訂正係数を求める際に第2パラメータとして使用される点を除き、第1方法に類似したプロセスを使用する。さらに、テーブルから訂正係数を読み取る代わりに、訂正係数はマトリックスから読み取られる。再エンコードされたマクロブロックの集合のパーセンテージ、または再エンコードされていないマクロブロックの集合のパーセンテージを使用することにより、フレームの列の最初でより漸進的な訂正を加え、必要なら、最後でより著しい訂正を加えることができる。これによって、システムは量子化モデルと実際に作成されたビット数の間の変動をより正確に訂正できるようになる。再エンコードされずに残っているマクロブロックの集合の数と訂正の意義の間の反転関係を使用し、マクロ部アロックのある集合内での過剰予想がマクロブロックの別の集合での過少予想により相殺されると仮定すれば、不必要な訂正は回避される。

第2訂正係数方法の訂正係数マトリックスCTMの例として、CTMが以下のように定義されると想定する。

フレームの列の最初で、概算比が必要なビット数の過剰評価を示す場合、すべての未使用のビットをただちに次のスライスに割り当てし直す必要はない。未使用のビットがただちにMB（ｉ+1）によって消費された場合、kｉ+1の場合、予想以上のビットを消費するMB(k)により、MB(k+1)は強制的に不必要にさらに高い量子化レベルに引き上げられるだろう。未使用のビットは、必要とされ、MB(k)によって使用されるまで、再エンコードプロセスでMB（ｉ）から前方に運ばれる。

図32は、概算比および残っている再エンコードされていないマクロブロックの集合の数の両方を使用して訂正係数がどのように計算されるのかを説明するフローチャートである。必要となるビット数の過剰評価のケース、つまり訂正係数jがPB（ｉ）=0.87の場合に2に等しいと以前に判断した場合、図32のステップ744で過剰評価が再エンコードプロセスの最初のパーセントで発生するかどうか判断する。CTMの(2,1)での要素は-1であり、したがって訂正係数として選択される。これにより、第1方法では-2がであった再エンコードプロセスの初期に訂正効果は鈍る。しかし、再エンコードプロセスの99パーセントは実行され、概算比がPB（ｉ）＝1.12である場合、3である要素（9,77）が選択されるので、再エンコードプロセスの最後で完全に訂正する。

図27（A）-図27（C）に戻ると、q-レベルが事前に割り当てられたフレームがある集合内のマクロブロックの数が1つのスライスの中のマクロブロックの数に等しい別の例として説明される。ビットの概算数EB（ｉ）が前述のように計算され、図27（A）のMB（ｉ）、マクロブロックｉのレート制御プロセスで使用されるメモリの中にロードされてから、MB（ｉ）が実際に再エンコードされる。作成ビット数、GB（ｉ）が求められ、概算比が計算され、訂正係数捜し出される。図27（B）に示されるように、それからMB（ｉ+1）は△（ｉ）によって訂正され、プロセスはMB（ｉ+1）のために繰り返される。図27（C）には、MB（ｉ+1)が概算され、計算され、その概算比が求められた後のMB（ｉ+2)の変化が示される。このプロセスは、すべてのマクロブロックおよび部分的なマクロブロックが再エンコードされ、訂正されるまで続行される。

図27（A）および図27（D）を参照して別の例が示される。この例では、集合あたりのマクロブロック数は、2つのスライスの仲のマクロブロックの数である。EB（ｉ）、GB(ｉ)、およびPB（ｉ）を計算した後で、2つのスライスを構成するMB（ｉ+1）のマクロブロックは、図27（D）に説明されるように、△（ｉ）により訂正される。この再エンコードおよび訂正プロセスは、すべてのマクロブロックが再エンコードされるまで以前の例で続行される。

再エンコードプロセスにより生じる変更は、図28（A）および図28（B）に説明される。フレームNの2つの等しい面積の領域である領域Aと領域Bは、当初ほぼ等しい数のビットを使用してエンコードされる。ユーザは、領域Aの品質が劣化され、領域Bの品質が向上されなければならないと指定する。しかし、元のエンコードに使用されたビット数が再エンコードのビット数にできる限り近くなるようにすることが望ましい。フレームNを再エンコードした後、フレームNには元のエンコードから作成された同じバイト数が格納されるが、領域Aはより少ない数のビットでコーディングされ、領域Bは追加ビットを使用する。これにより、ユーザが要求したように、領域Aの品質は劣化し、領域Bの品質は向上する。本発明のレート制御プロセスでは、レート量子化関数を使用して求められた概算数でのマイナーな誤差を訂正することにより、フレームの再エンコードされたビット数はできる限り元のビット数に近づけられる。

図29では、複数のフレームからのビットを割当てし直し、それらを第2の複数のフレームに与えることにより、デジタルビデオストリームに加えられる変更を説明する。個々のフレーム面積は変化しても、フレームの集合の総面積は同じままでなければならない。レート制御装置により、複数のフレームの再エンコードのビット数は、ビット概算数を求めるために使用されるレート量子化関数がわずかに間違っていても、元のエンコードからのビット数と同じになるように微調整できるようになる。

B. 編集ポイントで復号化人為構造を回避しながら再エンコードする
1. 最初にエンコードしたときに使用された状態にエンコーダを復元する

前述の時間的品質編集動作および空間品質編集動作は、ビデオの品質を新規量子化値でビデオを再エンコードすることによって変更できるようにする。ただし、再エンコードされたビデオを単にオリジナルビデオに代入するだけでは、ビデオの編集ポイントでの可視グリッチとして出現する受け入れられない復号化人為構造が生じる場合がある。これらの可視グリッチは、代入されている新規セグメントにMPEG-2構文のような適切な構文が設定され、編集境界でのバッファ制約事項が満たされていても発生する。問題は、編集セグメントの前に来る最後の基準フレーム（最後のP-フレーム）および編集セグメントの最後にある別の基準フレーム（私語のP-フレーム）の非可用性の結果生じる。これにより、編集セグメントの最初にあるB-フレームの第1集合と編集セグメント直後Bフレームの第1集合のエンコードと復号化の間に格差が生じる。

デジタルエンコード圧縮ビデオの編集を適切に実行するためには、まず、希望の編集ポイントに対応するエンコードビットストリームの適切な位置を決定する必要がある。このプロセスは、エンコードされたビデオにアクセスするためのユーティリティを説明する第VI項に前述された。前述するように、これは、問題のピクチャのビットオフセットを求めるために、既にエンコードされたフレームのそれぞれい使用されるビット数を合計することで実行される。代わりに、エンコードされたビットストリーム内のある特定のフレームや期間の厳密なロケーションを示す情報を維持するために、ディレクトリも使用できる。

今度は図33（A）-図33（E）を見ると、本発明の動作を説明するための例として使用されるビデオの期間がブロック図されている。図33（A）では、エンコードされたビデオの元のセクション0がブロック図で示される。エンコードされた期間5 m 0sから10m 0s（5分、ゼロ秒から10分、ゼロ秒まで）を別のビデオセクションで置き換えることが希望される。図33（B）では、図33（A）のエンコードされたビデオに代入しなければならない未エンコードビデオの新しいセクションがブロック図で示される。図33（B）および図33（C）の破線は、未エンコードビデオを表すのに使用され、図33（A）、図33（D）および図33（E）の実線はエンコードされたビデオを示すのに使用される。

図33（B）に示される新しいビデオのセクションだけが、GOPが以前のGOPを参照する標準MPEG-2を使用してエンコードされ、図33（A）に示されるビデオに代入される場合、復号化人為構造が、MPEG-2ビデオ圧縮で使用される双方向復号化に必要な正確な基準フレームが欠如しているため、編集ポイント5m 0sと10m 0sで存在するだろう。GOPの始まりは以前のGOPに戻って参照するが、GOPの最後は次のGOPに進んで参照しないという事実のため、この問題は本発明により違うように処理される5分ポイントおよび10分ポイントの両方で存在する。

復号化人為構造をGOPの始まりで防ぐには、GOPの最初の2つのB-フレームの基準フレームとして使用される先行するGOPの最後のP-フレームを作成し直すことである。これは、例えば、オリジナルビデオの1つのGOPを挿入対象のビデオの始めに格納することにより達成され、この追加されたビデオは図33（C）の4 m 58.5sから4 m 59sに示される。例では、GOPの他の期間も可能ではあるが、あるGOPは1秒の2分の1に等しい。エンコーダは、4m 59sの直前にGOPの最後のP-フレームを作成するために、元のエンコードに使用される同じ量子化値でこのセクションに関して再実行される。最後のP-フレームを除く、ビデオのこの短いセクションの再エンコードの結果生じるすべての情報は廃棄されることがある。

編集セグメントの最後での復号化人為構造を防ぐために、オリジナルビデオの1秒という期間（例えば、図33（C）の10 m 0sから10m 1s）が置換される新規ビデオの最後に付加され、この1秒セグメントは、元のエンコードの間に使用されたのと同じ量子化値を使用してエンコードされる。この1秒期間がビデオの最後に付加されなかった場合、10m 0sマーク直後の2つのB-ピクチャは、10m 0sは2つのGOPの間の分割ポイントであると仮定し、編集の前と編集の後で異なる基準ピクチャに戻って参照する。例は、ビデオの2分の1秒期間または1秒期間の新規セクションへの付加として説明したが、概念はGOPの付加に一般化できる。

現在では、最後にある編集ポイントが10m 1sポイントであるため、復号化人為構造は10分マークでは出現しなくなるが、人は復号化人為構造が10m 1sで生じるかどうかを考慮しなければならない。10m 1sマーク直後の2つのB-フレームが、それらが以前に参照した本質的に同じ基準フレームに戻って参照するため、可視復号化人為構造は生じない。10m 0sマーク直後の2つのB-フレームが、それらが過去に参照した同じ基準フレームに戻って参照しなくても、2つのB-フレームは再エンコードされていたため、適切に新しい基準フレームに戻って参照する。したがって、可視復号化人為構造は10m 0sポイントまたは10m 1sポイントでは存在しない。

図33の最後に追加された2つのGOP（1秒）は、最後のP-フレームが元のエンコードにほぼ同等となるのに十分な時間でなければならない。10分ポイントの後のオリジナルビデオを再エンコードするときにまったく同じ量子化値が使用されることが保証できる場合には、1GOP（2分の1秒）で正確にエンコードされた基準ピクチャを適切に作成するのに十分であるはずである。ただし、適正な品質を保証するためには、2つのGOPが好まし。最初に使用されたのと同じ量子化値を使用することが希望されても、実際には、元の量子化値からマイナーな偏差が生じうる場合があるため、2つのGOPが望ましい。

4m 58.5sから4m 59sおよび10m 0sから10m 1sまで使用されるビデオの元の期間に加えて、図33（C）は、4m 59sから5m 0sまでの追加オリジナルビデオを示している。このビデオは復号化人為構造の防止には必須ではないため、最後のP-フレームを決定するための2分の1秒が5m 0sマークの直前（例えば4m 59.5sから5m 0sまで）に使用できる。ただし、4m 59sから5m 0s期間は、オペレータによる、品質の手動変更が編集境界を超えて影響したという認知の機会を排除するために新規ビデオに付加される。この誤認は、MPEG GOPの最初でのフレームのコーディング順序はIBBだが、フレームはBBIとして表示されるという事実のためである。1秒期間は、その期間の元のエンコードの間に使用されたのと同じ量子化値を使用してエンコードされる。以前使用された量子化値を得る方法を以下に説明する。1秒期間が4m 59sから5m 0sに付加されないと、図33（D）にブロック図で示される代わりのエンコードされたビデオは、5m 0sで開始するだろう。

図33（C）のビデオをエンコードした結果生じる有効なデータは、4m 59sから10m 1sまで実行する代替データSとして図33（D）に示される。それから、この代替データSは、図33（E）に示すような最終ビットストリームを結果的に生じさせる図33（A）にブロック図で示される元のエンコードされたデータに代入される。

図33（A）に示されるエンコードされていない情報およびエンコードされた情報は、実施例のビデオであるが、エンコードされた情報を復号化するために、以前のまたは以降の、あるいはその両方の情報を使用するオーディオまたはその他の種類の情報となる場合がある。

図33（B）のビデオの新しいセクションは、任意のビデオソースから得られ、前記の時間的編集プロセスまたは空間編集プロセスによって作成されるビデオである可能性がある。4m 59sから5m 0sまでおよび10m 0sから10m 1sまでの図33（C）のオリジナルビデオは、元のエンコードに使用されたのと同じ量子化値が設定されるオリジナルビデオである。図33（C）の新しいビデオNの両端にあるこのビデオは、時間的編集プロセスを使用し、最後のセクションの品質を、時間的手動編集の項に説明した保護つきに設定するだけで得られ、量子化値が同じで留まる必要があることを示す。代わりに、図33（A）のビデオは、図33（A）のビデオに関係なく完了され、異なった長さとなる場合がある。さらに、ビデオのセクションをカットアウトし、新しいビデオを付加しないために本発明を使用することもできる。この場合、図33（B）にビデオは存在せず、「N」セグメントとその対応するエンコードは、図33（C）-図33（E）には記載されていない。編集セグメントの前の最後のP-フレームが適切に構築され、オリジナルビデオの2分の1秒から1秒の（1つまたは2つのGOP)がエンコードされるべき新しいビデオの最後に付加され、元のエンコードで使用された同じ量子化スケールでエンコードされる限り、可視復号化人為構造はどのような状況でも発生しない。

図34は、図33（A）-図33（E）に関して記述されるプロセスを説明するフローチャートである。開始後、ステップ780で、ビデオは圧縮フォーマットにエンコードされ、図33（A）に示されるエンコードされたビデオが作成される。ステップ782では、エンコードされたビデオに代入されなければならないエンコードされていないフォーマットのビデオの新しいセクションが決定される。ビデオのこの新しいセクションは、図33（B）と図33（C）でNとして示され、オリジナルフレームに関連する、オリジナルフレームに関連しない、またはオリジナルフレームとは異なった期間がセ設定される場面を表すことがある。置換されるビデオの開始ポイントおよび終了ポイントは、それぞれ5m 0sと10m 0sである。ただし、置換対象の最終エンコードの実際の開始ポイントおよび最終ポイントは、図33（D）にブロック図で示されるように異なっている場合がある。

ステップ784では、編集ポイント5m 0sおよび10m 0sでの復号化人為構造を防止するために、前記の理由からエンコードされていないビデオの期間をビデオのエンコードされた新しいセクションの最後に付加する。これらの付加された期間は4m 59sから5m 0sおよび10m 0sから10m 1sまでである。ただし、4m 59sから5m 0sまでの期間は必須ではない。

ステップ786では、編集ポイントの直前のPーフレームを決定する。図33（E）で置換されるビデオは4m 50sから10m 1sなので、4m 50sの直前の最後のP-フレームを突き止める必要がある。このP-フレームは、4m 58.5sから4m 50sまでの期間のためのエンコーダを、P-フレームを最初にエンコードするために使用された量子化値で実行することにより決定される。量子化値は、図10（A）または図10（B）のどちらかに示されるフォーマットを持つマクロブロックログファイルから元の量子化値を検索することにより求められる。ただし、映画全体の各マクロブロックの量子化値は、大量の記憶領域容量を消費するので、量子化値を記憶するのは望ましくない場合がある。代替策として、量子化値を、Iフレーム、Pフレーム、およびBフレーム用ビデオバッファ、allocated_bitとして図9Bにピクチャレイヤログファイルに図示されるピクチャのターゲットビット、図9Cにmean_activityとして記憶されるピクチャの活動レベル、およびエンコードの間にエンコーダにより計算されるマクロブロックの活動レベルに関するレート制御ステータスを使用して単に作り出すことができる。レート制御ステータスは、それぞれIビデオバッファ、Pビデオバッファ、およびBビデオバッファのレート制御ステータス情報を記憶する、図9Cの底部でS1_ｉ、S2_ｉ、S1_ｐ、S2_p、S1_b、およびS2_bとしてブロック図で示されるピクチャレイヤログファイルに記憶される。ビデオエンコード技術の当業者は、本明細書に記載される教示に基づき、過度の実験を行わないで希望のP-フレームの量子化値を求めることができるだろう。

基準フレームの量子化値またはエンコードされた基準フレーム自体を求める代わりの方法として、エンコードされた基準ストリーム内の基準フレームのエンコードバージョンは既知の方法で複合化できる。さらに、必要とされる基準フレームを得るそれ以外の方法も実行できる。

基準P-フレームが得られた後、ビデオは、最後のセクションの元のエンコードと同じ量子化レベルを維持しながら、ステップ788でエンコードされる。量子化レベルは、前述のように得られる。結果として生じるエンコードされたビデオは、図33（D）に示される。

それから、ステップ790で、新規にエンコードされたビデオを最初にエンコードされたビデオに代入し、図33（E）に説明するように、最終製品が得られる。置換されたエンコードされたビデオを含むこのエンコードされたビデオには、編集ポイントで最小の復号化人為構造がある。

2. ピクチャのグループの閉鎖モードでの再エンコード

図33（A）-図34に説明される手順の代替策として、復号化人為構造を低減しつつも新しいビデオの始まりのエンコードのために別の手順を実行できる。この手順では、ビデオの立ち下がり端を処理する方法は、図33（A）-図34に関して前記と同じである。

この代替実施例の例として、図33（A）を元のエンコードされたビデオとして、図33（B）を図33（A）に代入されなければならないエンコードされていないビデオとして使用する。元のエンコードされていないビデオは図33（B）の始まり縁で追加されず、図33（C）に記述されるように、対応する元のエンコードされていないビデオの2つのGOP（1秒）は、図33（B）の最後に追加され、エンコードされるべきビデオは図35（A）に示される通りである。

エンコーダが、第2基準ピクチャのないB-フレームのビットを増加させながら、図35（A）のビデオをGOP閉鎖モードでビデオの第1GOPのためにエンコードすると、開始編集ポイントでの可視復号化人為構造は排除される。10m 0sから10m 1sまでの元のエンコードに使用されたのと同じ量子化レベルを使用する最後の部分のエンコードは、図33（A）-図34に関して前述されるのと同じであり、その結果生じるエンコードビデオは図35（B）にブロック図で示される。GOP閉鎖モードは、第6.3.8項でのMPEG規格に説明される。ピクチャのグループの閉鎖モードフラグは1にセットされ、エンコードされたB-フレームが、逆方向予測だけを使用してエンコードされ、以前のGOPの基準フレームが使用されていないことを示す。しかし、双方向フレームに通常使用される基準フレームの内の1つが使用できないため、引き下げられた品質を排除するために手順が実行されない限り、B-フレームは、品質を劣化させてしまうだろう。

GOP閉鎖モードでのB-フレームの品質劣化の問題を解決するために、単一方向だけの予測が設定されるB-フレームのビット数は、フレームの品質が大幅に引き下げられないように増加される。B-フレームには単一方向だけの予測が設定されているので、ビット数は、ほぼ通常のP-フレームに使用されるビット数に増加するのが好ましい。ただし、ビット数は、希望される画質に応じて変化する。

図35（B）のエンコードされたのビデオは、図35（C）でブロック図で示されるように、既にエンコードされたビデオに直接代入できる。

GOP閉鎖モードを使用するプロセスを説明するフローチャートは、図36に示される。図36では、ビデオはステップ800での圧縮フォーマットにエンコードされ、エンコードされたビデオに代入される必要があるビデオの新しいセクションは、ステップ780と782に関して記述されるのと類似した方法でステップ802で決定される。次に、ステップ804では、必要に応じて、エンコードされていないオリジナルビデオのGOP（1つまたは2つのGOP）を、ビデオの新しいセクションの立ち下がり端に付加する。

それから、ステップ806でビデオをエンコードする。新しいビデオの第1GOPは、ピクチャのグループの閉鎖モードでエンコードされ、基準フレームを見失った双方向に予測されるフレームのビット数が、ほぼ単一方向予想フレームであるP-フレームに使用されるビット数に増加される。エンコードされたビデオのビット総数が同じままとなる場合、二方向フレームに必要となる余分なビットは他のフレームから削除されなければならない。これは、空間手動編集または時間的手動編集、あるいはその両方についての項に前述するように達成される。次に、ビデオの新しいセクションの残りは普通にエンコードされる。最後に、新規ビデオの立ち下がり端で付加された期間は、編集セグメントの終了ポイントでの復号化人為構造を防ぐために、追加された期間の元のエンコードの間に使用されたのと同じ量子化値を使用して、エンコードされる。最後に、新規にエンコードされたビデオが、ステップ808で最初にエンコードされたビデオに代入される。

前述のプロセス、および図34と36にブロック図されたプロセスのいずれかによって、代わりのエンコードされたセクションを含むエンコードされたビデオの最終バージョンでは、復号化人為構造の数が低減されるため、可視ビデオグリッチは減少し、復号化人為構造を防ぐためになんの訂正処置も講じられない場合と比較してビデオの品質が向上する。前記を説明する例は、GOPの境界での編集ポイントに関係する。ただし、前記教示は、GOP境界にない編集にも適用できる。

復号化人為構造を低減するプロセスは、再生VTR51およびビデオエンコーダ50とともに、ワークステーション10、30、および40を使用して実行される。しかし、それ以外のハードウェア代替策も可能であり、発明の前述した面は、プロセスを実行するために、任意の汎用コンピュータまたは特定のハードウェアを使用して実現できる。編集ポイントを決定するため、およびエンコードされるべきビデオの新規セクションの最後に付加されるビデオを決定するために使用される計算は、ワークステーション10またはワークステーション30のどちらかで実行される。

IX. エンコードに使用されるレート量子化モデリング
エンコードプロセスから生じるマクロブロックの列を表すのに必要とされるビット数を正確に概算するために、フレームは、フレームの標準量子化レベルを表す複数の量子化レベルを使用して事前にエンコードできる。それから、フレームは、他の量子化レベルだけではなく、代表的な量子化レベルを使用して実際にエンコードできる。図1Aに示される実施例では、ワークステーション10は事前に決定された量子化レベルをビデオエンコード装置50にロードする。それから、ビデオエンコード装置50は、事前エンコードを実行する。量子化モデルを作成するもっとも正確な方法では、可能な量子化レベルごとに各フレームをエンコードし、結果として生じる使用ビット数に関する統計を記録することが必要となる。しかし、このプロセスには、未処理ビデオでのn会のパスが必要となる。この場合、nは未処理ビデオのエンコードに使用される量子化レベルの総数である。この方法はひどく長いので、本発明は、従来の方法に要した時間の少しで最適の方法に類似した結果を作成する改善された方法となる。方法には、量子化レベルに対する代表的なビットレートを、事前エンコードフェーズの間に複数のフレームのそれぞれに計算できるように、複数のフレームのさまざまなパーツに異なった量子化レベルを割り当てることが必要になる。これにより、正確なビットレート対量子化レベルの統計を作成しながらも、各フレームのn-1の事前エンコードが節約される。それから、これらの統計を補間し、そのビットレート対量子化レベルが事前エンコードプロセスで決定されなかったマクロブロックによって使用されるビット数を概算する。2つの代替実施例では、方法は未処理ビデオまたは未処理ビデオのすべてのフレームから過半数のフレームを事前エンコードする。

図37（A）には、2ポイントビットレート対量子化レベル線が複数のフレームに作成され、結果が複数のフレームに記憶されるように、事前エンコードプロセス内でマクロブロックに基づいて2つの異なった量子化レベルをマクロブロックに割り当てられる未処理ビデオのフレームが示される。代替例では、量子化レベルは、マクログループのグループまたはストリップで割り当てられる。図37（B）では、量子化レベルが、位置に基づく統計上の異常を回避するために、フレーム内のさまざまな場所に割り当てられるフレームでの4つの量子化レベルの均一な分配を説明する。図示されたフレームでは、各行のj、行内の最初の量子化レベルは、qjmod4である。この結果、4ポイントビットレート対量子化レベルの曲線が生じる。図37（C）では、図37（B）と同じプロセスが示されるが、量子化レベルはブロック様式で割り当てられている。このプロセスのシングルパスは正確なビットレート対量子化レベル曲線を作り出すが、代替実施例では、このプロセスは、量子化レベルごとに各フレームを分析することによって収集される統計に近づくさらに正確な統計を作成するために、複数のフレームで何度も繰り返される。

図38では、複数のフレームの量子化レベル対ビットレート特性を決定する一般的なプロセスを説明する。プロセスはステップ850で開始し、事前エンコードされる未処理ビデオを表すビデオ信号を獲得することにより、ステップ852で続行する。ステップ854では、プロセスは、第1フレーム、ｉがフレームインデックスであるところのi=1が事前エンコードされなければならないことを示す。ステップ856に続けると、フレームi=1の量子化レベルは、統計学上の異常を防止するためにフレームで均一に割り当てられる。ステップ858では、フレームi=1は、ステップ856で割り当てられる量子化レベルを使用して事前エンコードされる。ステップ858の結果は、ステップ856で割り当てられる量子化レベルごとのビットレートがフレームi=1に記録されるように、ステップ860で求められる。ステップ862では、方法が、複数のフレームのすべてが事前にエンコードされているかどうかを判断する。事前にエンコードされていたフレームは1つだけであったので、プロセスは、フレームインデックスｉに1を加算してエンコードされるべきフレームとして第2フレームを指定するステップ866まで続く。それから、制御は、量子化レベルをフレームｉ=2に割り当てるステップ856に戻される。ステップ856、858、860、および862で割り当て、事前にエンコードし、ビットレートを決定するプロセスは、すべての残りのフレームについて続行される。ステップ862で、複数のフレームのすべてが事前にエンコードされていたと判断される場合、プロセスはステップ864に移動することにより終了する。ステップ864に到達すると、ビットレート対量子化レベル曲線は、ステップ856で割り当てられる量子化レベルおよびその対応するビットレートを使用することにより、近似される。

未処理ビデオの複数のフレームにビットレート対量子化レベル曲線を作成したので、事前エンコードプロセスは、未処理ビデオの一部がデジタル記憶装置媒体、つまりコンパクトディスクに適合するようにエンコードされるエンコードプロセスに移動する。未処理ビデオセグメントの1つ、複数、過半数またはすべてが、この第2フェーズでエンコードされる。未処理ビデオセグメントを自動的にエンコードする必要がある場合は、エンコーダは、セグメント内の各フレームのマクロブロックに割り当てられる量子化レベルを決定するために、対応するビットレート対量子化レベル曲線と結び付いた各マクロブロックの活動基準を使用する。それから、セグメントの各フレームがエンコードされ、その結果として生じるビット数は、割り当てられた量子化レベルに基づいてビット概算数と比較される。結果として生じるビット数がビット予測数から大きく異なる場合、自動エンコーダは、エンコードされるマクロブロックの次の集合の量子化レベルを変更することによって、変動を補償しようと試みる。この連続プロセスにより、自動エンコーダはターゲットビット数に一致するように未処理ビデオ全体のセグメントをエンコードする。

さらに、ビデオシーケンスのもっと後のフレームのビットレート対量子化レベル曲線は、結果として生じるエンコードされたデジタルビデオを通して品質を調整する場合に使用できる。図39に図示されるように、フレームNは同じ量子化レベルにフレームMより少ないビットを作成すると知られている。したがって、フレームMは、フレームN内と同じ品質の画像を作成するためにはさらに多くのビットを必要とする。フレームNがそのすべての割り当てられたビットを使用しないで希望の品質でエンコードされると、エンコーダは、同じ品質のために、ユニット時間あたりさらに多くのビットを必要とするフレームMをエンコードする際に使用される余分なビットを前方に運ぶことができる。この機能は、M+N>1の場合にフレーム先読みバッファが1つしかないシステムでは利用できない。

X. データ構造を使用して、オーディオ、ビデオ、およびサブピクチャのデジタル信号を結合する

本特許明細書の前記部分は、おもに、エンコード圧縮デジタルオーディオ映像信号を作成するために、オーディオ映像情報のエンコードの間に使用される技法に関する。しかし、オーディオ情報およびビデオ情報が結合、記憶、およびテレビの上などで、オーディオ映像情報を作成し直す、または構築し直すために後で復号化されるためには、オーディオ情報、ビデオ情報、およびそれ以外の記憶され、後で復号化できるようにエンコードされていた情報を結合し、インタリーブする必要がある。オーディオ情報、視覚情報、およびそれ以外の情報の結合は、図1Aに図示されるワークステーション20で発生するフォーマットプロセスとして、前記に簡略に説明した。フォーマットプロセスならびに結果として生じるデータ構造および信号について、ここで詳しく説明する。

ここで図1Aを見ると、MPEGビデオおよびエンコードされたオーディオはディスク21に記憶される。さらに、ビデオの上に表示またはオーバレイあるいはその両方を行われる字幕または図形表記、あるいはその両方を含むサブピクチャ情報は、例えば、別個のワークステーションにより初期にエンコードされ、エンコードされたサブピクチャ情報は、フロッピーディスク、テープまたはその他の種類のディスクのようなデジタル記憶装置媒体に記憶される。この記憶されたサブピクチャ情報は、デジタル記憶装置22の内の1つにより読み取られ、フォーマットプロセスでディスク21内のエンコードされたオーディオとビデオと結合され、ワークステーション20により1つのデータストリームにフォーマットされる。フォーマットプロセスの出力は、ディスク21に記憶されてから、デジタル記憶装置22のデジタルテープに書き込まれる。それから、テープは既知の光ディスク製造法により光ディスクを作成するために使用される。したがって、本発明は、オーディオおよび視覚データのエンコードに関係するだけではなく、エンコードデータ、オーディオデータ、ビデオデータおよびサブピクチャデータを1つのデータストリーム、デジタル記憶装置媒体およびフォーマットされたオーディオ情報、ビデオ情報、およびサブピクチャ情報を記憶するその上でのデータ構造に結合するためのプロセスおよびシステムに関し、復号化プロセスおよびユーザまたは消費者に表示するためにオーディオ情報、ビデオ情報およびサブピクチャ情報を分離し、再構築するデコーダにも関する。光ディスク上またはフォーマットされたデータ内でのデータ構造が、メモリ内に記憶される情報の物理的な編成を分け与える特殊電子構造要素に関係することを注記すべきである。これらの特殊電子構造要素は、ビデオオンデマンドシステムに使用できるまたはデジタルビデオディスクプレーヤを使用してユーザまたは消費者のために復号化される光ディスク内に記憶される。

エンコードされたのオーディオ映像情報用のディスクまたはそれ以外の記憶装置媒体のフォーマット構造の特定な特徴を説明する前に、本発明により改善される既知の規格について説明する。ISO/IEC 13818-1は、そこに引用される参考とともに、参照により本明細書に取り入れられるMPEGビデオおよびオーディオのシステム面を記述する。これ以降MPEGシステム説明と呼ばれるISO/IEC 13818-1は、ビデオストリームおよびオーディオストリームの基本的な多重化アプローチを説明する。これらのストリームは、パケット化基本ストリーム（PES）パケットと呼ばれるパケットに分割される。また、MPEGシステム説明には、1つ以上の独立したタイムベースのある1つ以上のプログラムを1つのストリームに結合する移送ストリームの使用についても説明される。MPEGシステム説明は、複数の基本ストリームを同期させるために使用されるプレゼンテーション時刻記録（PTS）の使用について説明する。時刻記録は、一般的には90kHzという単位で、システムクロックリファレンス(SCR)、プログラムクロックリファレンス(PCR)、およびオプションの基本ストリームクロックリファレンス(ESCR)といっしょに使用される。データがMPEGシステム説明に従い、どのようにフォーマットされるのかについての詳細の完全な説明は、ISO/IEC 13818-1に記載される。

ISO/IEC 13818-1に基づいたフォーマットプロセスを使用するのに加えて、データは、また、ISO 9660, 1988、情報処理−−ボリューム、および本明細書に参考により取り入れられる情報交換用CD-ROMのファイル構造に従ってフォーマットおよび記憶される。この規格は、ディスクボリューム（音量ではなく、ディスクの内容）およびファイル構造がどのように編成されるのかを記述する。

オーディオデータ、ビデオデータ、およびサブピクチャデータを記憶するために使用される光ディスクの現在の時刻での実施例は、片面あたり5ギガバイトの容量で、総記憶容量10ギガバイトの単層両面ディスクである。将来のフォーマットでは、記憶容量を増加するために多層ディスクを見越し、読み取り専用ディスクの使用に加えて、追記技術および上書き技術も使用できる。本発明とともに使用できるディスクのそれ以外の面については、1994年9月13日に提出された「光ディスクおよび光ディスク装置」という米国特許明細書08/304,848に説明する。ディスクの外径は120 mmであるのが好ましい。

図40では、究極的には光ディスクに具備されるワークステーション20のフォーマットされた出力の構造を説明する。この構造900は、リードイン領域902を含む。リードイン領域にはディスクから読み取られるデータのそれ以降の処理を制御する個々のフィールドが含まれる。リードイン領域900に記憶される例示的な引込み情報は、本明細書に参考により取り入れられるクックソン(Cookson)その他の米国特許5,400,077の図3にブロック図で示される。

システム領域904およびボリューム管理情報906はISO 9660に準拠する。ボリューム管理情報906には、主要なボリューム記述子、ボリューム記述子設定終止プログラム、ディレクトリレコード、およびパステーブルレコードが含まれる。主要なボリューム記述子には、ディスクがビデオディスクであるのか、またはオーディオディスクであるのかを示す記述子型、ディスクがどの規格に準拠しているのかを示す標準識別子、システム識別子、ボリューム識別子、ボリュームサイズ、論理ブロックサイズ、パステーブルサイズなどのディスクボリュームの基本的な情報が記憶される。システムのこれらのフィールドおよびそれ以外のフィールド、およびボリューム管理情報は、ISO 9660に詳説されているので、その説明は簡略さを期すために省略される。さらに、希望する場合には、ISO 9660に準拠する補足ボリューム記述子もある。

ボリューム記述子設定終止プログラムには、ボリューム記述子型、標準識別子、およびボリューム記述子バージョンが記憶される。ディレクトリレコードには、ISO 9660に従ったディスクのさまざまなディレクトリ情報が記憶される。パステーブルレコードには、ISO 9660に記述されるように、L型パステーブルおよびM型パステーブルが記憶される。

ディスク情報ファイル908は、ディスクの内容についてのさらなる情報および光ディスクをプレイするときにユーザが選択できるメニュー情報にが記憶される。ディスク情報ファイル908の詳細は、図41に関して説明される。

各ディスクには、最大99データファイルまで最小1データファイル910が格納される。例えば、ディスク上に2つの異なったオーディオ映像プログラムが記憶されている場合、ディスク情報ファイル908には、ユーザが使用を希望するデータファイルのどれかをユーザが選択するためのメニューを作成するのに必要な情報が記憶される。データファイルは、図42-56に関連して詳説される。リードアウト領域16は、ディスク、処理がどのように実行されるのかを記述するそれ以外の情報、または関連するディスクに関する情報が記憶されることがある。

図41は、図40のディスク情報ファイル908を説明する。ディスク情報ファイル908には、ファイル管理情報920およびユーザが対話するメニューを構成する情報であるメニューデータ922が格納される。メニューデータは、ビデオデータ、オーディオデータ、およびサブピクチャデータを含む。ファイル管理情報920は、ファイル管理テーブル924、ディスク構造情報926、メニュー構造情報928、および複数オメニューセル情報フィールド932と934が含まれるメニューセル情報テーブル930を格納する。

ファイル管理テーブル924には、ディスク情報ファイルのあらゆる面に関する情報が含まれる。ファイル管理テーブル924内には、ファイル名を識別するためのボリューム管理情報906の対応するディレクトリレコード内の対応するファイル識別子と同じ内容を記述するファイル名が記憶される。論理ブロックの数を使用してファイルのサイズを記述するフィールドがある。本明細書全体で、「論理ブロック」という用語は、ISO 9660に定義されるように使用される。論理ブロック数を使用するファイル管理テーブルのサイズ、ファイルの先頭からの相対論理ブロック番号を使用するディスク構造情報926の開始アドレス、ファイルの先頭からの相対論理ブロック番号を使用して記述されるメニュー構造情報928の開始アドレス、ファイルの先頭からの相対論理ブロック番号を使用するメニューセル情報テーブル930の開始アドレスを記述するエントリがある。メニューデータがない場合は、このフィールドの値はゼロになる。ファイルの先頭からの相対論理ブロック番号を使用するメニューデータ922の開始アドレスを記述するフィールドがある。メニューデータが存在しない場合、このエントリはゼロである。

ファイル管理テーブル924には、メニューデータ用のビデオのビデオ属性を記述するフィールドもある。この情報は、ビデオ圧縮モードがMPEG-1であったのか、MPEG-2であったのか、ビデオのフレームレート（毎秒29.97フレームまたは毎秒25フレームのどちらか）、表示アスペクト比が3/4であるか、または9/16であるのかを示すフィールド、およびパンスキャンとレターボックスモードの両方が許可されていることを示すか、パンスキャンモードがは許可されているが、レターボックスモードが禁止されていることを示すか、あるいはパンスキャンモードが禁止され、レターボックスモードが許可されていることを示すディスプレイモードフィールドを含む。

ビデオ属性を記述するフィールドと同様に、ファイル管理テーブル924のオーディオストリームを記述するフィールドもある。このフィールドには、オーディオがドルビーAC-3に従ってエンコードされたのかどうか、オーディオがMPEGオーディオであるのかどうか、あるいはオーディオが線形PCMオーディオ（48 kHzで16ビット）を含むオーディオコーディングモードの表示が指定される。また、オーディオがモノラル、ステレオ、またはデジタルサラウンドであるのかを含むオーディオコーディングモードの表示も指定される。

ファイル管理テーブル924には、さらに、メニューデータ922のサブピクチャストリーム属性を記述するフィールドも入る。このフィールドは、以下に説明するように、ランレングスサブピクチャコーディングモードがサブピクチャに使用されることを示す。フィールド管理テーブル924には、メニューのためのすべてのサブピクチャに使用される16セットのカラーパレットを記述するフィールドも入る。パレット番号1から16には、輝度信号Y、カラー差異信号Cr=R-Y、およびカラー差異信号Cb=B-Yが指定される。

ディスク構造情報926には、ディスクに記憶されるビデオファイルおよびオーディオファイルの構成情報が含まれる。ディスク構造情報926には、ファイル名を識別するために使用されるディレクトリレコード内での対応するファイル識別子と同じ内容を記述するファイル名が含まれる。ファイルをディスク構造情報ファイルとして識別するファイル識別子フィールドがある。図40に示されるデータファイル910および914のようなディスク上のデータファイルの数を示すフィールドがある。また、ファイルにビデオ情報とオーディオ情報の両方が記憶されるのか、あるいはオーディオ情報だけが記憶されるのか、およびアイルがカラオケファイルであるかどうかを含むデータファイルのそれぞれのタイプを示すフィールドもある。

ディスク構造情報926には、データファイル内のサブピクチャとオーディオ情報を含むフィールドも含まれる。このフィールド内には、サブピクチャチャネル数も示される。各サブピクチャチャネルは、異なったサブピクチャ言語のようなさまざまなサブピクチャ情報を表示する場合に使用できる。また、オーディオストリーム数の表示、チャネル番号順の各サブピクチャチャネルの言語コードの表示、オーディオストリーム番号順のオーディオストリームの言語コードの連続記述、およびファイルのパレンタル管理とアングル情報の記述もある。パレンタル管理情報は、表示される情報のある特定のシーケンスを記述する場合に使用される。パレンタル管理情報は、シーケンス内に含まれる特定のセルの最大親レベルである。レベルは、1から5で変化し、レベルが高いほど、見聞きされる内容に対する制限が多くなる。シーケンスとセル、およびパレンタル管理スキームの詳細は、以下に説明する。ビデオシーケンスのアングルの数を記述するフィールドもある。例えば、ミュージックビデオに、ミュージックビデオ全体を通して3つの異なったカメラビューがある場合、ユーザはどの特定のカメラアングルを表示に希望するのかを選択できる。また、シーケンス内のプログラム数を示すフィールドもある。

メニュー構造情報928には、各メニュータイプの開始セル番号が含まれる。ディスプレイシーケンスには複数のセルがある。例えば、1つのシーケンスは最高256のセルを格納できる。セルは、後述する再生情報（PBI）パックと次のPBIの直前のパックの間のGOP（ピクチャのグループ）の整数である。ビデオ用データは、データを連続して再生する必要があるレコード単位としてセルの中に分離される。セルには、表示のための情報が含まれ、その目的に応じて分割される。セル内の第1オーディオパックとおよび第1サブピクチャパックが、セルの先頭にあるPBIパックの後ろ手記録されるビデオヘッドパック中のPTSに近いプレゼンテーション時刻記録(PTS)を含むのが望ましい。異なったセルは、希望されるアングルおよびプログラムの親制約に応じて表示される。例えば、より若年層の視聴者向けには不適切であった映画のあるセクションがあったと仮定する。表示できるパレンタル管理レベルに応じて、2つのシーケンス共用セルが存在する。例えば、制約されていない表示の場合、ある特定のシーケンスにセル1、2、3、および5を表示できる。制約レベルの表示の場合は、そのシーケンスに表示されるセルは1、2、4、および5である場合がある。

異なったアングルに関しては、同時進行し、その再生に要する時間が実質上等しい、複数のカメラアングルで各ビデオを記録させることができる。各アングルは、アングルセルと呼ばれる1つのセルから構成される。同時に先行する複数のアングルセルの集合が、アングルブロックと呼ばれる。シーケンス内の複数オロケーションでアングルブロックが限定される場合、各アングル番号のアングルセル数およびカメラアングルは、アングルブロックを通して同じでなければならない。

メニューセルとは、ユーザに、ボリューム内の各ビデオファイルまたはオーディオファイルの内容を知らせるメニュー画面を構成するセルである。メニューセルの集合は、メニュー用データとしてディスク情報ファイルにともに記録される。メニュータイプ共呼ばれる、メニューセルタイプは、タイトルメニュー、プログラムメニュー、オーディオメニュー、サブピクチャメニュー、およびアングルメニューに分類される。メニュー画面には、メニュー用ビデオが備えられる。再生装置の画面上に表示される選択用アイテムは、メニューセルのサブピクチャデータとして記録される。

メニューセル情報テーブル930は、図41の932と934のような複数のメニューセル情報が記憶されるテーブルである。1つのメニュー画面に1つのメニューセルが具備される。メニューセル情報は、複数のフィールドを含む。第1フィールドは、ディスクの情報のコピーが許可されているかどうか、パレンタル管理のレベル、メニューがタイトルメニューであるかどうかなどのメニューセルタイプ、プログラムメニュー、オーディオメニュー、サブピクチャメニュー、またはアングルメニューおよびメニューの言語コードを示す。各言語にはコードが割り当てられ、言語コードサブフィールド内に現れる特殊コードが、メニューと使用される言語を示す。

メニュー画面上のサブピクチャによって表示される選択アイテムの開始番号および選択アイテム数を記述するフィールドもある。選択アイテム開始番号は、メニュー画面上の選択アイテムの最小数を記述し、メニューの次のページが存在するかどうかを示すフィールド、および選択できる1と16の間のアイテム数を記述する番号がある。メニューセル情報は、メニューセルの開始パックのシステムクロックリファレンス(SCR)の下位32ビット、メニューセルの開始アドレスをファイルの先頭からの相対論理番号で記述するフィールド、およびメニューセルを構築する論理ブロック数を記述するフィールドも含む。

メニューデータ922は、メニューのために表示される実際の情報を含む。この情報は、図40のデータファイル910と914の情報が構築されるのと同じように構築され、したがって各面の綿密な記述は冗長な記述を防ぐために省略される。メニュー画面で選択されるアイテムは、サブピクチャ情報で形成される。ディスクプレーヤによるメニュー選択の処理は、コンピュータコードを実行するマイクロプロセッサを使用して実行される。タイトルのためのメニュー選択が行われると、選択の結果はファイルの最初または選択されたタイトル番号に対応するシーケンス番号から再生される。プログラムメニュー選択の場合、選択されたプログラムは選択されたプログラムの最初から再生される。メニューからのオーディオ選択の場合、オーディオストリームは選択されたオーディオストリームに対応するように設定される。同様に、サブピクチャメニュー選択の場合、チャネル番号は選択されたサブピクチャチャネルに等しく設定される。最後に、メニューからのアングル選択は、アングルセル番号を選択された番号に等しくなるように変更する。それ以外の情報は、希望に応じて含まれ、メニューを通して選択できる。

図40のデータファイル910のようなデータファイルには、図42にブロック図で示されるような2つのセクション、つまりデータファイル管理情報940およびオーディオ情報、ビデオ情報およびサブピクチャ情報を表示するために使用される実際のデータ942が記憶される。データファイル管理情報940には、4つの主要な構成要素、つまりデータファイル管理テーブル944、シーケンス情報テーブル946、セル情報テーブル948およびデータ検索マップ950を含む。

データファイル管理テーブル944は、データファイル910の各面に関する情報を含む。この情報には、ファイル名を識別するためのディレクトリレコード内の対応するファイル識別子と同じ内容であるファイル名のフィールド、オーディオ情報とビデオ情報の両方がファイルに記憶されることを示すファイル識別子、論理ブロック数により定義されるファイルのサイズ、ファイル管理テーブルのサイズ、ファイルのシーケンス番号、ファイルのセルの数、ディスク構造情報(DSI)パックの数、シーケンス情報テーブル946の開始アドレス、セル情報テーブル948の開始アドレス、データ検索マップの開始アドレス、データ942の開始アドレス、MPEG-1またはMPEG-2のようなビデオ圧縮モードを含むデータ942のビデオ属性を記述するフィールド、レートが毎秒29.97フレームであるのか、毎秒25フレームであるのかを含むフレームレート、表示アスペクト比が3/4であるのか、9/16であるのか、またはディスプレイモードによってパンスキャンフォーマットとレターボックスフォーマットの1つが可能とされるのか、両方が可能とされるのかを示す表示アスペクト比を含む。

データファイル管理情報は、さらに、ファイル内のオーディオストリーム数を、オーディオコーディングモードのようなオーディオストリーム属性、モノラル、ステレオ、またはデジタルサラウンドのようなオーディオモード、特殊言語が含まれているのかどうかを示すオーディオタイプを記述するフィールド、および言語のコード番号を示す特殊コードのフィールドも含む。

データファイル管理テーブル944は、さらに、サブピクチャチャネル数を記述するフィールド、サブピクチャのランレングスコーディングが使用されること、および指定言語および指定される言語があるかどうかを示すフィールドのようなサブピクチャチャネル属性を記述するフィールドを含む。さらに、ファイルのすべてのサブピクチャチャネルで使用される16のカラーパレットのY、Cr、およびCBカラーを示すフィールドがある。また、シーケンス情報テーブルのサイズ、最小セル番号と後続の連続セルの数を記述するフィールド、およびファイルの1つのシーケンス内で使用されるセル番号の範囲を記述するフィールドもある。1つのシーケンス内で使用されるセル番号は、32の連続番号で1つの集合を作り、最小セル番号を集合の最初の番号となるように格納することにより計算される数の集合に入れられなければならない。このフィールドには、シーケンスで使用されるセル数、およびシーケンスで使用される最小セル数を含むサブフィールドがある。

シーケンス情報テーブル946には、複数のシーケンス情報エントリ952と954を含む。シーケンスとは、このシーケンスにより指定される範囲内のセルが選択式で再生される順序のことである。完全および接続という2種類のシーケンスがある。完全型シーケンスは、それ自体を再生した後に終了する。接続型シーケンスは、連続して再生される。参照番号952により示されるシーケンス情報1および954により示されるシーケンス情報ｉのようなシーケンス情報番号は、シーケンス番号に等しく、1で開始するシーケンス情報テーブルい、記述順序で番号が付けられる。シーケンス情報テーブルのシーケンス情報エントリは、完全型シーケンスまたは接続型シーケンスの順序で記述されている。各シーケンス情報テーブルは、完了型シーケンスまたは接続型シーケンスの順序で記述される。各シーケンス情報には、シーケンスタイプ、格納されるプログラム数、格納されるセル数、シーケンス再生時間、接続型シーケンス数、接続可能シーケンス番号、およびシーケンス制御情報を示すフィールドを示すフィールドを含む。

シーケンス情報のシーケンスタイプフィールドは、シーケンスのコピーおよびパレンタル管理を記述する。コピーが許可されているのか、または禁止されているのかを示すサブフィールド、パレンタル管理のレベルを1-5で指定するサブフィールド、完了型シーケンス、接続型ヘッドシーケンス、接続型中間シーケンスまたは接続タイプとシーケンス内の１つである可能性があるシーケンスタイプを示すサブフィールドある。また、シーケンスが、カラオケアプリケーションで使用するかどうかを示すアプリケーション型サブフィールドもある。

格納プログラム数フィールドは、最高1つのシーケンス内に100というプログラム数を記述する。格納セル数フィールドは、ある特定のシーケンス内での、合計256セルまでのセル総数を記述する。シーケンスまたは再生時間は、時、分、秒およびビデオフレームによる単位でこのシーケンスの総再生時間を記述する。

接続型シーケンス数フィールドには、最大数が8であるその直後に接続可能なシーケンス数を指定する。接続可能シーケンス番号フィールドは、接続可能シーケンスのシーケンス番号と指定される数のシーケンスのパレンタル管理のレベルを記述する。接続可能シーケンスの選択番号は、記述された順序で1から割り当てられる。このフィールドには、パレンタル管理番号のサブフィールド、およびシーケンス番号のサブフィールドが指定される。シーケンス情報の最後のフィールドは、再生順でシーケンスに含まれるセルを記述するシーケンス制御情報である。このフィールドも、複数のセルの集合であるアングルブロックの記述に使用される。それらのセルの再生時間は、実質上等しい。各再生セクションは、1つのセルで構成される。アングルブロックは、多くても9個のセルを含み、第1セルに1という番号が付けられる。シーケンス制御情報のサブフィールドには、実質上再生される複数のセルを結合する再生単位としてプログラムを定義するプログラム番号を指定する。以下のセルに連続して進むのか、休止するのか、あるいはシーケンスの最後に到達したかを示すセル再生制御のサブフィールドがあり、ブロックが構成セルではないかどうか、ブロック構成の第1セルがあるかどうか、それがブロック構成内のセルなのか、ブロック構成内の最後のセルであるのかを示すブロックモードサブフィールドがある。ブロックがないかどうか、またはアングルブロックがあるかどうかを示すブロック型サブフィールドがある。最後に、再生対象のセルのセル番号を示すサブフィールドがある。

データファイル管理情報940は、さらに、複数のセル情報エントリ956と958を含むセル情報テーブル948を含む。各セル情報エントリは、コピーが許可されているのか、禁止されているのかを示すセルタイプ情報、およびパレンタル管理レベルを含む。また、時、分、秒およびビデオフレームによりセルのセル再生総時間を記述するセル再生時間を示すフィールドもある。セルの第1パックに記述されるシステムクロックリファレンスの下位32ビットを記述するフィールド、ファイルの始めからの相対論理ブロック番号でセルの開始ポイント得のアドレスを記述するフィールド、およびセル内に含まれる論理ブロック数を記述するフィールドがある。

ファイル管理情報940のデータの最後のセクションは、データ検索マップ950である。データ検索マップは、データ検索情報パック960と962の複数のポインタを備える。再生情報(PBI)パックポインタと呼ばれるこれらのポインタは、データ942内に存在する再生情報のアドレスを指定する。高速順方向モードまたは高速反転モードを実行し、情報の表示を可能にするためには、MPEG-2ビデオシーケンスのイントラピクチャに依存するのが最適です。これらのイントラピクチャは、そのアドレスがデータ検索マップ内に記憶されるデータ942内の再生情報パックを使用して配置される。PBIパックの詳説は、以下で行う。

図43にブロック図で示されるデータファイル910のデータ942は、再生情報(PBI)、ビデオ情報、サブピクチャ情報、およびオーディオ情報のインタリーブされたパックを含む。例えば、図43では、データは再生情報940、ビデオ情報942と944、サブピクチャ情報946、オーディオ情報948などを含む。データ942内の情報の構造、およびプレゼンテーションタイミングは、MPEGシステム説明（ISO/IEC 13818-1）に定義されるプログラムストリームに準拠する。しかし、再生情報およびサブピクチャ情報、ならびにこの情報が、記憶、エンコード、および復号化される方法が、本発明の一部を構成する。

図43でデータ942から構成されるさまざまな情報は、情報パックを含む。例示的なパック970Aおよび980Aが、図44Aと44Bに示される。各パックは、パックヘッダ972Aまたは972B、およびビデオ情報、オーディオ情報、サブピクチャ情報、または再生情報から構成される。

パック970Aの構造は、パケット982Aが2034バイトと2027バイトの間で占有するときに使用される。スタッフィングフィールド980Aによって、1から8バイトのスタッフィングがパック総サイズを2048バイトにできるようにする。ビデオ情報、オーディオ情報、サブピクチャ情報または再生情報が2027バイトを下回るとき、図44Bに示されるパック構造970Bが使用され、1バイトのスタッフィング970Bおよびパケット982Bと984Bのビット総数を2034バイトにあるようにする埋め込み984のパケットがある。パケットヘッダ972Aと972Bのそれぞれには、パック開始フィールド974、システムクロックリファレンス976、多重化（MUX)レートフィールド978、およびスタッフィングフィールド980がある。図44Aと44Bのパケットは、ISO/IEC13818に従って構築され、プログラムストリームパック内のフィールドのセマンティック定義に関するその第2.5.3.4項に説明される。

図45は、再生情報(PBI)パックを示している。パックヘッダ972は、図44Aと44Bに関して記述されるように、構築される。図45のシステムヘッダ986は、ISO/IEC13818-1に記述されるプログラムストリームシステムヘッダの要件に準じて構築される。システムヘッダ内のフィールドのセマンティック定義は、ISO/IEC 13818-1の第2.5.3.6項に説明される。

パケットヘッダ988は、ISO/IEC 13818-1の第2.4.3項に記述されるPESパケット内のフィールドのセマンティック定義に説明されるフィールドに従って構築される。ただし、パケットヘッダ988では、プレゼンテーション時刻記録までのフィールドだけが必要とされる。

再生情報パックは、さらに、サブストリームIDフィールド990を含む。これは、サブストリームの識別を示す8ビットのフィールドである。使用できる別の識別は、サブピクチャストリーム、ビデオ空白化情報（VBI)ストリーム、AC-3ストリーム、または線形PCMストリームである。MPEGオーディオサブストリームなどの他のストリームタイプを入れることも可能である。サブストリームID990はビデオ空白化情報992のデータを先行するので、サブストリームIDは、後続の情報がビデオ空白化情報ストリームであることを示すように設定される。ビデオ空白化情報992のデータは、ISO/IEC 13818-1に従って構築され、ISO/IEC 13818-1に必要となる意味論に準拠する。

図45に示される再生情報パックの中には、データ検索情報996のデータを格納するデータ検索情報パケットのパケットヘッダ994も示される。パケットヘッダ994には、24ビット値000001hが設定されるパケット開始コードプレフィックス、データ検索情報996が以前に定義された規格に準拠していないことを示すストリーム識別、パケット長を示すフィールドを含む。データ検索情報996はMPEG規格では開示されていないので、ストリームIDは、後続の情報がデータストリームの私的なタイプであることを示す。

図45を説明するデータ検索情報996のデータの特定の内容が図46に示される。データ検索情報996は、一般情報1000、アングルアドレス情報1020、ハイライト情報1022、同期再生情報1024、およびPBIパックアドレス情報1036を含む。

一般情報1000は、図47にさらに詳細にブロック図で示される。前記のように、データ検索情報の目的とは、デジタルエンコードされた情報の迅速な検索を可能にすることであり、特に、ビデオ復号化中に実行されるトリックモード用イントラピクチャオ高速位置発見を可能にする。したがって、図46に示される再生情報パックは、ピクチャのグループ(GOP)のそれぞれのヘッドパックであり、I-ピクチャで開始するビデオヘッドパックの直前に割り当てられる。一般情報1000は、I-ピクチャの再生開始時刻であるGOP1002の時刻記録である。次に、PBIのシステムクロックリファレンス(SCR)がある。これは、PBIパックヘッダに記述されるSCRの下位32ビットを記述する。1006は、I-ピクチャの最終アドレスを示し、ファイルの初めからの相対論理ブロック番号によりI-ピクチャの最終データが記録されるパックのアドレスを記述する。セル番号はフィールド1008に記憶され、GOPが属するセル番号を記述する。フィールド1010は、制約のレベルおよびコピーが許可されているかどうかも含むパレンタル管理情報を記述する。最後に、フィールド1012は、ファイルのヘッドからの相対論理ブロック番号を使用するこのPBIパックのアドレスであるPBIパックアドレスを記述する。

図46に示されるデータ検索情報996のフィールド1020は、アングルアドレス情報である。アングルアドレス情報には、その他のアングルのアドレス情報が含まれる。アングルアドレス情報には、それぞれが異なったアングルセル番号に関する9つのフィールドが含まれる。アングルアドレス情報1020の各フィールドの場合、ある特定のPBIパックが属するセルがアングルブロックを構成する場合、アングルアドレス情報のフィールドは、対応するデータ検索情報のビデオ開始プレゼンテーション時刻記録を超えないもっとも近いビデオ開始プレゼンテーション時刻記録を持つアングルセル番号のPBIパックのアドレスを記述する。アングルセルが存在しない場合、またはアングルブロックが構成されない場合、特定のセルのアングルアドレス情報ははゼロに設定される。

データ検索情報996の第3セクションは、ハイライト情報1022である。ハイライト情報は、メニュー画面上での選択アイテムの位置、および選択時に変更されるその色とコントラストを記述する。この情報は、セルがメニューの一部である場合にだけ使用される。ハイライト情報には、選択アイテム開始番号およびメニュー画面上でサブピクチャにより表示されるアイテム数を記述するフィールドがある。選択アイテム開始番号およびアイテム数の特定のサブフィールドには、メニュー画面上での選択アイテムの最小数を記述するサブフィールド、メニューの次ページが存在するかどうかを記述するサブフィールド、およびメニュー画面上での選択アイテムの数を記述するサブフィールドがある。ハイライト情報の第2フィールドには、選択アイテムの位置、色、およびコントラストが含まれる。このフィールドは、メニュー画面上の選択アイテムごとの矩形表示領域、および選択時に変更される対応する色とコントラストを記述する。矩形表示領域は、X-Y座標面内に限定される。選択アイテムの位置、色、およびコントラストを記述するこのフィールド内の情報には、メニューの矩形領域を限定すること、およびさまざまなタイプのピクセルが、選択時にどのようにして変更されるのかを記述する情報を含む。さらに詳細に後述するように、サブピクチャは4種類の異なったピクセルを酌量する。テキストやそれ以外の情報を表示するために使用できる第1強調ピクセルと第2強調ピクセル、線描画またはその他の図形パターンのようなパターンを表示するために使用されるパターンピクセル、およびバックグラウンドピクセルがある。以上4種類の異なった情報がハイライトまたは選択される場合、アイテムがハイライトされるときに選択される色、およびハイライトされたときのピクセルのコントラストも知っておく必要がある。したがって、4種類の異なったピクセルが選択されたときの、その色およびコントラストを記述するハイライト情報内に8つのサブフィールドがある。

データ検索情報996内の5番目のアイテムは同期再生情報1024である。同期再生情報1024は、図48に詳しくブロック図で示される。同期再生情報の目的とは、ビデオデータと同期するオーディオとサブピクチャの開始時間とアドレス情報を検出できるようにすることである。図48に示される同期再生情報1024には、オーディオのプレゼンテーション時刻記録のターゲットであるオーディオパックアドレスが含まれる。このフィールドの最上位ビットは、オーディオパックがこのPBIの前に位置しているのか、このPBIの後に位置しているのかを示す。オーディオ1028のプレゼンテーション時刻記録（PTS）は、ビデオ開始PTSからの相対プレゼンテーション時刻記録により、I-ピクチャの再生開始時間の直後に再生開始時間が設定されたオーディオパケットのPTSを記述する。オーディオのプレゼンテーション時刻記録は、プレゼンテーション時刻記録をそのために記憶させるために、最高8つのオーディオストリームを酌量する。さらに、GOPの間に再生されるオーディオフレームを構成するオーディオパケットがするかどうかを示すサブフィールドがある。ピクチャにオーディオがない場合には、オーディオのプレゼンテーション時刻記録を記憶したり、復号化する必要はない。最高8つのオーディオチャネルがあるので、各オーディオチャネルには対応するアドレスフィールドと時刻記録フィールドがある。

データ構造1024も、問題のサブピクチャパックの、PBIパックに相対したアドレスをを記述するサブピクチャパックアドレス1030を含む。サブピクチャのプレゼンテーション時刻記録は、対応するサブピクチャ情報の同期を記述する。GOP再生の間に再生される必要があるサブピクチャユニットが存在するかどうか、サブピクチャの再生開始時間がビデオプレゼンテーション時刻記録の前かどうか、GOP再生中に再生されるサブピクチャユニットの製作開始時間、およびGOP再生中に再生されるサブピクチャユニットの再生終了時間を示すサブフィールドがある。1つのデータストリームに含めることができる最高32のサブピクチャのように、存在するそれぞれのサブピクチャには、対応するアドレスと時刻記録のフィールドがある。

データ検索情報996の図46に示される最後のセクションは、PBIパックアドレス情報である。PBIパックアドレス情報は、ファイル内の他のPBIパックのアドレスを構成し、他のPBIパックの位置が迅速に見つけられるようにする。PBIパックアドレス情報は、相対論理ブロック番号を使用して周囲のPBIパックのアドレスを記述する。PBIパックアドレス情報には、それぞれ次のPBIパックアドレスと前のPBIパックアドレスを記述する2つのフィールドがある。現在のPBIパックアドレスからの相対論理ブロック番号を使用して、GOPのすぐ先にあるGOPに属するPBIパックのアドレスを、nx0.5秒と(n+1)x0.5秒の間であるその累積した再生時間で定義し、複数のPBIパックがこの範囲に該当する場合は、n x 0.5秒、1≦b≦15を選択する15のフィールドがある。

現在のPBIパックアドレスからの相対論理ブロック番号を使用して、GOPに属するPBIパックのアドレスを、n x 0.5秒と(n+1) x 0.5秒の間のその累積再生時間で定義し、複数のパックがこの範囲っ該当する場合には、n x 0.5秒、-15≦n≦-1にもっとも近いPBIパックを選択する15のフィールドがある。

現在のPBIパックアドレスからの相対論理ブロック番号を使用して、GOPのすぐ先のGOPに属するPBIパックアドレスをn x 0.5秒と[n x 0.5 +1]秒の間のその累積再生時間で定義し、複数のPBIパックがこの範囲に該当する場合には、n x 0.5秒、n=20またはn=60にもっとも近いPBIパックを選択する2つのフィールドがある。

現在のPIパックアドレスからの相対論理ブロック番号を使用して、GOPに臆するPBIのアドレスをn x 0.5秒と[n x 0.5 +1]秒の間のその累積再生時間で定義し、複数のPBIパックがこの範囲に該当する場合は、PBIパックをn x 0.5秒、n=-20またはn=-60にもっとも近いPBIパックを選択する2つのフィールドがある。

ビデオパック1040の構造は図49にブロック図で示される。ビデオパックは、図44Aと44Bに示されるヘッダ972Aまたは972Bに従って構築されたパックヘッダ972を備える。ビデオ用のパケットヘッダ1046は、ビデオデータ1048でのように、ISO/IEC 13818-1に従って構築される。ただし、MPEGビデオ信号として表記されるビデオデータ1048は、前記技法に従いエンコードするのが好ましい。

MPEGエンコードされたピクチャのグループは、図50の1050として示される。このGOP 1050を複数のビデオパック1040に分割し、ビデオストリーム1060を作成する方法は、図50の底部にブロック図で示される。ピクチャオグループ1050は、ビデオパックに適合するために適切なユニットに分割される。最後のビデオパック1040G、ビデオパックjは、パックのそれぞれに使用される完全な2048バイトを使用しないので、最後のパックjを2048バイトに等しくするには、スタッフィングが使用される。

図51Aは、MPEGオーディオのビデオパックを示している。このビデオパックは、パックヘッダ972、MPEG要件に準拠して構築されるパケットヘッダ1084、およびエンコードされたMPEGオーディオデータ1086を含む。

図51Bは、線形PCMオーディオまたはドルビーAC-3オーディオのどちらかと準拠して構築されるオーディオパック1090を示している。図51Bにブロック図で示されるパケットの場合、パックヘッダ972は前記のように配列され、パケットヘッダ1094はMPEG要件に準拠して構築され、stream_idフィールドは線形PCMまたはAC-3のどちらかに対応する私的オーディオデータストリームを示す。サブストリームid 1096は、オーディオデータが線形PCM用であるか、AC-3（またはMPEG）用であるかを示す。オーディオフレームポインタ1098は、オーディオパケット内のオーディオフレームヘッダ数を示すフレームヘッダ数を具備し、ポインタの最後のバイトからの相対バイト数を使用して、オーディオフレームの第1アクセス装置の先頭を示す第1アクセス装置ポインタも備える。線形PCMオーディオにとって、各フレームがフレームヘッダとフレームデータを備えるオーディオフレームに分割されるのは普通のことである。オーディオフレームポインタ1098も同様にドルビーAC-3で使用できる。オーディオデータ1100は、対応するオーディオエンコード方法に従って構築される。

図52は、エンコードされたオーディオストリーム1100を示す。このオーディオストリームは、個々のパック1122を構成するオーディオパックのストリーム1120に変換される。各パックの長さは2048バイトで、最後のオーディオパック1122G、オーディオパックjは、長さを2048バイトにするために、スタッフィングビットを付加することによって調整される。

本発明の新規の特徴とは、サブピクチャの使用およびサブピクチャパックのオーディオ情報とビデオ情報とのインタリーブである。サブピクチャ情報を使用すると、グラフィック情報の表示が可能になり、MPEGビデオでのサブピクチャ情報の重複が酌量できる。ホン発明により使用されるサブピクチャ情報と従来のクローズキャプション字幕の間の大きな相違点とは、サブピクチャ情報がビットマップ化されたグラフィックであるのに対し、クローズキャプションでは、デコーダに記憶されている文字セット内の文字を表示するために文字符号が伝送されるという点である。したがって、従来のクローズキャプションは、デコーダ内の文字セットによって制限される。しかし、サブピクチャ情報はビットマップ化しているため、外国語文字を含む任意のタイプの文字は、言語ごとにデコーダ内の文字セットを記憶する必要なしに表示することができる。

サブピクチャ情報の各表示画面が、サブピクチャユニットと呼ばれる。図53にサブピクチャユニット1140がブロック図で示される。サブピクチャユニットは、ビットマップ化されたピクセルデータから成る1つの画面を具備し、このピクセルデータの画面が複数のビデオフレームで表示される。サブピクチャユニット1140は、サブピクチャユニットヘッダ1142を備える。サブピクチャユニットヘッダ1142には、サブピクチャ装置の先頭からのバイト数に相対して、サブピクチャユニットのサイズおよび表示制御シーケンステーブル1146を記述するフィールドがある。

ピクセルデータ1144は、ランレングス圧縮済みビットマップ化情報である。ピクセルは表示された情報のバックグラウンドを形成するバックグラウンドピクセル、図形線描画を含むサブピクチャ内の表示パターンを可能にするパターンピクセル、および2つの異なった属性を持つ図形または文字が表示できるようにする2種類の強調ピクセルとなる場合がある。ビットマップ化情報は、従来のグラフィック作成技法を使用して作成できる。ランレングス圧縮は、以下の規則に従って実行される。同種の1ピクセルから3ピクセルが続く場合、最初の2ビットにはピクセル数を、続く2ビットにはピクセルデータを入力する。4ビットが1つの単位と見なされる。同種の4から15のピクセルが続く場合は、最初の2ビットにゼロを指定し、続く4ビットにピクセル数、次の2ビットにピクセルデータを入力する。8ビットが1つの単位と見なされる。同種の16から63ピクセルが続く場合、最初の4ビットにゼロを指定し、続く6ビットにピクセル数、次の2ビットにピクセルデータを入力する。12ビットが1つの単位と見なされる。同種の64から255のピクセルが続く場合は、最初の6ビットにゼロを指定し、続く8ビットにピクセル数、接ぎの2ビットにピクセルデータを入力する。16ビットが1つの単位と見なされる。同じピクセルが行末まで続く場合は、最初の14ビットにゼロを指定し、次の2ビットにピクセルデータを記述する。16ビットが1つの単位と考えられる。1行でのピクセルの記述が完了するときにバイト割当てが生じない場合、調整のために4ビットのダミーデータを挿入する。希望に応じて、画像データを表すために他の圧縮機構を使用することも可能である。例えば、JPEGフォーマットやGIFFフォーマットを使用して、サブピクチャ画像を表すことができる。

表示制御シーケンステーブル1146には、制御シーケンスが発生する年代順を記述する複数の表示制御シーケンス1146A、1146B、1146Cなどが含まれる。表示制御シーケンステーブルには、サブピクチャユニット内の情報がどのように表示されるのかに関する情報が含まれる。例えば、1つのサブピクチャを形成するワードは、1つづつまたは経時的にグループとして表示されるか、その色が変化することがある。これは、カラオケ情報を表示するためにサブピクチャを使用する場合に役立つ。

各表示制御シーケンス(DCSQ)は、サブピクチャユニットが表示されている期間で実行されるピクチャデータを変更するコマンドを酌量する。表示制御シーケンスの第1フィールドは表示開始時間である。このフィールドは、サブピクチャユニットヘッダによりサブピクチャパケット内で記述されるPTSからの相対PTSのあるDCSQに含まれる表示制御コマンドの実行開始時間を記述する。記述された実行開始時間の後の第1ビデオフレームから、表示制御緒は、DCSQ表示制御開始時間に従って開始される。各DCSQの第2フィールドは、後続の表示制御シーケンスのアドレスである。このフィールドは、第1サブピクチャユニットからの相対バイト数により後続のDCSQの開始アドレスを記述する。後続のDCSQが存在しない場合には、このフィールドは、第1サブピクチャユニットからの相対バイト数によりこのDCSQの開始アドレスを記述する。それ以降、DCSQには1つ以上の表示制御コマンドが格納される。これらのコマンドにより、ピクセルデータの属性および表示を制御、変更できるようになる。コマンドには、サブピクチャのオン／オフ状態に関係なく、強制的にサブピクチャ装置の表示を開始するコマンドが含まれる。例えば、ユーザがサブピクチャをオフにするためにメニューを使用する場合、このコマンドを設定してユーザの設定値を無視することができる。別のコマンドは、更新されたサブピクチャ装置の表示を開始する。このコマンドは、各DCSQで一度表示されなければならない。2種類の強調ピクセル、パターンピクセル、およびバックグラウンドピクセルを含む前記の4種類のピクセルの色とコントラストを設定するためのコマンドがある。サブピクチャを構成するピクセルデータの矩形領域表示および位置を設定するコマンドが存在する。このコマンドは、上部および下部のX座標とY座標の設定を可能にする。また、表示に使用されるピクセルデータのヘッドアドレスを設定するために使用されるコマンドもある。このコマンドを使用すると、上部フィールドと下部フィールドの両方のヘッドアドレスを入力できる。拡大されたフィールドでは、装置のヘッドからの相対バイト数による上部フィールドと下部フィールドのピクセルデータの各ヘッドアドレスが使用される。第1ピクセルデータは、行の第1ピクセルを表す。このコマンドは、少なくとも第1DCSQ、DCSQ0で使用されなければならない。

ピクセルデータの色とコントラストを変更するためのDCSQの中に表示されるコマンドがある。データ検索情報のハイライト情報が使用される場合には、このコマンドは使用してはならない。ピクセルデータの色とコントラストを変更するためのコマンドは、表示中にピクセルデータの色とコントラストを制御するためのピクセル制御データを含む。ピクセル制御データに記述される制御の内容は、指定された開始時間の後にビデオフレームごとに実行され、新規ピクセル制御データが検出されるか、新規サブピクチャユニットが検出されるまで続行する。ピクセル制御データは、同じ変更が加えられる線を指定するために使用される線制御情報を含む。また、ピクセル制御情報は、変更が加えられる線上の位置を指定するために使用することもできる。線制御コマンドにより、開始線番号、変更ポイント数、および変更終了線番号の変更が可能になる。ピクセル制御情報は、変更開始ピクセル番号、および強調ピクセル1と2、パターンピクセル、およびバックグラウンドピクセルの新しい色とコントラストを含む。また、表示制御シーケンスの最後を示すコマンドもある。各DCSQは、このコマンドで終了しなければならない。

映画の場合のようなビデオフレームの期間で、使用できる多くの異なったサブピクチャユニットが存在する。図54に図示されるように、サブピクチャユニットは、サブピクチャパック1150に分割される。サブピクチャパックには、前記のパックヘッダ972、MPEGシステム要件に準拠するパックヘッダ、後続のデータがサブピクチャデータであることを示すサブストリームID、およびサブピクチャデータ1158それ自体がある。

サブピクチャユニット1140のようなサブピクチャユニットは、図55にブロック図で示されるようにサブピクチャパック150に分割される。最後のサブピクチャパック1050Gには、その長さを2048バイトにする埋込みが含まれる。

図56では、連続サブピクチャユニットが表示される方法を説明する。時間が新しいサブピクチャパケットに記述されるPTSの時間に等しくなる場合、現在表示中(1160)のサブピクチャユニットがクリアされ(1162)、次のサブピクチャユニットの表示制御シーケンスによって指定される時間が発生すると、そのサブピクチャが表示される(1164)。1160と1162の間に、サブピクチャユニットnとサブピクチャユニットn+1の間の境界線がある。この境界線は、サブピクチャユニットn+1のパケットヘッダに記述されるPTSで発生する。サブユニットn+1の実際の表示時間は、サブピクチャn+1のDCSQに説明される。

サブピクチャ情報に使用されるピクセルデータの作成は、表示が希望される情報のビットマップを作成するためにコンピュータを使用して実行できる。ビットマップ化情報のプロセスは、技術で周知である。

図40-56は、オーディオ情報、ビデオ情報、およびサブピクチャ情報をエンコードするために使用されるデータ構造を強調する。ただし、図40-56でのデータ構造の開示により、MPEGエンコードの従来の技術の当業者は、特にMPEGシステム説明ISO/IEC 13818-1の力を借りて、エンコードされたオーディオ、ビデオ、およびサブピクチャをデータ構造にフォーマットできる。同様に、データを記憶する構造についての知識があれば、ビデオ情報、オーディオ情報、およびサブピクチャ情報を作成するためのデータ構造の復号化は、従来の技術の当業者により実行できる。

本発明の一部を成す例示的なビデオデコーダは、光ディスクに記憶されたデータを読み取る光ディスク読取り装置を具備する。読み取られた情報は、情報を復号化するために、従来の解析技法を使用して解析される。ビデオ、オーディオ、サブピクチャ、およびPBIパックのすべてを復号化しなければならない。ビデオは、オーディオパックが従来のデコーダを使用して復号化されるように、市販されているMPEGデコーダを使用して復号化することができる。サブピクチャ情報は、サブピクチャユニットをサブピクチャパックから、それらがエンコードされたのと逆転して構築することで復号化される。特別に構築されたハードウェアまたはソフトウェアコーディングを使用してプログラミングされた汎用マイクロプロセッサは、サブピクチャ情報を復号化するために使用できる。図45にブロック図で示される再生情報パックには、データ検索情報996が含まれる。データ検索情報は、プログラミングされたマイクロプロセッサを使用して処理され、オーディオデコーダ、ビデオデコーダ、およびサブピクチャデコーダとは異なる。メニュー機能もプログラミングされたマイクロプロセッサによって実行されるので、データ検索情報の中に含まれるハイライト情報1022および他のすべてのメニュー機能は、サブピクチャデコーダによってではなく、プログラミングされたマイクロプロセッサによって実行される。本発明の動作、データ構造、エンコードプロセスと復号化プロセスに関する追加情報は、両方とも本明細書に参考により取り入れられる日本国特許明細書7ー8298、および7-85693に記載される。

本発明のエンコードシステムを使用すると、ピクチャ内で品質を制御できる。この制御は、最終ビデオ製品の作成者がエンコードシステムの最終製品を密接に制御できるようになるため重要である。したがって、デジタルビデオエンコードによりアナログビデオ内に存在しない復号化人為構造が生じても、最終デジタル製品はきわめて良好だろう。前記項のどれかの教示は、他の項に適用できる。

本発明の決定、計算および処置は、コンピュータ技術の当業者に明らかとなるように、本発明の教示に従ってプログラミングされた従来の汎用デジタルコンピュータを使用して、実現できる。適切なソフトウェアコーディングは、ソフトウェア技術の当業者に明らかとなるように、本開示の教示に基づいて技能のあるプログラマにより容易に作成できる。

本発明は、当業者に容易に明らかになるように、アプリケーションに特殊な集積回路を作成したり、従来の構成部品回路の適切なネットワークの相互接続によっても、実現される。

本発明は、本発明のプロセスを実行するためにコンピュータをプログラミングする場合に使用できる指示を格納する記憶装置媒体であるコンピュータプログラム製品を含む。記憶装置媒体は、フロッピーディスク、光ディスク、CD-ROM、および磁気光学ディスク、ROM、RAM、EPROM、EEPROM、磁気カードや光カード、あるいは電子指示を記憶するために適当な任意のタイプの媒体を含む任意のタイプのディスクを含むが、それらに限定されない。本発明は、さらに、電子指示またはデータを記憶するのに適当な前記媒体のどれかで記憶される、本発明により出力されるエンコードでータを含む記憶装置媒体であるコンピュータプログラム製品も含む。前記教示という観点から、本発明の数多くの改良および変化が可能であることは明らかである。したがって、付属請求項の範囲内であれば、本発明は、本明細書に明確に指示がある場合を除き実施できる。

また、上記実施の形態に記載の発明は、エンコードされたビデオのビットストリームにビデオを追加する方法であって、
前記エンコードされたビデオが修正される始点及び終点を決定する工程と、
前記始点及び終点間に挿入するためのビデオ、及び前記終点直後のエンコードされたビデオを示すビデオを含む未エンコードビデオを得る工程と、
前記挿入用ビデオの第1グループのピクチャー（GOP）を前記始点及び終点の外側の参照フレームを用いずにエンコードし、第2参照フレームを含まない双方向予測フレームに追加ビットを割り当てる工程と、前記第1GOPより後のGOPを挿入されるビデオの前記終点までエンコードする工程、及び前記終点直後のエンコードされたビデオを示すビデオをエンコードする工程とを実行することによって前記未エンコードビデオをエンコードする工程と、
前記エンコードする各工程により作成されるエンコードされたビデオを前記エンコードされたビットストリーム内にに配置する工程と、
を含む方法を含む。

さらに、一方向予測を有するフレームに用いられたビット数を使用して前記追加ビット数を決定する工程を更に含むことを特徴とし、
前記終点直後のエンコードされたビデオを示すビデオをエンコードする工程は、前記未エンコードビデオの最初のエンコード期間中に使用された量子化値に等しい量子化値を用いて、前記エンコードされたビデオを示すビデオをエンコードする工程を含むことを特徴とし、
前記決定する工程は、前記エンコードされたビデオのディレクトリ情報を参照せずに、ビデオフレームに対応するビット数を追加することにより決定する工程を含むことを特徴とし、
カメラを使用してビデオを得る工程と、得たビデオをエンコードして、エンコードされたデータのビットストリームを発生する工程とを更に含むことを特徴とする方法を含む。

また、上記実施の形態に記載の発明は、上記方法により作成されたエンコードされたビットストリームのビデオを格納するためのデータ構造を含むメモリにおいて、
（1）前記メモリに格納されるデータ構造であって、
（ａ）情報の1単位であるメニューセルを複数格納したフィールド、
（ｂ）タイトルメニューの開始セル用フィールド、
（ｃ）オーディオ選択メニューの開始セル用フィールド、
（ｄ）前記ビデオとは異なるビットマップされた情報を提供するのに用いられるサブピクチャー情報を選択するための用いられるメニューの開始セル用フィールド、
（ｅ）前記メモリ内に複数のプログラムが存在するときに、複数のプログラムを選択するために用いる開始セル用フィールド、及び
（ｆ）前記メモリ内に複数のアングル画面が存在するとき、カメラアングルを選択するために用いるアングルメニュー用開始セルのフィールドを含むデータ構造と、
（2）表示される各メニューに対するテーブルエントリを含むメニューセル情報テーブルであって、前記前記テーブルエントリは各々、
（ａ）前記テーブルエントリに対応するメニューがタイトルメニューか、プログラムメニューか、オーディオメニューか、サブピクチャーメニューか、またはアングルメニューかを示すフィールド、
（ｂ）選択項目の数を示すフィールド、
（ｃ）対応するメニューセルの開始部のシステムクロック参照部を少なくとも示すフィールド、
（ｄ）対応するメニューセルの開始アドレスを示すフィールド、及び
（ｅ）対応するメニューセルの複数ブロックを示すフィールドを含むメニューセル情報テーブルと、
（3）各メニューについて表示される情報を格納するためのデータ構造と、
（4）オーディオを格納するためのデータ構造、及び
（5)上記方法によって作成されたエンコードされたビットストリームのビデオを格納するためのデータ構造を具備することを特徴とするメモリを含む。

さらに、上記メモリは光ディスクであることを特徴とする。

また、上記実施の形態に記載の発明は、上記方法によって作成されたエンコードされたビットストリームのビデオを格納するためのデータ構造を含むメモリであって、
（1）ファイル管理情報を格納するためのデータ構造であり、該データ構造は、
（ａ）前記メモリ内情報のアドレス及びサイズ情報を格納するためのファイル管理テーブルと、
（ｂ）情報の1単位である各セルが再生される順番を示す情報を格納するシーケンス情報テーブルであって、該シーケンス情報テーブルは各シーケンスに対するテーブルエントリを含み、各テーブルエントリは、
（ｂ1）再生された後に終結する完了形式シーケンスか、順番に再生される複数シーケンスの一部である接続形式シーケンスの先頭か、接続形式シーケンスの中心部か、及び接続形式シーケンスの終了部かを格納するフィールドと、
（ｂ2）前記対応するシーケンス内の複数セルを格納するフィールドと、
（ｂ3）前記対応するシーケンスの再生時間を格納するフィールドと、
（ｂ4）前記対応するシーケンスの後に再生されるシーケンスを格納するフィールドとを含むシーケンス情報テーブルと、
（ｃ）セルを示す情報を格納するセル情報テーブルであって、各セルについてのテーブルエントリを含み、各テーブルエントリは、
（ｃ1）対応するセルの再生時間を示すフィールドと、
（ｃ2）前記対応するセルのシステムクロック参照の少なくとも一部を示すフィールドと、
（ｃ3）前記対応するセルのアドレスを示すフィールド、及び
（ｃ4）前記対応するセルの複数の論理ブロックを示すフィールドとを含むセル情報テーブルと、
（2）オーディオを格納するためのデータ構造、及び
（3）上記方法により発生されたエンコードされたビットストリームのビデオを格納するためのデータ構造を含む。

さらに、前記メモリは光ディスクであることを特徴とする。

また、上記実施の形態に記載の発明は、上記方法によって作成されたエンコードされたビットストリームのビデオを格納するためのデータ構造を含むメモリであって、該データ構造はオーディオ及びタイミング情報を含む記述的情報を格納するための構造を含み、
（1）記述的情報を含むデータ構造であって、
（ａ）前記記述的情報データ格納のシステムクロック参照を格納するためのフィールドと、
（ｂ）他のピクチャーを参照せずにデコードされる対応するビデオピクチャーの開始時間を格納するためのフィールドと、
（ｃ）前記対応するビデオピクチャーの再生開始時間直前の再生開始時間を有するオーディオ情報のタイムスタンプを格納するためのフィールドと、
（ｄ）第1ビットは前記オーディオ信号が前記記述的情報データ構造の前に位置するか又は後に位置するかを示し、前記オーディオ情報のアドレスを格納するためのフィールドと、
（ｅ）前記記述的情報データ構造の前及び後に発生する他の記述的情報データ構造のアドレスを示すフィールドとを含むデータ構造と、
(2)オーディオを格納するためのデータ構造、及び
(3)前記請求項１の処理によって作成されたエンコードされたビットストリームのビデオを格納するデータ構造と、
を具備することを特徴とするメモリを含む。

また、上記実施の形態に記載の発明は、上記方法によって作成されたエンコードされたビットストリームのビデオを格納するためのデータ構造を含むメモリであって、該データ構造はオーディオ及びサブピクチャー情報を格納するための構造を含み、
（1）サブピクチャーユニットを格納するために前記メモリ内に格納されるデータ構造であって、
（ａ）サブピクチャーユニットヘッダーを格納するためのフィールドと、
（ｂ）マップされた画像を格納するためのフィールド、及び
（ｃ）複数のテーブルエントリを含む表示制御テーブルを格納するためのフィールドであって、
（ｃ1）前記ビットマップされた画像の表示開始時間を格納するサブフィールドと、
（ｃ2）次のテーブルエントリのアドレスを格納するサブフィールド、及び
（ｃ3）表示エリア、画素色、画素コントラスト、及びビデオフレームが表示されたときに生じる画素の色とコントラスト変更とを含むコマンドグループから選択される少なくとも1つの表示制御コマンドを格納するサブフィールドとを含むデータ構造と、
（2）オーディオを格納するためのデータ構造、及び
（3）請求項１の処理により作成されたエンコードさてたビットストリームのビデオを格納するためのデータ構造と、
を具備することを特徴とするメモリを含む。

さらに、前記サブピクチャーユニットデータ構造は、前記サブピクチャーユニットデータ構造内の情報を含む複数のパックを具備することを特徴とし、
また、前記メモリは光ディスクであることを特徴とする。

また、上記実施の形態に記載の発明は、エンコードされたビデオのビットストリームにビデオを追加するシステムであって、
（1）前記エンコードされたビデオが修正される始点と終点を決定する手段と、
（2）前記始点と終点の間に挿入するためのビデオを含む未エンコードビデオ及び前記終点直後のエンコードされたビデオを示すビデオを得る手段と、
（3）前記未エンコードビデオをエンコードする手段であって、このエンコード手段は、
（ａ）前記始点と終点の外側の参照フレームを用いることなく、挿入用ビデオの第1グループのピクチャー（GOP）をエンコードし、第2参照フレームを含まない双方向に予測されたフレームに追加ビットを割り付ける手段と、
（ｂ）前記第1GOP後の複数のGOPを、挿入されるビデオの終点までエンコードする手段、及び
（ｃ）前記終点直後のエンコードされたビデオを示すビデオをエンコードする手段とを含み、
（4）前記エンコードする各工程により作成されたエンコードされたビデオを前記エンコードされたビットストリーム内に配置する手段、
を具備することを特徴とするシステムを含む。

さらに上記システムであって、一方向予測を有するフレームに用いたビット数を用いて前記追加ビット数を決定する手段を更に具備することを特徴とするシステム、
前記終点直後のエンコードされたビデオを示すビデオをエンコードする手段は、前記未エンコードビデオの最初のエンコード時に用いられる量子化値に等しい量子化値を用いて、前記エンコードされたビデオを示すビデオをエンコードする手段を具備することを特徴とするシステム、
前記決定手段は、前記エンコードされたビデオのディレクトリ情報を参照することなく、ビデオフレームに対応するビット数を追加することにより前記始点と終点を決定する手段を含むことを特徴とするシステム、そして
ビデオを得るためのカメラと、得られたビデオをエンコードしてエンコードされたデータのビットストリームを作成する手段を更に具備することを特徴とするシステムを含む。

発明の効果
以上説明したようにこの発明によれば、編集したときに画質を劣化させないようにすることができる。即ち、エンコードビデオのセクションを除去するため、エンコードされたビットストリーム内のエンコードビデオの始点及び終点を決定する。エンコードデータの始点及び終点アドレスは、各ピクチャーで消費されたビット、各ピクチャーのシーケンスヘッダーのビット数、各ピクチャーグループ（GOP）ヘッダーのビット数、及び全スタッフビットを加算することにより計算される。除去されるビデオの代わりに挿入されるビデオをエンコードするため、無関係な信号成分のデコードを防ぐ処理が実行される。この処理は編集ポイント前の最終ピクチャーを判断し、編集ポイント後のフレームに関する参照フレームとしてその最終ピクチャーを使用することで行われる。更に、その最初の量子化値を用いてエンコードされた最初のビデオの短い期間が、置き換えられるビデオの終わりに含まれる。又は、初期にエンコードされた参照ピクチャーが使用されないように、エンコーダは動作する。しかしこれは、ピクチャーの品質を維持するために余分のビットが必要となる。なぜなら、置き換えビデオの初期の双方向フレームは2つの参照フレームの代わりに1つの参照フレームのみを使用するからである。

エンコーダシステムアーキテクチャのブロック図。エンコードされるべきオーディオおよびビデオを得るための装置、ならびにエンコードシステムにより作成されるエンコードされたオーディオ映像データを書き込み、伝送するための装置を示す図。図１のシステムの一般的な動作を示すフローチャート。セットアップ状態で実行されるプロセスを示すフローチャート。圧縮状態で実行されるプロセスを示す図。編集状態で実行されるプロセスを示す図。開始状態、完了状態、および終了状態のために実行されるプロセスを示す図。マルチパスビデオエンコーダを使用しながら所定数のオーディオトラックをエンコードするのに必要とされるオーディオエンコーダの数を決定する方法、ならびにオーディオエンコードおよびマルチパスビデオエンコードを同時に実行するプロセスを示すフローチャート。シーケンスレーヤのログファイルフォーマットを示す図。同じくシーケンスレーヤのログファイルフォーマットを示す図。同じくシーケンスレーヤのログファイルフォーマットを示す図。同じくシーケンスレーヤのログファイルフォーマットを示す図。ピクチャレイヤのログファイルフォーマットを示す図。同じくピクチャレイヤのログファイルフォーマットを示す図。同じくピクチャレイヤのログファイルフォーマットを示す図。マクロブロックレーヤのログファイルのフルフォーマット、およびマクロブロックレーヤのログファイルのショートフォーマットを示す図。ログファイル内の情報を活用するためのプロセスを示す図。異なる期間に対する画質の手動調整中に実行される一般プロセスを示す図。様々な期間で画質を変更するためのパラメータを入力するために使用されるユーザインタフェースを示す図。所望の画質に対応するビット数を計算するための一般的な手段を示す図。最大または最小のユーザ選択優先順位が設定されるセクションを処理するために使用されるプロセスを示す図。最大または最小の優先順位ではない希望の画質に対応するビット数を計算するためのフローチャートを示す図。同じく最大または最小の優先順位ではない希望の画質に対応するビット数を計算するためのフローチャートを示す図。画質を変更した結果、アンダフローが生じる場合に確認するために使用されるプロセスのフローチャートを示す図。バッファアンダフローが、編集セグメント内で加えられた変更のために、編集セグメントの後のフレームで発生するかどうかを判断するためのフローチャートを示す図。ユーザが選択した品質によってエンコードされたビデオのビットレートがどのように変更されるのかについての例、および同じくユーザが選択した品質によってエンコードされたビデオのビットレートがどのように変更されるのかについての例を示す図。 1つのフレーム内のさまざまな領域の画質の手動調整の間に実行される一般的なプロセスを示す図。ビデオの１フレーム内にユーザが選択した優先度が設定されたさまざまな領域の例を示す図。選択された優先順位に使用される元の量子化の端数小数部に対するユーザ選択優先順位のグラフを示す図。ユーザ選択優先順位の結果生じるビット数と、フレームの元のエンコードの結果生じるビット数の間の差異が許容できるかどうか、あるいは訂正手順を実行しなければならないかどうかを判断するためのプロセスを示す図。設定されたビットが多すぎると判断されるために、ビット数を低減する目的でマクロブロックの量子化レベルが増分される場合に、フレームを訂正するためのプロセスを示す図。同じく設定されたビットが多すぎると判断されるために、ビット数を低減する目的でマクロブロックの量子化レベルが増分される場合に、フレームを訂正するためのプロセスを示す図。同じく設定されたビットが多すぎると判断されるために、ビット数を低減する目的でマクロブロックの量子化レベルが増分される場合に、フレームを訂正するためのプロセスを示す図。ビット数を増加するために１つのフレーム内のマクロブロックの量子化レベルを引き下げることによってフレーム内の少なすぎるビットを訂正するためのプロセスを示す図。同じくビット数を増加するために１つのフレーム内のマクロブロックの量子化レベルを引き下げることによってフレーム内の少なすぎるビットを訂正するためのプロセスを示す図。同じくビット数を増加するために１つのフレーム内のマクロブロックの量子化レベルを引き下げることによってフレーム内の少なすぎるビットを訂正するためのプロセスを示す図。ｎ個のマクロブロックの集合のそれぞれで使用されるビットの予想数をメモリからロードしてから、ｎ個のマクロブロックの集合ごとにビットの結果数をカウントし、ビットの予想数および作成数に基づいた概算の精度を計算し、フレームの列のターゲットサイズに近く留まるために、次のｎ個のマクロブロックの予め割り当てられた量子化レベルを調整する一般的なプロセスを示しているフローチャート。（Ａ）は、固定割当てされた量子化レベルを示しているフレームのピクチャを示す図、（Ｂ）はマクロブロックの各集合に1 スライスが含まれ、マクロブロックの第1 集合が再エンコードされた後で、第1 訂正係数が計算され、第1 訂正係数がマクロブロックの第2 集合に加算された場合の、図２７（Ａ）のフレームのピクチャを示す図、（Ｃ）はマクロブロックの第2集合が再エンコードされた後で、第2訂正係数が計算され、第2訂正係数がマクロブロックの第3集合に追加された、図２７（B）のフレームのピクチャを示す図、（Ｄ）はマクロブロックの第1 集合に２つのスライスが含まれ、マクロブロックの第1集合が再エンコードされてから、第１訂正係数が計算され、第１訂正係数がマクロブロックの第２集合に加算された場合の図２７（Ａ）のフレームのピクチャを示す図。その量子化レベルが変更される２つの異なった領域を含む1 フレームを示す図と、その量子化レベルが変更された２つの異なった領域を表すために使用されるビデオストリーム内でのビット数の変更を示している図２８（Ａ）のフレームの２つの考えられるエンコードのピクチャを示す図。再エンコードされた列の総長が列の元の長さに等しい、一連の画像を表すために使用されるビット数の変更を示しているビデオストリームを示す図。訂正係数指数が、どのようにして概算率を使用して比例ルックアップテーブルから求められるのかを説明するフローチャートを示す図。訂正係数が、訂正係数指数を使用して訂正係数テーブルからどのようにして選択されるのかを説明するフローチャートを示す図。訂正係数が、概算割合およびマクロブロックの再エンコードされていない残りの集合数を使用してどのようにして計算されるのかを説明するフローチャートを示す図。（Ａ）はエンコードされたフォーマットを取るオリジナルビデオのセクションを示す図、（Ｂ）は元のエンコードされたビデオに置き換えられなければならないエンコードされていないフォーマットにおけるビデオの新たなセクションを示す図、（Ｃ）はオリジナルビデオのエンコードされていないセクションがその両端にあるビデオのエンコードされていない新たなセクションを示す図、（Ｄ）は元のエンコードされたビデオに置き換えられなければならないエンコードされたフォーマットにおける図３３（C）のビデオを示す図、（Ｅ）は置き換えられたエンコードされたビデオがその中に含まれる、元のエンコードされたビデオを示す図。減少されたデコード構造を有するビデオとなるエンコードビデオデータストリームにビデオのセクションを置き換えるプロセスを示す図。（Ａ）は立ち下がり端でのオリジナルビデオのエンコードされていないセクションを有するビデオのエンコードされていない新しいセクションを示す図、（Ｂ）は図３３（Ａ）のブロック図にある最初にエンコードされたビデオに置き換えられるエンコードされたビデオのセクションを示す図、（Ｃ）は図３５（Ｂ）の置き換えられたエンコードされたビデオを含む図３３（Ａ）の最初にエンコードされたビデオを示す図。クローズグループのピクチャモードを使用して置き換えられるビデオをエンコードすることによって、エンコードされたビデオビットストリームを編集する場合に、デコード構造を減少させるためのプロセスを説明する図。（Ａ）は事前エンコードプロセスでビットレートモデルに対する量子化レベルを作成するために、それに割り当てられる2つの量子化レベルが設定される未処理ビデオのフレームを示す図、（Ｂ）は回転パターンで割り当てられる4つの量子化レベルのあるフレームを示す図、（Ｃ）はブロックフォーメーションで分散される4 つの量子化レベルのあるフレームを示す図。ビデオ信号を得て、それらの信号を事前エンコードし、事前エンコードフェーズで特定された量子化レベルに対するビットレートを決定するプロセスを説明するフローチャート。 2つの記録済みフレーム、およびビットレートに対するそれらの対応する量子化レベルを示す図。最終的には光ディスクに格納されるエンコードされたデータの最終フォーマットの概略を示す図。図４０のディスク情報ファイル908を説明する図。図４０にブロック図で示されるデータファイルのデータファイル管理情報の内容を示す図。図４０のデータファイルに記憶されるデータの詳細を示す図。その中でそのデータがスタッフィングパケットを必要としないデータパックを示す図とパディングのためにパケットを必要とするデータパックを示す図。再生情報パックを示す図。図４５のデータ検索情報996の中に含まれる情報を示す図。図４６の一般情報を示す図。図４６にブロック図で示される同期再生情報を示す図。ビデオパックを示す図。ピクチャのグループ(GOP)とビデオパックの列の間の関係を説明する図。 MPEGオーディオエンコード仕様に従ってエンコードされたオーディオパックを示す図と、AC-3またはリニアPCMオーディオエンコードに従って構築されたオーディオパックを示す図。エンコードされたオーディオストリームとオーディオパックの間の関係を示す図。サブピクチャユニットの構造を示す図。サブピクチャパックの構造を示す図。サブピクチャパックに関連したサブピクチャ装置の構造を説明する図。表示サブピクチャユニットnとサブピクチャユニットn+1の間の変化を示す図。

符号の説明

１０、２０、３０、４０…ワークステーション、２１…ハードディスク、２２…デジタル記憶装置、３１…コンソールディスプレイ、５０…ビデオエンコード装置、５１…再生ＶＴＲ、５２…録画ＶＴＲ、６０…デジタルキャプチャ記憶装置、７０ａ〜７０ｄ…オーディオエンコーダ、７２…オーディオインタフェース装置、７３…オーディオデコーダ。

Claims

エンコードされたビデオのビットストリームにビデオを追加する方法であって、
前記エンコードされたビデオが修正される始点及び終点を決定する工程と、
前記始点及び終点間に挿入するためのビデオ、及び前記終点直後のエンコードされたビデオを示すビデオを含む未エンコードビデオを得る工程と、
前記挿入用ビデオの第1グループのピクチャー（GOP）を前記始点及び終点の外側の参照フレームを用いずにエンコードし、第2参照フレームを含まない双方向予測フレームに追加ビットを割り当てる工程と、前記第1GOPより後のGOPを挿入されるビデオの前記終点までエンコードする工程、及び前記終点直後のエンコードされたビデオを示すビデオをエンコードする工程とを実行することによって前記未エンコードビデオをエンコードする工程と、
前記エンコードする各工程により作成されるエンコードされたビデオを前記エンコードされたビットストリーム内にに配置する工程と、
一方向予測を有するフレームに用いられたビット数を使用して前記追加ビット数を決定する工程を更に含むる方法。