JP3768662B2

JP3768662B2 - オーディオビジュアル・セグメントを貼り合わせる方法および装置、オーディオビジュアル・セグメントを接合する方法、ならびにコンピュータが読み取り可能な媒体

Info

Publication number: JP3768662B2
Application number: JP31566797A
Authority: JP
Inventors: エリック・ティー・ブリューワー; アンドリュー・ポールフリーマン; グレッグ・シー・アミーズ
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-11-15
Filing date: 1997-11-17
Publication date: 2006-04-19
Anticipated expiration: 2017-11-17
Also published as: JPH10271446A; US6661430B1

Description

【０００１】
【発明の属する技術分野】
本発明は、一般的には、オーディオビジュアル・ファイルを編集することに関する。より詳しくは、本発明は、編集操作を行なった後に、ビット・ストリームのオーディオ構成要素とビデオ構成要素との実質的な同期を維持させるための各種の方法および装置に関する。
【０００２】
【従来の技術】
ＭＰＥＧ（動画エキスパート・グループ）は、国際規格機構（ＩＳＯ）が定めたデジタル・ビデオおよびオーディオ信号を簡潔にあらわすための構文法に関する規格である。この構文法では、一般に、ビット・ストリームを符号化するときにしたがうべき規則の数を最小限にして、受信者が受信したビット・ストリームを明確に復号できることが求められる。当業者には公知のように、ビット・ストリームは、ビデオおよびオーディオ構成要素に加えて「システム」構成要素を含むものである。一般に、システム構成要素は、各ビデオおよびオーディオ構成要素を組み合わせ同期させて単一のビット・ストリームにするために必要な情報を含んでいる。
【０００３】
ＭＰＥＧ−１と呼ばれる最初のＭＰＥＧが公表された後、ＭＰＥＧ−２で知られる次のＭＰＥＧが導入された。一般的にいって、ＭＰＥＧ−２は、放送されるビデオをより効率的にあらわすことができる改良された構文法を規定したものである。成立の経緯から、ＭＰＥＧ−１では、1.５Ｍビット／秒の速度でデータを取り扱い、各フレームが３５２画素×２４０ラインの解像度のものを毎秒約３０ビデオ・フレーム（ＮＴＳＣ）または各フレームが３５２画素×２８８ラインの解像度のものを毎秒約２５ビデオ・フレーム（ＰＡＬ）を再構成する場合に最適の結果が得られるものとなっている。したがって、復号されたＭＰＥＧ−１ビデオは、消費者のビデオテープ（ＶＨＳ）の知覚される品質にほぼ近似している。それに対して、ＭＰＥＧ−２は、4.０から8.０Ｍビット／秒のデータ速度でのＣＣＩＲ６０１の解像度をあらわし、また７２０画素×４８０ライン（ＮＴＳＣ）または７２０画素×５７６ライン（ＰＡＬ）のフレーム解像度を与えるように選定されている。以下、簡単のために、これら二つのＭＰＥＧ規格の間の相違が問題となる場合をのぞいて、「ＭＰＥＧ」という用語は、現在規定されているあるいは将来規定されるであろうビデオおよびオーディオ符号化および復号アルゴリズムを指すものとする。
【０００４】
通常、復号の過程は、ビデオ、オーディオ、およびシステム情報を含むＭＰＥＧビット・ストリームが符号化された個別のビデオおよびオーディオ・ビット・ストリームを生成する役割りを果たすシステム復号器によってデマルチプレクスされるときに始まる。なお、これらの符号化されたビデオおよびオーディオ・ビット・ストリームは、その後、ビデオ復号器およびオーディオ復号器で復号することができる。現在は、符号化されたビデオ・ビット・ストリームの構造に関心が向けられている。一般に、符号化されたＭＰＥＧビデオ・ビット・ストリームは、明確なデータ構造階層に組織される。この階層の最も高いレベルには「ビデオ・シーケンス」がある。これは、シーケンス見出し、一以上の画像グループ（ＧＯＰ）、およびシーケンスの終わりコードを含むものとすることができる。ＧＯＰは、ビデオ・シーケンスのサブセットであり、各ＧＯＰは、一以上の画像を含むことができる。以下に説明するように、ＧＯＰは、それによってビデオ・シーケンスのある画定されたセグメントにアクセスできるためきわめて重要である。ただし、ＧＯＰは、きわめて大きくなる場合がある。
【０００５】
一つのＧＯＰ内部の各画像は、左から右へまた上から下へ向けて画定されるいくつかの「スライス」に仕切られる。個々のスライスは、１６×１６画素の正方形の面積を占める一以上のマクロブロックで構成される。ＭＰＥＧ規格に記されているように、一つのマクロブロックは、四つの８×８画素「ルミナンス（輝度）」構成要素と二つの８×８「クロミナンス（色差）」構成要素（すなわち、クロマ赤およびクロマ青）を含む。
【０００６】
一つのＧＯＰ内部の画像の間では、画素情報の多くが類似しているかまたは同一であるため、ＭＰＥＧ規格は、この時間的冗長性を利用し、特定の基準画像から互いに異なる選ばれた画像をあらわすようにしている。ＭＰＥＧ規格は、大きく、三種類の符号化された画像フレームを定義している。第一の種類のフレームは、イントラ・フレーム（Ｉ−フレーム）である。Ｉ−フレームは、フレーム自身に含まれる情報を用いて符号化され、以前のまたは将来のフレームに含まれる情報には依存しない。その結果、Ｉ−フレームは、一般に、フレームのシーケンスの中の特定のＧＯＰの起点を定義する。
【０００７】
第二の種類のフレームは、予測フレーム（Ｐ−フレーム）である。Ｐ−フレームは、一般に、前のＩまたはＰ−フレームに含まれる情報を用いて符号化される。当業者には公知のように、Ｐ−フレームは、前方予測フレームと呼ばれる。第三の種類のフレームは、双方向フレーム（Ｂ−フレーム）である。Ｂ−フレームは、過去および未来のフレームの両方に含まれる情報にもとづいて符号化され、したがって双方向予測フレームと呼ばれる。したがって、Ｂ−フレームは、Ｉ−フレームおよびＰ−フレームより圧縮されたものとなり、Ｐ−フレームはＩ−フレームより圧縮されたものとなる。ＭＰＥＧ規格は、ＩまたはＰ−フレームの間に特定の数のＢ−フレームを配置することを求めてはいないが、大部分の符号器は、ＩおよびＰ−フレームの間に二つのＢ−フレームを選択する。このような選択の選定は、符号器の中のメモリの量および符号化される材料に必要な特性および定義などの各種要因にもとづいて行なわれている。
【０００８】
【発明が解決しようとする課題】
ＭＰＥＧ規格は、ビデオおよびオーディオ・ビット・ストリームを簡潔に符号化するための便利な構文法を定めている。コピーされたオーディオビジュアル・ビット・ストリームのセグメントを他のコピーされたオーディオビジュアル・ビット・ストリームのセグメントに接合する場合、オーディオの同期に困難が生じる。この同期問題は、一部に、オーディオ・フレームとビデオ・フレームとがほとんど１対１に対応しないことに起因する。したがって、ビデオ・フレームのセグメントがファイルからコピーされるため認識される場合には、認識されたビデオ・フレームはそのフレームに対応する所定の数のオーディオ・フレームを持たないことになる。
【０００９】
その結果、ビデオのセグメントがファイルからコピーされ、その後で他のコピーされたセグメントに接合される場合には、コピーされたセグメントのオーディオ構成要素が正規のビデオ・フレームと同期しないおそれがある。ビデオとオーディオ・フレームが同期しなくなると、ビデオとオーディオ・フレームが同期できなかったオーディオ・フレームの数またはそのパーセントをあらわす「エラー」が得られるビット・ストリームの中に入り込むことになる。例えば、接合される二つのビット・ストリーム・セグメントから入り込む同期エラーは、オーディオ・フレームのわずか数分の一からオーディオ・フレームの数フレーム分までさまざまである。
【００１０】
二つのビット・ストリーム・セグメントのみを接合することに関係するエラーは、場合によってはオーディオ・フレームのわずか数フレーム分に過ぎないかもしれないが、より複雑高度な編集作業で多数のビット・ストリーム・セグメントが接合される場合には、接合される各セグメントに関するエラーが加え合わされることになる。その結果生じるエラーがきわめて大きくなり、したがって得られるオーディオ・フレームの同期が大きくずれて、再生してもわけが分からなくなるおそれがある。さらに、同期がずれたオーディオおよびビデオ・ビット・ストリームでは、通常、セグメントが接合された位置で、ビット・ストリームにオーディオの不連続が生じる。この問題は、一般に音の「ポッピング」と呼ばれる。すなわち、接合されたビット・ストリーム・セグメントに不連続が入り込むと、不快なポッピング音が生じて、得られるオーディオ・ストリームは、同期がずれているばかりでなく、耐えられないものとなる。
【００１１】
以上の説明から判るように、オーディオ構成要素がビデオ構成要素とほぼ同期した状態を確保しながら、オーディオおよびビデオ・ビット・ストリームを編集する方法および装置が求められている。
【００１２】
【課題を解決するための手段】
上に述べた課題を解決するため、本発明にもとづけば、編集エンジンを用いて編集操作が行なわれる間、編集されたオーディオビジュアル・ファイルの同期をほぼ維持する方法および装置が提供される。好ましくは、編集エンジンは、編集リストを通読する二つのパスで編集操作を行なう。一つの実施の形態にあっては、編集リストは、あるファイルからオーディオおよびビデオのセグメントをコピーするコピー・オペレータの生成を編集エンジンに命令する多数のコピー要求を含むものとすることができる。好ましくは、コピー操作を始めるために、編集エンジンは、オーディオおよびビデオのコピーされたセグメントは、好ましくはビデオ構成要素より時間的に長いオーディオ構成要素をもつ第一のパスを通る。
【００１３】
一つの実施の形態にあっては、第一および第二のオーディオビジュアル・セグメントを貼り合わせる方法が開示される。この実施の形態にあっては、各オーディオビジュアル・セグメントは、第一のオーディオ・フレーム、順序として第一のオーディオ・フレームに続く第二のオーディオ・フレーム、および最後のオーディオ・フレームを含む多数のオーディオ・フレームを有する。オーディオビジュアル・セグメントは、さらに、最初のビデオ・フレームおよび最後のビデオ・フレームを含む多数のビデオ・フレームを有する。前記方法は、第一のオーディオビジュアル・セグメントの中の始めのオーディオ・フレームを第一のオーディオビジュアル・セグメントの中の最初のビデオ・フレームと位置合わせするステップを含む。第一のオーディオビジュアル・セグメントからの最初のオーディオ・フレームに関係するタブ・エラーが半フレームより小さい場合には、最初のオーディオ・フレームが第一のオーディオビジュアル・セグメントからのタブ−イン・オーディオ・フレームに指定される。他方、第一のオーディオビジュアル・セグメントからの最初のオーディオ・フレームに関係するタブ・エラーが半フレームより大きい場合には、第二のオーディオ・フレームが第一のオーディオビジュアル・セグメントからのタブ−イン・オーディオ・フレームに指定される。さらに、第一および第二のオーディオビジュアル・セグメントが貼り合わされる。
【００１４】
他の一実施の形態にあっては、コピーされたオーディオ・セグメントの各端部で所定の数のオーディオ・フレームが復号されさらに再符号化されてグル・フレームを生成し、それが例えば音のフェージングおよびブレンディング効果を与える構成とすることができる。オーディオのコピーされたセグメントが第一のパスで処理されると、編集エンジンが編集リストを通読する第二のパスを開始して処理されたオーディオおよびビデオ・セグメントを貼り合わせて（すなわち、接合して）一つのファイルにする。この貼り合わせの操作の間に、各コピーされたオーディオ・セグメントの端部にあるフレーム（すなわち、タブ−インおよびタブ−アウト・オーディオ・フレーム）を落とすかあるいは保持することによって、新しく生成されたオーディオビジュアル・ファイルの中のオーディオ構成要素とビデオ構成要素の同期をほぼ維持することができる。したがって、新しく生成されたファイルは、好ましくは一オーディオ・フレームの約半分以上のエラーのないオーディオ構成要素をもつ一以上のオーディオビジュアル・セグメントからなるものとすることができる。
【００１５】
さらに他の一実施の形態にあっては、多数のオーディオ・フレームおよび多数のビデオ・フレームを有する一つのオーディオビジュアル・ファイルから一つのセグメントをコピーする方法が開示される。最初のステップでは、ビデオ・ファイルの中のマーク−インの位置が選ばれて前記セグメントの中の最初のビデオ・フレームに対応し、前記最初のビデオ・フレームが関係する開始時間をもつようにされる。次に、ビデオ・ファイルの中のマーク−アウトの位置が選ばれて前記セグメントの中の最後のビデオ・フレームに対応し、前記最後のビデオ・フレームが関係する終了時間をもつようにされる。マーク−イン・ビデオ・フレームが選定されると、少なくとも最初のビデオ・フレームの開始時間と同じ程度に早い最初のオーディオ・フレームの開始時間をもつ最初のオーディオ・フレームが始めのオーディオ・フレームに指定される。少なくとも最後のビデオ・フレームと同じ程度に遅い第二のオーディオ・フレームの開始時間をもつ第二のオーディオ・フレームが最後のオーディオ・フレームに指定される。最初のビデオ・フレームから最後のビデオ・フレームまで伸びるビデオ部分と始めのオーディオ・フレームから最後のオーディオ・フレームまで伸びるオーディオ部分を含むようにオーディオビジュアル・ファイルがコピーされる。このようにして、好ましくは、セグメントのオーディオ部分は、コピーされたセグメントのビデオ部分より長くすることができる。
【００１６】
さらに他の一実施の形態にあっては、実質的にオーディオとビデオの同期を維持しながら第一および第二のオーディオビジュアル・セグメントを接合する方法が開示される。各オーディオビジュアル・セグメントは、最初のオーディオ・フレーム、順序として前記第一のオーディオ・フレームに続く第二のオーディオ・フレーム、および最後のオーディオ・フレームを含む多数のオーディオ・フレームを有し、また最初のビデオ・フレームおよび最後のビデオ・フレームを含む多数のビデオ・フレームを有する。この実施の形態にあっては、前記方法は、第一のオーディオビジュアル・セグメントの中のタブ−イン・オーディオ・フレームを第一のオーディオビジュアル・セグメントの中の最初のビデオ・フレームと位置合わせするステップを含む。好ましくは、第一のオーディオビジュアル・セグメントからの最初のオーディオ・フレームに関係するタブ・エラーが半フレームより小さい場合には、第一のオーディオビジュアル・セグメントからの最初のオーディオ・フレームが最初のオーディオ・フレームに指定される。さらに、第一のオーディオビジュアル・セグメントからの最初のオーディオ・フレームに関係するタブ・エラーが半フレームより大きい場合には、第一のオーディオビジュアル・セグメントからの第二のオーディオ・フレームが始めのオーディオ・フレームに指定される。他方、第一のオーディオビジュアル・セグメントからの第二のオーディオ・フレームが始めのオーディオ・フレームに指定される場合には、第一のオーディオビジュアル・セグメントからの最初のオーディオ・フレームが落とされる。
【００１７】
前記方法は、さらに、第一のセグメントの中の最後のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えるか否かを判別し、最後のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えると判別された場合には、第一のセグメントの中の最後のオーディオ・フレームを落とすことを含む。前記方法は、最後に、第二のセグメントの中の最初のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えるか否かを判別し、最初のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えると判別された場合には、第二のセグメントの中の最初のオーディオ・フレームを落とす。
【００１８】
本発明の効果は数多いが、本発明の特に顕著な効果は、ストリーム・エラーが一オーディオ・フレームの約半分を超えることが防がれ、また、連続コピー操作の後に貼り合わされるセグメントの数にかかわらず、ビデオ・フレームとオーディオ・フレームの間でほぼ同期がとられることである。上に述べたようにして第二のパスでオーディオ・フレームを落としたりあるいは保持することによって補正が行なわれなければ、さらにオーディオビジュアル・セグメントが貼り合わされる度に累積ストリーム・エラーが増大して拡散することは理解されよう。
【００１９】
【発明の実施の形態】
本発明ならびにその効果は、添付の図面を参照して行なう以下の説明から最もよく理解されよう。
【００２０】
広くは、本発明は、独創的な編集エンジンを用いることによって編集操作が行なわれる間、編集されたオーディオビジュアル・ファイルの同期を維持する方法および装置を開示するものである。好ましくは、編集エンジンは、編集リストを通読する二つのパスで編集操作を行なう。一般に、編集リストは、アプリケーションによって与えられ、ＭＰＥＧオーディオおよびビデオ・データを含むある数のファイルで一定の操作を行なうことが要求される。一つの実施の形態にあっては、編集リストは、あるファイルからオーディオおよびビデオのセグメントをコピーするコピー・オペレータの生成を編集エンジンに命令する多数のコピー要求を含むものとすることができる。
【００２１】
好ましくは、コピー操作を始めるために、編集エンジンは、オーディオおよびビデオのコピーされたセグメントは、好ましくはビデオ構成要素より時間的に長いオーディオ構成要素をもつ第一のパスを通る。他の一実施の形態にあっては、コピーされたオーディオ・セグメントの各端部で所定の数のオーディオ・フレームが復号されさらに再符号化されてグル・フレームを生成し、それが例えば音のフェージングおよびブレンディング効果を与える構成とすることができる。オーディオのコピーされたセグメントが第一のパスで処理されると、編集エンジンが編集リストを通読する第二のパスを開始して処理されたオーディオおよびビデオ・セグメントを貼り合わせて（すなわち、接合して）一つのファイルにする。この貼り合わせの操作の間に、各コピーされたオーディオ・セグメントの端部にあるフレーム（すなわち、タブ−インおよびタブ−アウト・オーディオ・フレーム）を落とすかあるいは保持することによって、新しく生成されたオーディオビジュアル・ファイルの中のオーディオ構成要素とビデオ構成要素の同期をほぼ維持することができる。したがって、新しく生成されたファイルは、一以上のコピーされたオーディオビジュアル・セグメントからなるものとすることができる。一つの実施の形態にあっては、新しいファイルは、好ましくは、ビデオ構成要素と正確に同期して一オーディオ・フレームの約半分以上はずれることのないオーディオ構成要素を有する。
【００２２】
図１Ａは、ビデオ構成要素とほぼ同期したオーディオ構成要素を生成することに関係する処理ステップを説明するために用いる多くのオーディオおよびビデオ・フレームのシーケンスを示す図である。例として、ビデオ・フレームがＭＰＥＧ規格のフォーマットにもとづいて処理された後で符号化される順序を示すビデオ・フレームの符号化の順序のストリーム５０が示されている。例として示したこの符号化の順序のストリーム５０では、最初のフレームは、Ｉ−フレームであり、その後にＰ−フレーム、Ｂ−フレーム、Ｂ−フレーム、Ｐ−フレーム、Ｂ−フレーム、Ｂ−フレーム、Ｂ−フレーム等々が続く。本発明の編集アルゴリズムは、任意の適当に配列されたフレームのシーケンスを処理することができるが、表示の順序でフレームのシーケンスを処理することが好ましい。したがって、処理操作が行なわれる前に、符号化の順序のストリーム５０は、表示の順序のストリームに変換される。
【００２３】
すなわち、フレーム０からフレーム３６まで時間順序で配列されたフレーム・ストリームは、表示順序ストリーム５２の中で処理されるフレームの順序を識別する。比較のために、符号化順序ストリーム５０の中のフレームの対応する時間順序を対応するフレームの下に示してある。もちろん、表示順序ストリーム５２は、単に例であり、本発明にもとづいて他の適当な表示順序ストリームを適当に処理できることは理解されよう。
【００２４】
ビデオ・フレームのセグメントが表示順序ストリーム５２からコピーされると、マーク−インの位置およびマーク−アウトの位置が選定されて、コピーされるフレームの数が識別される。例として、マーク−インの位置がＰ−フレームであるフレーム９に選定され、マーク−アウトの位置がＢ−フレームであるフレーム２８に選定されるとする。したがって、表示順序ストリーム５２からコピーされるフレームのセグメントは、フレーム９から２８までとなる。図示のように、識別されたセグメントは、関係するオーディオ・フレームも含むものとなる。
【００２５】
当業者には公知のように、各オーディオ・フレームは、コピーされているＭＰＥＧオーディオレイヤの種類によって大きさが異なる場合がある。ＭＰＥＧオーディオ規格は、具体的に三つのレイヤがあり、各レイヤは、関係するフレーム速度とさまざまな識別特性をもっている。例として、ＭＰＥＧレイヤ２オーディオは、毎秒約２８から３８フレーム間での間のフレーム速度をもつことができる。特性の例としては、オーディオ・モード（例、ステレオ、モノ、サラウンド等々）、およびサンプリング周波数（例、３２ｋＨｚ、４4.１ｋＨｚ、および４８ｋＨｚ）を挙げることができる。ＭＰＥＧオーディオ文書の中に記載されているように、各オーディオ・フレームは、好ましくは関係するヘッダを含み、このヘッダが、各ヘッダの後に続くオーディオ・サンプルの個々の特性を識別する。ただし、わかりやすくするために、以下では、オーディオ・フレームは、純粋なパルス・コード変調（ＰＣＭ）オーディオ・サンプルとして説明する。
【００２６】
表示順序ストリーム５２に示すように、オーディオ・フレームの例がそれぞれの関係するビデオ・フレームの下に示されている。この代表的なビット・ストリームの中で互いに関係するビデオ・フレームに対するオーディオ・フレームの「時間」位置を識別するために、図では、オーディオ・フレームとビデオ・フレームは、やや絵画的に描かれている。
【００２７】
図１Ｂは、本発明の一実施の形態にもとづいて図１Ａの表示順序ストリーム５２からコピーされた後のオーディオビジュアル・セグメント６０を示す。図示のように、ビデオ・フレーム９から２８および始めのオーディオ・フレーム５６と終わりのオーディオ・フレーム６２が、表示順序ストリーム５２からコピーされている。始めのコピー・ステップの間、コピーされたオーディオ・セグメントは、コピーされたビデオ・セグメントより長い時間を占めることが好ましい。
【００２８】
以下でより詳細に説明するように、フレーム９がマーク−イン・ビデオ・フレームであると識別されると、オーディオ・フレームをコピーするために、始めのオーディオ・フレーム５６の始まりの時間がマーク−イン・フレーム９の開始時間５４と同じかまたはそれより早いかの判別が行なわれる。同様に、フレーム２８がマーク−アウト・ビデオ・フレームであると識別されると、オーディオ・フレームをコピーするために、終わりのオーディオ・フレーム６２の始まりの時間がマーク−アウト・フレーム２８の終了時間５３と同じかまたはそれより早いかの判別が行なわれる。
【００２９】
簡単に述べれば、オーディオ・フレームがマーク−イン・ビデオ・フレーム９の開始時間５４またはマーク−アウト・ビデオ・フレーム２８の終了時間５３と完全に位置合わせされない場合には、始めのオーディオ・フレーム５６は、マーク−イン・ビデオ・フレームの開始時間５４より早い開始時間を示し、終わりのオーディオ・フレーム６２は、マーク−アウト・ビデオ・フレーム２８の終了時間５３より早い開始時間を示す。この例では、オーディオ・フレーム５６が始めのオーディオ・フレームとして選定され、オーディオ・フレーム６２が終わりのオーディオ・フレームとして選定される。オーディオ・フレーム６４が、マーク−アウト・ビデオ・フレーム２８の終了時間５３より遅い開始時間を有し、したがってコピーされないことが理解されよう、したがって、最初のパスでは、オーディオ・フレーム６２間でのオーディオ・フレームのみがコピーされることになる。
【００３０】
図２は、本発明の一実施の形態にもとづくビデオ・ファイルの編集に用いられるデータ・フロー・アーキテクチャー１００を示す。図示のように、ファイルのオーディオ構成要素の編集にも同様なアーキテクチャー（例、かげになって隠されている部分）が用いられる。係属関連出願に記載されているように、ビデオ・ファイルは、ここにはかげで示したアーキテクチャーを用いて並行的に編集することができる。
【００３１】
データ・フロー・アーキテクチャー１００は、多くの編集作業を行なうことのできるＭＥＤＩＴエンジン１０２と呼ばれる編集エンジン１０２によって駆動されることが好ましい。例として、この種の作業として、ソースまたは入力ストリーム・ファイルからのセグメントが他のファイルで使用するためにコピーされる必要があることを要求するコピー操作を挙げることができる。他の適当な編集作業としては、フェード操作、ブレンド操作、モーフィング（形付け）操作、ティルティング（傾け）操作、テキスト・アノテーション（注釈付け）操作などを挙げることができる。一般に、ＭＥＤＩＴエンジン１０２は、編集作業を要求するアプリケーションが提供するオペレータの種類に応じて異なる多くの編集作業を管理することのできるダイナミックな装置である。したがって、ＭＥＤＩＴエンジン１０２は、複雑高度な編集作業を必要とする将来のアプリケーションが提供するオペレータ「プラグ−イン」を含む多数のオペレータの種類をすべて管理することができることが理解されよう。
【００３２】
以下では、ソース・ファイルからビデオのセグメントをコピーするなどの編集作業を行なう場合にＭＥＤＩＴエンジン１０２がたどる処理ステップの概要を説明する。一般に、コピー操作は、アプリケーション１０６がコピー操作を行なうことを要求したときに開始される。
【００３３】
最初、アプリケーション１０６は、ＭＥＤＩＴエンジン１０２に、編集する型を要求するためのチャンネルを識別する数である「チャンネル・オペレータ」１１０、アプリケーション１０６が要求する編集機能の種類を識別する「機能オペレータ」１１２、および編集要求の終わりを識別する「終わりオペレータ」１１４を含む適当な編集リスト１０８を提供する。図示の実施の形態では、機能オペレータ１１２は、「コピー」要求を識別する。例として、機能オペレータ１１２で識別された最初のコピー要求は、チャンネル１のためにＡ．ＭＰＥＧと呼ばれるファイルの中のフレーム９から２８をコピーする要求であるとする。図示のように、チャンネルＮであるＢ．ＭＰＥＧと呼ばれるファイルの中のフレーム１０から２５をコピーする要求に至るまで、他にも多くのコピーの要求があり得る。もちろん、コピーするためにビデオ・フレームが識別されると、上に述べたように関係するオーディオ・フレームもコピーのために選定されることが好ましい。
【００３４】
ＭＥＤＩＴエンジン１０２が編集リスト１０８を受け取ると、コピーの要求が編集リスト１０８を通読する二つの識別可能なパスで処理される。第一のパスでは、ＭＥＤＩＴエンジン１０２は、編集リスト１０８全体を通読して正しい数のオーディオ・フレームを選び出し、オーディオ構成要素が時間的にビデオ構成要素より長くなるようにする。好ましくは、始めのオーディオ・フレームは、マーク−イン・ビデオ・フレームの開始時間またはその前に始まるように選定され、終わりのオーディオ・フレームは、マーク−アウト・ビデオ・フレームの終了時間またはその前に始まるように選定される。説明をわかりやすくするために、始めのオーディオ・フレームを「タブ−イン」オーディオ・フレームと呼び、終わりのオーディオ・フレームを「タブ−アウト」オーディオ・フレームと呼ぶ。
【００３５】
適当なタブ−インおよびタブ−アウト・フレームが選定されると、コピーされたセグメントの中のオーディオ・フレームの数を確認し、コピー・オペレータがタブ−イン・フレームで始まる所定の数のオーディオ・フレームを処理（すなわち、復号および再符号化）してイン・グル・セグメントを生成し、またタブ−アウト・フレームまでの所定の数のオーディオ・フレームを処理してアウト・グル・セグメントを生成することができるようになる。コピーされたオーディオ・セグメントのためにグル・セグメントが生成されると、そのグル・セグメントが適当な記憶媒体１４０に記憶される。記憶媒体１４０は、キャッシュ・メモリ、コンピューター・ハード・ドライブ、フロッピー・ディスク、あるいは適当なネットワークによって接続されて遠隔に配置された記憶媒体など任意の適当な記憶媒体とすることができる。
【００３６】
第二のパスでは、ＭＥＤＩＴエンジン１０２は、ＭＥＤＩＴエンジン１０２によって生成される複数のスティッチャ・オブジェクト１４７、１４８を用いてグル部分を未処理のコピーされたセグメント（すなわち、ミドル・グル）と接合することで前に生成したグル・セグメントを利用する。以下により詳細に説明するように、スティッチャ・オブジェクトは、編集リスト１０８の各チャンネルのために生成され、特定のチャンネルに関連して生成された各スティッチャ・オブジェクトは、編集リスト１０８全体を通読してそれ自身のチャンネルのためにグル・セグメントを接合する（例、他のチャンネルに関連する情報は無視する）責任をもつ。
【００３７】
このようにして、編集リスト１０８の中で識別された各チャンネルがそれ自身のスティッチャ・オブジェクトをもつように多数のスティッチャ・オブジェクトを生成することができる。特定の一実施の形態にあっては、各スティッチャ・オブジェクトは、正しい時系列で前記特定のグル・セグメントを接合し、生成された各セグメントがタイム・スタンピングされて適当な表示順序ストリームを生成するようにする責任をもつ。さらに、生成された各スティッチャ・オブジェクトは、グル・オブジェクト１３０および１３１などのグル・オブジェクトを用いて、前に生成されたイン・グルまたはアウト・グル・ファイルからグル・セグメントを引き出すか、あるいはミドル・グル・セグメントの位置を識別するポインタを用いて元のファイルからミドル・グルを引き出す。図１Ｂのオーディオビジュアル・セグメント６０を参照して、オーディオ・フレーム５６、５８、５９、および６１が復号され再符号化されてイン・グル・セグメントを生成し、オーディオ・フレーム６６、６５、６３、および６２が復号再符号化されてアウト・グル・セグメントを生成すると、オーディオ・フレーム６１と６６の間にある残りのフレームは、例としてミドル・グル・セグメントをあらわすことになる。貼り合わされたフレーム・データがプログラム要素ストリーム（ＰＥＳ）としてマルチプレクサ１５０に出力されると、マルチプレクサ１５０は、生成されたすべてのスティッチャ・オブジェクトからＰＥＳデータを引き出し、コピーされたセグメントをＭＥＤＩＴエンジン１０２を介してアプリケーション１０６へ出力する。
【００３８】
図２の全体のデータの流れを説明するために、アプリケーション１０６が、チャンネル１からＡ．ＭＰＥＧファイル１２４（すなわち、図１Ａの表示順序ストリーム５２）からフレーム９から２８をコピーする操作を要求する場合を仮定する。ＭＥＤＩＴエンジン１０２は、最初のパスの間に全編集リスト１０８を通読して、前の編集要求の間にグル・セグメントがすでに生成されてグル・ファイルの中に記憶されているか否かを判別する。Ａ．ＭＰＥＧファイル１２４からのフレーム９から２８のコピー操作のためにすでに存在するグル・セグメントはないと仮定すると、ＭＥＤＩＴエンジン１０２は、制御オブジェクト１１１（例、制御オブジェクト）を生成するコピー・オペレータ１０４を生成する。
【００３９】
この実施の形態にあっては、制御オブジェクト１１１は、検索エンジン装置１１８を使用して、Ａ．ＭＰＥＧファイル１２４の中でコピーするために識別された適当なビデオ・フレームを検索する。
【００４０】
適当なフレームが位置付けされ、タブ−インおよびタブ−アウト・フレームを含む適当な数のオーディオ・フレームが選定されると、復号器１２０は、タブ−イン・オーディオ・フレームで始まるまたはタブ−アウト・オーディオ・フレームでオーディオ・フレームで終わる所定の数のオーディオ・フレームを復号することができる。一般に、オーディオ・グル・フレームは、例えば「ゼロへまたはゼロから」のフェードのようなオーディオ効果を導入するために処理されるオーディオ・フレームをあらわす。さらに、「インおよびアウト」グル・セグメントの生成は、オプションの処理ステップで、コピー・オペレータ１０２の中のパラメーターによって暗示的に選定されるかあるいはアプリケーション１０６によって送られるパラメーターによって明示的に要求される場合があることは理解されよう。したがって、グルの生成が要求される場合には、復号器１２０によって所定の数のオーディオ・フレームが一度に一フレームづつ復号される。ＭＰＥＧ規格の中で定義されている復号の要件を満たすためには、使用される復号器バッファを管理する必要があることは理解されよう。
【００４１】
一つのオーディオ・フレームが復号されると、復号されたデータがコピー・オペレータ１０４へ送られる。コピー・オペレータ１０４は、復号されたデータを、コピー・オペレータ１０４によって生成されて符号器１１５を有する制御オブジェクト１１３（例、制御オブジェクト）へ送る。この時点で、符号器１１５は、オーディオ・フレーム・データを適当なフォーマットに再符号化し、再符号化されたオーディオ・フレームをグル・ファイルの中に記憶するグル・オブジェクト１１６を呼び出す。図示のように、グル・ファイルは、好ましくは、キャッシュ・メモリなどの記憶媒体１４０の中に記憶される。オプションで、各イン・グルおよびアウト・グル・セグメントのために所定の数のオーディオ・グル・フレームがすべて復号されて再符号化されると、前記セグメントは、Ａ．ＭＰＥＧグル・ファイル１２６などの適当なグル・ファイルの中に記憶される。
【００４２】
ＭＥＤＩＴエンジン１０２は、通常、編集リスト１０８の中の各コピー要求のために個別のコピー・オペレータを生成することは理解されよう。したがって、編集リストの中の第二のコピー操作要求（すなわち、Ｂ．ＭＰＥＧファイル、チャンネルＮからのフレーム１０から５０）は、個別のコピー・オペレータ１０４によって処理され、これらのコピー・オペレータが、それ自身の検索および復号機能のために新しい制御オブジェクト１１１を生成し、また生成されたグル・フレームを復号しておそらくは記憶媒体１４０に記憶されている対応するグル・ファイルへ転送するための新しい制御オブジェクト１１３を生成する。
【００４３】
一実施の形態にあっては、各コピー・オペレータの実行は、編集リスト１０８の中で識別されたすべての編集要求を迅速に処理する並行フォーマットの多数の処理ユニットによって処理することができる。さらに、編集リストの中にはきまった評価順序は存在せず、また各編集操作は独立の行なうことができるので、並行処理は容易である。他の一実施の形態にあっては、インターネット・ビデオ・サーバーを用いて多重処理を行なうことができる。当業者には公知のように、インターネット・ビデオ・サーバーは、編集リスト１０８の中の編集要求を同時に処理するために用いることができる。
【００４４】
やはり図２を参照して、編集リスト１０８の中の各コピー要求のために適当なグル・ファイルが生成されたら、ＭＥＤＩＴエンジン１０２は、第二のパスで編集リスト１０８を通読し、編集リスト１０８の中で識別された各チャンネルのためにスティッチャ・オブジェクト１４７および１４８などのスティッチャ・オブジェクトを生成する。図示の例では、チャンネル１およびチャンネルＮのために生成された二つのスティッチャ・オブジェクトのみが示されているが、編集リスト１０８の中で識別されたチャンネルの数に応じて任意の数のスティッチャ・オブジェクトを生成できることは理解されよう。例として、実施の形態によっては、編集リスト１０８はＭＰＥＧ−２プラットホームの下の約８０００のオーディオ・チャンネルおよび約４０００のビデオ・チャンネルの多重チャンネルのためのスティッチャ・オブジェクトを含むようにすることができるものもある。
【００４５】
各チャンネルのためにスティッチャ・オブジェクトが生成されると、各スティッチャ・オブジェクト１４７および１４８は、グル・オブジェクト１３０および１３１を生成することが好ましい。この実施の形態にあっては、各スティッチャ・オブジェクトは、編集リストを通読して関連するチャンネルのための編集要求を探す。例として、スティッチャ・オブジェクト１４７は、編集リスト１０８を通読してチャンネル１のための編集要求を識別し、同様に、スティッチャ・オブジェクト１４８は、編集リスト１０８を通読してチャンネルＮのための編集オペレータを識別する等々の構成とされる。グル・オブジェクト１３０および１３１が生成されると、グル・オブジェクト１３０は、各スティッチャ・オブジェクト１４７および１４８に、グル・データを提供するが、これらのデータは、最初のパスの間に生成されたものとすることもできる。
【００４６】
この例では、グル・オブジェクト１３０は、コピーされたセグメントのために各種のグル・セグメントを引き出す任務をもつ。例として、グル・オブジェクト１３０は、Ａ．ＭＰＥＧグル・ファイル１２６の中に記憶されたグル・データを引き出してそれをスティッチャ・オブジェクト１４７に提供するものとすることもできる。さらに、なんらかのミドル・グル・データ（すなわち、切り取られたセグメントの未処理部分）が要求された場合、グル・オブジェクト１３０は、制御オブジェクト１１１によって制御されるストリーマ１２２へポインタ１３４を用いる。このようにして、グル・オブジェクト１３０は、Ａ．ＭＰＥＧファイル１２４から正しいフレームを引き出すことができる。この実施の形態にあっては、ミドル・グルは、図１Ｂのコピーされたセグメント６０の中のオーディオ・フレーム６１とオーディオ・フレーム６６の間にあるオーディオ・フレームに関連させることができる。もちろん、オーディオ・フレームのためにグル・セグメントが生成されない場合には、タブ−イン・オーディオ・フレームで始まりタブ−アウト・オーディオ・フレームで終わるすべてのオーディオ・フレームは、ミドル・グルとして識別される。
【００４７】
したがって、各スティッチャ・オブジェクト１４７および１４８は、グル・データを要求し、グル・オブジェクト１３０および１３１は、適当な位置からデータを引き出す。各スティッチャ・オブジェクトが、時系列的に要求されたデータを引き出すと、各スティッチャ・オブジェクトは、ＰＥＳデータ・ストリームをＭＵＸユニット１５０へ転送し、前記ユニットは、引き出されたＰＥＳデータ・ストリームを多重化して、単一のストリームをＭＥＤＩＴエンジン１０２を介してアプリケーション１０６へ送る。
【００４８】
図３は、本発明の一実施の形態にもとづいてビデオ・ファイルを編集するための好ましい方法のステップを示すフローチャートである。この処理は、ステップ３００から始まり、このステップでは、ＭＥＤＩＴエンジンが編集リストを受け取る。上に述べたように、編集リストは、通常、特定の編集要求に関係して必要とされるチャンネルの数および種類を識別する多数のチャンネル・オペレータを含んでいる。例えば、通常は、ビデオおよびオーディオのための個別のチャンネルが存在する。また、多数の個別のビデオ・チャンネルと多数の個別のオーディオ・チャンネルが存在する場合もある。
【００４９】
図２を参照して、アプリケーション１０６がＭＥＤＩＴエンジン１０２へ編集リスト１０８を送ると、処理は、ステップ３０２へ進み、タブ−インおよびタブ−アウト・フレームを含むオーディオ・フレームが識別され、編集リスト１０８の中の各コピー要求のためにグル・セグメントが生成される。グル・セグメントが要求された場合には、編集リスト１０８の中の特定のコピー操作のために任意の数のグル・セグメントが存在する。すなわち、グル・セグメントは、イン・グル、ミドル・グル（すなわち、「未処理フレーム」）、およびアウト・グル・セグメントを含む。所定の数のオーディオ・フレームのためにグル・セグメントが生成された場合には、前記生成されたグル・セグメントは、第二のパスで使用しまた将来の編集操作で使用するために「インまたはアウト」グル・ファイルとして記憶されることが好ましい。
【００５０】
したがって、もし将来、編集操作の中で同じフレーム域のコピーが行なわれることがある場合には、前に生成されたグル・セグメントを再使用することができる。これによって、同じグル・ファイルをまったく最初から非効率に再生成する必要をなくすことができる。実際、グル・セグメント・ファイルは、ネットワークに分散させ、編集操作の要求があれば引き出すようにすることもできる。
【００５１】
適当なグル・セグメントが生成されて適当なメモリ位置（例、キャッシュ・メモリ）に記憶されると、処理は、ステップ３０４へ進み、第二のパスの間に図２に示すＭＥＤＩＴエンジン１０２によって要求された出力ストリームが生成される。図示のように、各チャンネル・オペレータのために多数のスティッチャが生成され、編集リストの中で識別された各チャンネルは、それ自身のスティッチャ・オブジェクトをもつことになり、また、各スティッチャ・オブジェクトは、編集リストを通読して、前記編集リストの中の各機能オペレータのためのデータを要求する。すなわち、各スティッチャ・オブジェクトは、グル・マネージャー（すなわち、グル・オブジェクト１３０および１３１）の補助のもとで、さまざまなグル・ファイルからデータを引き出す。このようにして、各スティッチャ・オブジェクトは、グル・オブジェクトからデータを受け取り、多重化ユニット１５０は、各スティッチャ・オブジェクトからＰＥＳストリーム・データを要求する。
【００５２】
マルチプレクサが関係するスティッチャ・オブジェクトからデータを引き出すと、前記マルチプレクサは、多重化されたデータをＭＥＤＩＴエンジン１０２を介してアプリケーションへ送る。マルチプレクサによるストリームの出力は、オーディオ、ビデオ、あるいはビデオとオーディオ・データの多重化された組み合わせのいずれとしてもよいことは理解されよう。ステップ３０４で、要求された出力ストリームがアプリケーションへ送られると、処理は、完了する。以下では、図４から１７を参照して、オーディオ構成要素をビデオ構成要素とほぼ同期した状態に維持する編集された出力ストリームの生成に関係する処理ステップをより詳細に説明する。
【００５３】
図４は、本発明の一実施の形態にもとづいて任意の適当なオペレータのためにグルを生成することに関係する処理ステップを詳細に示したフローチャートである。まず、ＭＥＤＩＴエンジンは、アプリケーションによって与えられる編集リストを通読する。一般に、処理は、ステップ３１０で始まり、このステップでは、ＭＥＤＩＴエンジンが編集リストの次の入力項目を確保する。ＭＥＤＩＴエンジンが編集リストの中の現在の入力項目を確保したら、処理は、決定ステップ３１２へ進む。決定ステップ３１２では、編集リストの中の現在の入力項目が「ＥＮＤ（終了）」オペレータか否かが判別される。現在の入力項目がＥＮＤオペレータである場合には、図４の処理は完了する。
【００５４】
現在の入力項目がＥＮＤオペレータでない場合には、処理は、第二の決定ステップ３１４へ進み、このステップでは、編集リストの中の現在の入力項目のためのグルが存在するか否かまた編集リストの中の現在の入力項目のためにグルが必要か否かが判別される。編集リストの中の現在の入力項目のためのグルがすでに存在する場合には、処理は、ステップ３１０へ戻り、上に述べたようにして編集リストの中の次の入力が処理される。他方、ステップ３１４で上に述べたようにグルが存在しないかあるいは現在の入力項目のために必要でないと判別された場合には、処理は、ステップ３１６へ進み、ＭＥＤＩＴによって現在の入力項目のためのオペレータが生成される。もちろん、生成されるオペレータの種類は、編集リストの中の入力項目の種類に依存する。例として、入力項目がコピーの要求である場合には、図２に示すように「コピー・オペレータ」が生成される。
【００５５】
したがって、ＭＥＤＩＴによって、編集リストの中で提供される編集要求の種類に応じて任意の適当なオペレータが生成されることが理解されよう。例として、適当な編集オペレータは、ブレンド・オペレータ、フェード・オペレータ、モーフィング（形付け）オペレータ、ティルティング（傾け）オペレータ、テキスト・アノテーション（注釈付け）オペレータを含む場合が考えられる。さらに、本発明のＭＥＤＩＴ編集エンジンを利用するアプリケーションによって導入される「プラグ−イン」オペレータの種類によっては、将来、ＭＥＤＩＴによって新しいオペレータを生成することもできる。
【００５６】
ステップ３１６で適当なオペレータが生成されると、処理は、ステップ３１８へ進み、オペレータが実行されて、適当なオーディオ・セグメントが生成され、また編集リストの中で要求された特定の種類の操作のために必要なグル・セグメントが生成される。オペレータの実行に関係するこの処理のステップは、図５を参照して以下でより詳細に説明する。ステップ３１８で特定の編集オペレータのための適当なオーディオ・セグメントと任意のグル・セグメントが生成されると、処理は、ステップ３２０へ進み、オペレータが消滅する。現在のオペレータが消滅すると、処理は、ステップ３１０へ戻り、編集リストの中の次の入力項目を受け取って、上に述べたステップ３２０までの処理が繰り返される。
【００５７】
図５は、本発明の一実施の形態にもとづいてコピー・オペレータを実行することに関係する処理ステップをより詳細に示した図である。処理は、ステップ４０２から始まり、このステップでは、マーク−イン・フレームが判別される。説明をわかりやすくするために、ここでは図１Ａに示した表示順序ストリーム５２の例を参照する。この例では、「マーク−イン」フレームは、フレーム９である。マーク−イン・フレームの種類が判別されると、処理は、ステップ４０４へ進み、マーク・アウト・フレームが識別される。この例では、図１Ａに示すように、マーク−アウト・フレームは、フレーム２８である。
【００５８】
次に、処理は、ステップ４０６へ進み、マーク−イン・フレーム９と関係づけられるオーディオ・フレームが選定される。図示の例では、選定されたオーディオ・フレームは、好ましくはタブ−イン・オーディオ・フレームである。上に述べたように、タブ−イン・オーディオ・フレームは、マーク−イン・ビデオ・フレーム９の開始時間より前かまたは同じ開始時間を有することが好ましい。したがって、タブ−イン・オーディオ・フレームは、既知のビデオ開始時間（すなわち、マーク−イン・フレーム９の開始時間）を用いて「オーディオ−ビデオ」位置づけ操作を行ない、オーディオ構成要素の検索を行なうことによって選定される。したがって、オーディオ・シーカーは、提示タイム・スタンプおよびマーク−イン・フレーム９に最も近いオーディオ・フレームの復号タイム・スタンプを識別することができる。シーカーは、この情報を用いて、マーク−イン・ビデオ・フレーム９の開始時間５４に最も近い開始時間をもつオーディオ・フレームはどれかを判別する。
【００５９】
図１Ｂに示すように、開始時間５４に近い開始時間を持つのはオーディオ・フレーム５８である。この場合には、オーディオ・フレーム５８が、それ自身の関係する開始時間を持つ「マーク−イン・オーディオ・フレーム」として識別される。この時点で、シーカーは、マーク−イン・オーディオ・フレーム５８の開始時間が少なくともマーク−イン・ビデオ・フレーム９の開始時間５４と同じ程度に早い（すなわち、間に合う）か否かを判別する。この例では、マーク−イン・オーディオ・フレーム５８の開始時間は、少なくとも開始時間５４ほど早くはない。したがって、シーカーは、オーディオ・フレーム５６まで一オーディオ・フレーム分逆戻りし、このオーディオ・フレームがタブ−イン・オーディオ・フレームとして識別される。
【００６０】
マーク−イン・ビデオ・フレームに関係するオーディオ・フレームが選定されると、処理は、ステップ４０８へ進み、マーク−アウト・ビデオ・フレーム２８に関係づけられるオーディオ・フレームが選定される。上に述べたように、再び、オーディオ−ビデオ位置づけ操作が行なわれて「マーク−アウト・オーディオ・フレーム」が識別される。好ましくは、マーク−アウト・オーディオ・フレームは、マーク−アウト・ビデオ・フレーム２８の終了時間５３に時間的に最も近い開始時間を持つオーディオ・フレームである。この例では、マーク−アウト・ビデオ・フレーム２８の終了時間５３に最も近い開始時間を持つのはオーディオ・フレーム６４である。マーク−アウト・オーディオ・フレーム６４が識別されると、シーカーは、マーク−アウト・オーディオ・フレーム６４の開始時間がマーク−アウト・ビデオ・フレーム２８の終了時間５３より遅くないか否かを判別する。例に示したマーク−アウト・オーディオ・フレーム６４の開始時間は、マーク−アウト・ビデオ・フレーム２８の終了時間５３より遅いので、シーカーは、オーディオ・フレーム６２まで一フレーム分逆戻りし、このオーディオ・フレームが「タブ−アウト」オーディオ・フレームとして識別される。ステップ４０６および４０８でタブ−インおよびタブ−アウト・オーディオ・フレームが識別されると、処理は、決定ステップ４１０へ進む。
【００６１】
ステップ４１０では、コピーされたセグメントのために「イン・グル」が必要か否かが判別される。上に述べたように、グル・セグメントは、通常、復号されて再符号化されたオーディオ・フレームとして識別される。この実施の形態にあっては、コピーされたセグメントの始めで所定の数のオーディオ・フレームが復号され再符号化される。サウンド・ブレンド効果、フェード効果等々を導入するために任意の数のオーディオ・フレームを復号して再符号化することができるが、例として、図２のコピー・オペレータ１０４の暗示的要求にもとづいてオーディオ・フレーム５６、５８、５９、および６１が復号され再符号化されるものとする。他方、図２のアプリケーション１０６によってグル・オーディオ・フレームの数およびサウンド・エフェクト
（効果）の種類が明示的に要求されたものとする。
【００６２】
ステップ４１０でイン・グルが必要と判別された場合には、処理は、ステップ４１２へ進み、タブ−イン・オーディオ・フレームで始まる所定の数のオーディオ・フレームのためにイン・グルが出力される。他方、イン・グルが必要でない場合には、処理は、ステップ４１４へ進み、「アウト・グル」が必要か否かが判別される。アウト・グルが必要な場合には、処理は、ステップ４１６へ進み、所定の数のフレームのためにアウト・グル（すなわち、復号され再符号化されたオーディオ・フレーム）が出力される。イン・グルの場合と同様に、例として、所定の数のフレームは、図１Ｂのオーディオ・フレーム６６、６５、６３、および６２であるとする。他方、ステップ４１４でアウト・グルが必要でないと判別された場合には、処理は、ステップ４１８へ進み、コピー操作のためにミドル・グルが必要か否かが判別される。ステップ４１８でコピー操作のためにミドル・グルが必要と判別された場合には、処理は、ステップ４２０へ進み、オーディオ・フレームのミドル・グル・セグメントが出力される。
【００６３】
一実施の形態にあっては、ミドル・グル・オーディオ・セグメントは、（ａ）タブ−イン・フレームで始まりタブ−アウト・フレームで終わるオーディオ・フレーム、（ｂ）タブ−インフレームと最初のアウト・グル・オーディオ・フレームの一フレーム前の間のオーディオ・フレーム、（ｃ）最後のイン・グル・フレームの後のオーディオ・フレームで始まりタブ−アウト・フレームまで達するオーディオ・フレーム、または（ｄ）最後のイン・グル・フレームの後のオーディオ・フレームで始まり最初のアウト・グル・オーディオ・フレームの一フレーム前まで達するオーディオ・フレームを含むものとすることができる。オプションとして適当なグル・セグメントが出力されると、コピー・オペレータを実行する処理が完了する。
【００６４】
図６は、図５を参照して説明したミドル・グルの出力に関係する処理ステップを示すフローチャートである。処理は、ステップ４５１で始まり、グル域が識別される。上に述べたように、ミドル・グル域は、イン・グルおよびアウト・グルが必要か否かによって異なる。例として、オーディオ・フレーム５６、５８、５９、および６１のためにイン・グルが必要であり、オーディオ・フレーム６６、６５、６３、および６２のためにアウト・グルが必要であると仮定すると、ミドル・グル・セグメントは、オーディオ・フレーム６９からオーディオ・フレーム６８まで伸びているものとして識別されるであろう。もちろん、「インあるいはアウト」グルが必要でない場合には、ミドル・グル・セグメントは、タブ−イン・フレーム５６からタブ−アウト・フレーム６２まで伸びるものとなる。
【００６５】
ステップ４５１でミドル・グル域が識別されると、処理は、ステップ４５２へ進み、多くの識別子を含むミドル・グル・ファイルが出力される。例として、この出力ファイルは、ファイル名、ミドル・グル・セグメントに関係するフレームの数、最初のフレーム番号（ミドル・グル・イン）、最後のフレーム番号（ミドル・グル・アウト）、ミドル・グルのフレーム速度、「ミドル・グル・イン」フレームを識別する入力ストリームを指すポインタ、および「ミドル・グル・アウト」フレームを識別する入力ストリームを指すポインタを有することが好ましい。一つの実施の形態にあっては、ミドル・グル・オーディオ・フレームは、第二のパスでスティッチャがミドル・グル・セグメントを要求したときに入力ファイルから「コピーされる」未処理オーディオ・フレーム６９から６８（例、復号されず再符号化されない）であることが好ましい。ステップ４５２でミドル・グル出力ファイルが生成されると、ミドル・グルを生成する処理が完了する。
【００６６】
図７は、図５を参照して説明したイン・グルの出力に関係する処理ステップを示すフローチャートである。処理は、ステップ４６１で始まり、このステップでは、「イン・グル・イン」フレームを含みまた「イン・グル・アウト」フレームまで伸びるイン・グルのセグメントに関してグル域が識別される。例として、図１Ｂのオーディオビジュアル・セグメント６０を参照すれば、イン・グル・セグメントは、オーディオ・フレーム５６から６１を含むことが好ましい。
【００６７】
ステップ４６１でイン・グルに関するグル域が識別されると、処理は、ステップ４６２へ進み、最初のイン・グル・フレームが復号される。例として、復号される最初のフレームは、タブ−イン・オーディオ・フレーム５６であることが好ましい。図２のデータ・フロー・アーキテクチャーを参照して、フレーム５６が、制御オブジェクト１１１の検索エンジン１１８によってＡ．ＭＰＥＧファイル１２４から選ばれると、識別されたデータ（すなわち、タブ−イン・オーディオ・フレーム５６）が引き出され、オーディオ・ビット・ストリームからビデオ・ビット・ストリームを分離するＤＥＭＵＸユニット１２１によってデマルチプレクスされる。その後、タブ−イン・オーディオ・フレーム５６は、復号器１２０へ送られ、そこでオーディオ・サンプル・データが復号される。次に、この復号されたサンプル・データは、コピー・オペレータ１０４へ送られ、コピー・オペレータ１０４は、このデータを符号器１１５へ送る。この時点で、処理は、ステップ４６４へ進み、タブ−イン・オーディオ・フレーム５６が制御オブジェクト１１３内にある符号器１１５によって符号化される。
【００６８】
この実施の形態にあっては、フレーム５６は、貼り合わされているオーディオ・セグメントの間に滑らかに移行させるように（例、ポッピング効果をほぼ除去するように）再符号化することができる。上に述べたように、再符号化されたオーディオ・フレームは、例えば、一秒の半分でゼロへフェードするまたはゼロからフェードする、あるいは６０Ｈｚの「ハミング」を加える等々の効果を含めるように符号化することもできる。フレーム５６が符号化されると、処理は、ステップ４６６へ進み、グル・オブジェクト１１６によって、符号化されたフレームが出力イン・グル・ファイル（すなわち、Ａ．ＭＰＥＧグル１２６）に付加される。
【００６９】
次に、処理は、決定ステップ４６８へ進み、ステップ４６１で識別されたフレームのイン・グル域の中にさらに他のオーディオ・フレームが存在するか否かが判別される。さらに他のオーディオ・フレームが存在する場合には、処理は、再びステップ４６２へ進み、上に述べたようにしてイン・グル・セグメントの中の次のフレームが復号される。ステップ４６２で次のフレームが復号されたら、処理は、再びステップ４６４へすすみ、サウンド・エフェクトを生成する任意の数の連続として符号化される。そのフレームが符号化されたら、処理は、ステップ４６６へ進み、再びそれが出力グル・ファイルに付加される。次に、処理は、ステップ４６８へ進み、ステップ４６１で識別されたフレームのイン・グル域の中にさらに他のオーディオ・フレームが存在するか否かが判別される。
【００７０】
ステップ４６１で識別されたフレームのイン・グル域の中には他にフレームが存在しない場合には、処理は、ステップ４６９へ進み、付加されたフレームを含むイン・グル・ファイルが出力される（例、Ａ．ＭＰＥＧグル・ファイル１２６）。例として、このグル・ファイルは、ファイル名、イン・グル・セグメントの中のフレームの数、（「イン・グル・イン」）フレームのための最初のフレーム番号、（「イン・グル・アウト」）フレームのための最後のフレーム番号、およびイン・グル・セグメントのフレーム速度を含むものとすることができる。出力グル・ファイルが完成すると、図５を参照して説明したイン・グルを出力することに関係する処理ステップが完了する。
【００７１】
図８は、図５を参照して説明したアウト・グルの出力に関係する処理ステップを示すフローチャートである。処理は、ステップ４７１で始まり、このステップでは、アウト・グル・セグメントのためにグル域が計算される。例として、図１Ｂのオーディオビジュアル・ストリーム６０では、アウト・グル・セグメントは、オーディオ・フレーム６６で始まりタブ−アウト・オーディオ・フレーム６２まで伸びるものとすることができる。ステップ４７１でアウト・グル域が計算されたら、処理は、ステップ７４２へ進み、アウト・グル・セグメントの中のオーディオ・フレーム６６が復号される。
【００７２】
図２のデータ・フロー・アーキテクチャーを参照して、検索エンジン１１８がファイル、例えばＡ．ＭＰＥＧファイル１２４の中のオーディオ・フレーム６６を位置づけして引き出すと、ＤＥＭＵＸ１２１の中でオーディオ・フレーム・データがデマルチプレクスされてオーディオ構成要素が分離される。次に、ＤＥＣ１２０の中でフレーム６６が復号され、ＤＥＣ１２０は、制御オブジェクト１１１内部から復号されたオーディオ・サンプル・データを生成する。次に、復号されたサンプルデータは、コピー・オペレータ１０４へ送られ、このデータは、さらに制御オブジェクト１１３の符号器１１５へ送られる。ステップ４７４でデータが符号器１１５によって再符号化されると、グル・オブジェクト１１６は、ステップ４７６で、この再符号化されたオーディオ・フレームをグル・ファイル（例、ＡＭＰＥＧグル・ファイル１２６）へ付加する。
【００７３】
次に、処理は、ステップ４７８へ進み、グル・アウト域の中にさらに他のフレームが存在するか否かが判別される。グル・アウト域の中にはさらに他のフレームが存在するので、処理は、ステップ４７２へ戻り、次のフレームが処理される。例として、次のフレームがオーディオ・フレーム６５とすると、このフレームがステップ４７４で復号され再符号化される。上に述べたように、次に、フレーム６６が適当な符号化フォーマットに符号化され、所望のサウンド・エフェクトが生成される。ステップ４７４でフレームが符号化されると、処理は、ステップ４７６へ進み、上に述べたように符号化されたフレームがアウト・グル・ファイルに付加される。
【００７４】
本発明の一実施の形態にあっては、次に、処理は、所定のアウト・グル・セグメントの中のすべてのオーディオ・フレームが処理されるまでループしてステップ４７２へ戻る。ステップ４７８で処理すべき他のフレームはないと判別されると、処理は、ステップ４７９へ進み、出力グル・ファイルが生成される。例として、このグル・ファイルは、ファイル名、アウト・グル・セグメントの中のフレームの数、（「アウト・グル・イン」）フレームのための最初のフレーム番号、（「アウト・グル・アウト」）フレームのための最後のフレーム番号、およびアウト・グル・セグメントのフレーム速度を含むものとすることができる。出力グル・ファイルが完成すると、図５を参照して説明したアウト・グルを出力することに関係する処理ステップが完了する。
【００７５】
図９は、図３のステップ３０４を参照して説明したＭＥＤＩＴエンジン１０２によって第二のパスの間に要求された出力ストリームを生成することに関係する処理ステップの概要を示すフローチャートである。処理は、ステップ５０２で始まり、このステップでは、ＭＥＤＩＴが編集リストを通読し、前記編集リストの中の各チャンネルのためにスティッチャ・オブジェクトを生成する。例として、編集リストは、異なるビデオ・ファイルを表示するために多数のチャンネルをもつものとすることができる。図２に例として示すように、チャンネル１からチャンネルＮまでのためのチャンネル・オペレータ１１０が識別される。したがって、チャンネル１およびチャンネルＮのために関係するスティッチャが生成される。これらは、それぞれ、スティッチャ・オブジェクト１４７およびスティッチャ・オブジェクト１４８として示されている。
【００７６】
ステップ５０２で編集リストの中で識別された各チャンネルのためにスティッチャ・オブジェクトが生成されると、処理は、ステップ５０４へ進み、ＭＥＤＩＴがマルチプレクサ１５０を呼び出して前記マルチプレクサに入力ソースのリストを与える。この実施の形態にあっては、マルチプレクサ１５０は、スティッチャ・オブジェクト１４７およびスティッチャ・オブジェクト１４８などの入力ソースからデータを引き出すように構成される。ただし、マルチプレクサ１５０は、スティッチャ・オブジェクト１４７および１４８以外の任意の数の適当な入力ソースからデータを引き出せることは理解されよう。例として、入力ソースは、適当なＭＰＥＧデータを含むファイルなど任意の形で実施することができる。
【００７７】
次に、処理は、ステップ５０６へ進み、各チャンネルのために生成されたスティッチャ・オブジェクトは、未処理入力ストリームおよび上に述べたように第一のパスの間に生成される各種のグル・ファイルから適当な入力データをマルチプレクサ１５０に供給した後、消去される。マルチプレクサ１５０が要求に応じてコピーされたセグメントを生成した後、コピーされたセグメントは、ＭＥＤＩＴエンジン１０２を介してアプリケーションへ送られる。コピーされたセグメントが出力されると、ステップ５０６でスティッチャ・オブジェクトが消去され、第二のパスが完了する。
【００７８】
図１０は、図９のステップ５０４で示した入力ソースから引き出されたデータの多重化に関係する処理ステップをより詳細に示した図である。最初のステップ５３０では、処理は、マルチプレクサに提供された任意の入力ソースでデータが利用可能であるか否かを判別する。マルチプレクサに入力ソースが提供されない場合には、マルチプレクサの操作が完了する。他方、マルチプレクサに提供される入力ソースが存在する場合には、処理は、ステップ５３２へ進み、入力ソースによって提供されるデータがマルチプレクサによって読み取られる。
【００７９】
ステップ５３２で入力ソースから利用可能なデータが読み取られたら、処理は、ステップ５３４へ進み、読み取られたデータが適用な多重化エンジンによって多重化される。例として、適当な公知の多重化エンジンとしては、Ｚ・ヤール、Ｊ・バウチャー、Ｊ・パーマー、およびＥ・ルビンによって開発された１または２パスＭＰＥＧ多重化エンジン、ファイル名ＭＰＥＧ−１、マルチ−ストリーム・システム・レーヤー・エンコーダ（マルチプレクサ）（公共部門、１９９４）を挙げることができる。この多重化エンジンは、マサチューセッツ州ボストンのボストン大学から入手することができる。
【００８０】
ステップ５３４でデータが多重化されると、処理は、ステップ５３６へ進み、多重化されたデータがＭＥＤＩＴエンジン１０２へ読み取られ、次に図２を参照して説明した編集操作を要求するアプリケーションへ送られる。多重化されたデータがＭＥＤＩＴに書き込まれると、処理は、再び決定ステップ５３０へ進み、他にも利用可能な入力ソースが存在するか否かが判別される。利用可能なソースが存在する場合には、処理は、入力ソースが存在しなくなるまで再びステップ５３２、５３４、および５３６をループして通る。他に入力ソースが存在しない場合には、処理が完了する。
【００８１】
図１１は、ステップ５３２で説明したように入力ソースからデータを読み取るときに、スティッチャ・オブジェクトによって行なわれる処理ステップを詳細に示す図である。始めに、処理は、ステップ５４０で始まり、このステップでは、ＭＥＤＩＴエンジン１０２によってスティッチャ・オブジェクトが呼び出される。上に述べたように、スティッチャ・オブジェクトは、編集リストの中で提供される各チャンネルごとに（すなわち、すべてのオーディオおよびビデオ・チャンネルに関して）生成されることが好ましい。適当な数のスティッチャ・オブジェクトが生成されると、処理は、ステップ５４２へ進み、マルチプレクサのための適当なビデオ・プログラム要素ストリーム（ＰＥＳ）を生成するために有限状態機械が導入される。
【００８２】
一般に、有限状態機械には、時系列的に入力ソースを開き、入力ソースを読み取り、入力ソースを閉じる任務が課される。すなわち、各スティッチャは、状態機械を通り抜けて、各種の入力ソースを開き、ビデオ・データを読み取ることが好ましい。データが読み取られたら、ファイルが閉じられる。入力ソースの中にデータが見つからない（すなわち、「イン・グル、ミドル・グル、またはアウト・グル」が生成されないまたは必要とされない）場合には、状態機械は、次のファイルへ進み、開き、読み取り、閉じる操作を行なう。
【００８３】
上に述べたように、スティッチャは、要求された場合には、各々が、グル・オブジェクト１３０および１３１のようなグル・オブジェクトを用いてグル・ファイルを引き出す。したがって、各グル・オブジェクトには、図３のステップ３０２で説明したように第一のパスの間に生成されるグル・ファイルの各種部分を引き出す任務が課される。各グル・ファイルが実行されるとき、グル・オブジェクトが各スティッチャが要求した適当な位置からグル・ファイルを引き出してからは、グル・ファイルは実際にはスティッチャに関係なく格納される。このようにして、各スティッチャはループして、特定のコピー操作に利用可能なグル・ファイルがなくなるまで、関係するグル・オブジェクトにグル・ファイルを要求する。
【００８４】
図１２は、図１１のステップ５４２で説明した有限状態機械を導入する場合に各スティッチャが行なう処理ステップを詳細に示した図である。処理は、ステップ５５０で始まり、このステップでは、まずイン・グルまたはアウト・グルのために「開くこと」が要求されているか否かが判別される。イン・グルまたはアウト・グルのために「開くこと」が要求されている場合には、処理は、ステップ５５２へ進み、適当なグル・ファイルが開かれ、当業者には公知のようにしてファイル見出しが処理される。
【００８５】
ファイル・ヘッダが処理されると、処理は、ステップ５５８へ進み、読み取り操作の全期間中、開かれたグル・ファイルのためにタイム・リスタンピングが行なわれる。また、ステップ５５８では、オプションで、Ｂ−フレームの取り外しが行なわれる。一般に、読み取り操作の間に、データは、それが一次的に保持されるバッファに読み込まれる。バッファに読み込まれると、読み取られた内容が始めから終わりまで処理され、適当なタイム・リスタンピングが判別され、コピーされたオーディオ・フレーム・セグメントのためにタブ−インおよびタブ−アウト・オーディオ・フレームを落とすべきかまたは保持すべきかが判別される。処理されると、バッファの全内容がマルチプレクサへ出力される（例、図２のＭＵＸ１５０）。
【００８６】
図１３を参照して以下に詳細に説明するように、タブ処理は、通常、二以上のオーディオおよびビデオ・セグメントが接合されたら、一オーディオ・フレームの半分以上のエラーが生じていないことを確認するために行なわれる。広くは、タブ処理は、タブ−インおよびタブ−アウト・オーディオ・フレームの各々に関して行なわれ、一定の条件が満たされれば、タブ−インおよびタブ−アウト・オーディオ・フレームが落とされるかあるいは保持されることになる。
【００８７】
ステップ５５８でリスタンピングおよびタブ処理が行なわれたら、処理は、ステップ５６０へ進み、状態機械が開いたファイルを閉じる。他方、イン・グルおよびアウト・グルのために開くことが必要でない場合には、処理は、ステップ５５４へ進み、ミドル・グル・ファイルを開いてファイル・ヘッダを処理するステップが行なわれる。このステップでは、ＭＰＥＧストリーム規格が満たされていることを確認するためにミドル・グル・ファイルのヘッダが処理される。次に、処理は、ステップ５５６へ進み、ミドル・グルの位置を示すポインタを参照してミドル・グル・ファイルが開かれる。例として、図２に示すように、ポインタ１３４および１３６は、読み取りが行なわれる入力ストリームの中の始めと終わりのフレームの位置を識別する。ステップ５５６で入力ストリームが開かれると、処理は、再びステップ５５８へ進み、上に述べたようにタイム・レスタンピングとＢ−フレームの除去が行なわれる。タイム・リスタンピングとＢ−フレームの除去が行なわれると、処理は、ステップ５６０へ進み、開いたファイルが閉じられる。
【００８８】
図１３は、本発明の一実施の形態にもとづいてタブ処理を行なうことに関係する処理ステップを示すフローチャートである。わかりやすくするために、貼り合わされる複数のオーディオビジュアル・セグメントを示す図１４とタブ処理操作の一例のタブレーションの表を示す図１５を同時に参照しながら説明する。
【００８９】
図１３の処理は、ステップ６０２で始まり、このステップでは、現在のタブ７０６が処理されて現存するストリーム・エラーが判別される。図１４に示すように、最初のセグメントはＳＥＧＭＥＮＴＡであり、現存するストリーム・エラーはゼロである。この例では、現存するストリーム・エラーを持ち越す先行のタブは存在しないので、ＳＥＧＭＥＮＴＡが最初のセグメントであり、現存ストリームストリーム・エラーはゼロである。ステップ６０２で現存するストリーム・エラーがゼロであると判別されると、処理は、ステップ６０４へ進み、タブ７０６に関してタブ・エラーが判別される。この例では、図１５の表に示すように、タブ・エラーは0.２である。ここで使用する限りにおいて、「エラー」とは、一つのオーディオ・フレームが関係するビデオ・フレームと同期していないパーセントを意味する。例えば、0.２のエラーとは、オーディオ・フレームの２０％を意味する。さらに、説明を容易にするために丸めた数字を用いるが、関係するエラーは、任意の適当な厳密さであらわすことができる。
【００９０】
ステップ６０４でタブ７０６に関するエラーが判別されると、処理は、ステップ６０６へ進み、現存するストリーム・エラーとタブ・エラーの和（すなわち、累積エラー）が、一フレームの半分より大きいか否か（すなわち、＞0.５エラー）か否かが判別される。この例では、現存するエラー（0.０エラー）とタブ７０６のエラー（0.２）の和が一フレームの半分より大きくない。エラーが一フレームの半分より大きくない場合には、処理は、ステップ６０８へ進み、図１５の表に示すようにタブ７０６が保持される。次に、処理は、決定ステップ６１２へ進み、図１４に示す貼り合わせ操作にさらに他のタブが存在するか否かが判別される。他のタブが存在するので、処理は、ステップ６０２へ戻り、現在のタブに関して現存するストリーム・エラーが判別される。図１４に示すように、現在のタブは、今度はタブ７０８である。この段階では、現存するストリーム・エラーは、前のタブ処理操作から持ち越される。
【００９１】
図１５の表に示すように、現存するストリーム・エラーは、今度は0.２となる。ステップ６０２で現在のストリーム・エラーが判別されると、処理は、ステップ６０４へ進み、タブ７０８に関するタブ・エラーが判別される。図１５の表に示すように、タブ７０８に関するタブ・エラーは、0.５である。次に、処理は、決定ステップ６０６へ進み、現存するストリーム・エラー（0.２）とタブ７０８に関するタブ・エラー（0.５）の和が一フレームの半分より大きいか否かが判別される。エラーの和は、0.７（すなわち、＞0.５）であるから、処理は、ステップ６１０へ進み、タブ７０８が落とされる。タブ７０８が落とされた後、新しいストリーム・エラーは、図１５に示すように−0.３となる。
【００９２】
ＳＥＧＭＥＮＴＡに関するタブ−アウトをあらわすタブ７０８が処理されると、処理は、再びステップ６１２へ進み、さらに他の処理すべきタブが存在するか否かが判別される。他の処理すべきタブが存在するので、処理は、ステップ６０２へ戻り、現在のタブは、ＳＥＧＭＥＮＴＢのタブ−イン７１０となる。最後のタブが処理された後の新しいストリーム・エラーは−0.３であるため、タブ７１０が処理されるときの現存するストリーム・エラーは、−0.３となる。次に、処理は、ステップ６０４へ進み、図１５の表に示すように、タブ−イン７１０に関するタブ・エラーは0.４であると判別される。
【００９３】
次に、処理は、決定ステップ６０６へ進み、現存するストリーム・エラーとタブ７１０に関するタブ・エラーの和が一オーディオ・フレームの半分より大きいか否かが判別される。この例では、和は（−0.３＋0.４）0.１であり、一オーディオ・フレームの半分より小さい（すなわち、＜0.５）。したがって、図１５に示すように、タブ７１０は保持される。処理は、再び決定ステップ６１２を続け、再びさらに他の処理すべきタブが存在するか否かが判別される。図１４に示すように、タブ７１２、７１４、７１６、および７２０が上に述べた図１３の処理ステップを通って処理される。各タブが処理されるたびに、各タブを落とすべきかあるいは保持すべきかの判別が行なわれる。上の説明を補うために、図１４に示すＳＥＧＭＥＮＴＡからＳＥＧＭＥＮＴＤに関係する各タブについての計算例を示す図１５を参照されたい。
【００９４】
図１６は、図１３の処理ステップを通って処理された各タブに関して現存するフレーム・エラーを示す線図である。図示のように、タブ・エラーは0.２であったが、最初のタブ７０６が処理された後の現存するストリーム・エラーはゼロである。このようなことが可能となるのは、最初のオーディオ・フレームの開始時間を最初のビデオ・フレームの開始時間に合わせるために全オーディオ構成要素が時間的に前にシフトされるからである。ただし、第二のタブ７０８が処理されると、全オーディオ構成要素の「オーディオ・フレームの２０％」が時間的に前にシフトされる（すなわち、オーディオは、ビデオ構成要素の前のオーディオ・フレームの２０％である）結果、現存するストリーム・エラーは、0.２となる。第三のタブ７１０が処理された後、現存するエラーは−0.３となるが、これは、オーディオ構成要素が、全体として「オーディオ・フレームの３０％」時間的に後にシフトされることを意味する。
【００９５】
補完のために、以下では、特定のタブが処理された後、どのようにしてエラーが「一フレームの半分のエラー」以下に維持されるかを説明する。例を挙げれば、第四のタブ７１２が処理された後、オーディオ構成要素は、オーディオ・フレームの１０％分だけビデオ構成要素より時間的に先に進んでおり、第五のタブ７１４が処理された後、オーディオ構成要素は、オーディオ・フレームの５０％分だけビデオ構成要素より時間的に遅れており、第六のタブ７１６が処理された後、オーディオ構成要素は、オーディオ・フレームの４０％分だけビデオ構成要素より時間的に先に進んでおり、第七のタブ７１８が処理された後、オーディオ構成要素は、オーディオ・フレームの５０％分だけビデオ構成要素より時間的に進んでおり、さらに第八のタブが処理された後、オーディオ構成要素は、オーディオ・フレームの４０％分だけビデオ構成要素より時間的に先に進んでいるような場合が考えられる。
【００９６】
このように、現存するストリーム・エラーが、一オーディオ・フレームの半分を超えることが防がれるため、連続するコピー操作の後、貼り合わされたセグメントの数がいくつであるかにかかわりなく、ビデオ・フレームは、オーディオ・フレームとほぼ同期することになる。上に述べたようにしてオーディオ・フレームを落としたり保持したりして補正を行なわない場合には、オーディオおよびビデオ・セグメントが貼り合わされる度ごとに、累積ストリーム・エラーが大きくなりかつ広がることは理解されよう。その結果、エラーが多数のオーディオ・フレームに相当するまで大きくなると、オーディオ構成要素は、ビデオ・構成要素と同期しなくなり、したがってわけがわからないことになる。すなわち、コピーされたオーディオの内容が、関係するビデオ・フレームの内容とマッチしないことになる。
【００９７】
本発明では、コンピュータ・システムに記憶されたデータを用いてコンピュータが実行するさまざまな操作が用いられる。これらの操作は、物理量の物理的処理を必要とする操作である。通常、これらの量は、記憶、転送、組み合わせ、比較、その他の処理が可能な電気信号または磁気信号の形をとるが、必ずしもそれに限定されるものではない。さらに、行なわれる処理は、生成、識別、判別、または比較などと呼ばれる場合が多い。
【００９８】
本明細書に記載されまた本発明の一部をなす操作は、すべて、有用な機械操作である。本発明は、また、これらの操作を行なうための装置に関するものである。装置は、必要な目的の達成のために特別につくることもできるし、あるいは、コンピュータに記憶されているコンピュータ・プログラムによって選択的に活性化されあるいは構成される汎用コンピュータとすることもできる。特に、本発明の開示内容にもとづいて書かれたコンピュータ・プログラムには、さまざまな汎用機械を用いることもできるし、あるいは、必要な操作を行なうためのより専門的な装置をつくるのが好便な場合もある。本発明の構成例を以下に示す。
【００９９】
図１７は、本発明にもとづく処理を行なうためのコンピュータ・システム８００の例を示すブロック線図である。コンピュータ・システム８００は、デジタル・コンピュータ８０２、表示画面（モニター）８０４、プリンタ８０６、フロッピー・ディスク・ドライブ８０８、ハード・ディスク・ドライブ８１０、ネットワーク・インターフェース８１２、およびキーボード８１４を含む。デジタル・コンピュータ８０２は、マイクロプロセッサ８１６、メモリ・バス８１８、ランダム・アクセス・メモリ（ＲＡＭ）８２０、読み取り専用メモリ（ＲＯＭ）８２２、周辺バス８２４、キーボード・コントローラ８２６を含む。デジタル・コンピュータ８００は、パーソナル・コンピュータ（例えば、ＩＢＭコンパティブルなパーソナル・コンピュータ）、ワークステーション・コンピュータ（例えば、サン・マイクロシステムズまたはヒューレット・パッカードのワークステーション）、あるいは他の種類のコンピュータとすることができる。
【０１００】
マイクロプロセッサ８１６は、汎用デジタル・プロセッサで、コンピュータ・システム８００の操作を制御する。マイクロプロセッサ８１６は、１−チップのプロセッサとすることもできるし、あるいは多数の構成要素で実装することもできる。マイクロプロセッサ８１６は、メモリから検索された命令を用いて、入力データの受信と処理、および出力装置へのデータの出力と表示を制御する。本発明にもとづけば、マイクロプロセッサ８１６の特定の機能として、ＭＰＥＧビデオおよびオーディオ・ストリーム内部での位置付けに関係する処理を補助する機能を挙げることができる。
【０１０１】
メモリ・バス８１８は、マイクロプロセッサ８１６がＲＡＭ８２０およびＲＯＭ８２２にアクセスするために使用する。ＲＡＭ８２０は、マイクロプロセッサ８１６が一般記憶域としてまたスクラッチ・パッド・メモリとして使用し、また、入力データおよび処理ずみデータを記憶するために使用することもできる。ＲＯＭ８２２は、マイクロプロセッサ８１６が実行する命令およびプログラム・コードならびに他のデータを記憶するために用いることができる。
【０１０２】
周辺バス８２４は、デジタル・コンピュータ８０２が入力、出力、および記憶装置にアクセスするために用いられる。記載の実施の形態にあっては、これらの装置は、表示画面８０４、プリンタ装置８０６、フロッピー・ディスク・ドライブ８０８、ハード・ディスク・ドライブ８１０、およびネットワーク・インターフェース８１２を含む。キーボード・コントローラ８２６は、キーボード８１４から入力を受け取り、押された各キーの復号されたシンボルをバス８２８を介してマイクロプロセッサ８１６へ送るために用いられる。
【０１０３】
表示画面８０４は、マイクロプロセッサ８１６によって周辺バス８２４を介して供給されるまたはコンピュータ・システム８００の他の構成要素によって供給されるデータの映像を表示する出力装置である。プリンタ装置８０６は、プリンタとして作動する場合には、紙などの上に映像を供給する。プリンタ装置８０６の代わりにあるいはそれに加えて、プロッター、タイプセッター等々の他の出力装置も使用することができる。
【０１０４】
フロッピー・ディスク・ドライブ８０８およびハード・ディスク・ドライブ８１０は、各種のデータを記憶するために用いることができる。フロッピー・ディスク・ドライブ８０８は、各種データの他のコンピュータ・システムへの移送を容易にし、ハード、ディスク・ドライブ８１０は、記憶されている大量のデータへの高速アクセスを可能にする。
【０１０５】
マイクロプロセッサ８１６は、オペレーティング・システムと組み合わされて、コンピュータ・コードを実行し、データを生成しまた使用する。これらのコンピュータ・コードおよびデータは、ＲＡＭ８２０、ＲＯＭ８２２、またはハード・ディスク・ドライブ８１０に常駐することができる。コンピュータ・コードおよびデータは、また、取りはずし自在のプログラム媒体に常駐し、また、必要なときにはコンピュータ・システム８００にロードまたはインストールすることができる。取りはずし自在のプログラム媒体は、例えば、ＣＤ−ＲＯＭ、ＰＣ−ＣＡＲＤ、フロッピー・ディスク、および磁気テープを含む。
【０１０６】
ネットワーク・インターフェース８１２は、他のコンピュータ・システムに接続されたネットワークを介してデータを送受信するために用いられる。インターフェース・カードまたは類所の装置およびマイクロプロセッサ８１６によって実装された適当なソフトウエアを用いれば、コンピュータ・システム８００を現存のネットワークへ接続し、標準プロトコルにしたがってデータを転送することができる。
【０１０７】
キーボード８１４は、ユーザーがこれを用いてコマンドおよび他の命令をコンピュータ・システムへ入力するものである。本発明に関連して他の種類の入力装置を使用することもできる。例えば、コンピュータ・マウス、トラック・ボール、スタイラス（尖筆）、またはタブレットなどの指示具を用いて、汎用コンピュータの画面上のポインタを操作することもできる。
【０１０８】
本発明は、コンピュータが読み取り可能な媒体上のコンピュータが読み取り可能なコードとして実施することもできる。コンピュータが読み取り可能な媒体とは、データを記憶することができ、そのデータを後にコンピュータ・システムで読み取ることのできる任意のデータ記憶装置を意味する。コンピュータが読み取り可能な媒体としては、例として、読み取り専用メモリ、ランダム・アクセス・メモリ、ＣＤ−ＲＯＭ、磁気テープ、光学データ記憶装置を含む。コンピュータが読み取り可能な媒体は、また、ネットワークで連結された複数のコンピュータ・システムに分散させて、コンピュータが読み取り可能なコードが分散式に記憶され実行されるようにすることもできる。
【０１０９】
上に説明したＭＰＥＧオーディオおよびビデオ規格で、参考資料として本出願に組み込まれるものは以下の通りである。すなわち、（１）「動画および関連するオーディオ情報の総称的符号化：ビデオ」、ＩＳＯ／ＩＥＣ１３８１８−２（"Generic Coding of Moving Pictures and Associated Audio Information: Video," ISO/IEC 13818-2）と題する文書、（２）「デジタル記憶媒体のための、約1.５Ｍビット／秒までの動画および関連するオーディオの符号化」（第１部システム、第２部ビデオ、第３部オーディオ）１１１７１／１１１７２（１９９５／１９９６）（"Coding of Moving Picutres and Associated Audio for Digital Storage Media at up to about 1.5 MBit/s" (Part 1 System, Part 2 Video, Part 3 Audio) 11171/11172 (1995/1996)）、と題する文書、および（３）「動画および関連するオーディオ情報の総称的符号化」、１３８１８−３（"Generic Coding of Moving Pictures and Associated Audio Information" ISO/IEC 13818-3）と題する文書である。上に挙げたＭＰＥＧ規格文書および将来のＭＰＥＧ規格文書は、すべて、スイス国ジュネーブ２０、ＣＨ−１２１１、ＩＳＯ／ＩＥＣ私書箱５６（ISO/IEC Case Postale 56, CH-1211, Geneva 20, Switzerland）に依頼すれば、入手可能である。
【０１１０】
以上、本発明の好ましい実施の形態を詳細に説明したが、本発明は、その精神および範囲を逸脱することなく他の形態で実施できることも理解されよう。説明した実施の形態では分散型アーキテクチャーが記載されている。この種のアーキテクチャーは、特にモジュール構成の面からまた新しい機能の導入の面から多くの効果をもつ。
【０１１１】
例えば、単に、シーカー、復号器、符号器等々多くの同じ構成要素を利用することのできる追加の「差し込み式」オペレータ用具を配設することによって、新しい機能を生成することができる。上に述べたようなアーキテクチャーは、特によく機能すると考えられるが、他のアーキテクチャーを用いても同様な機能を得られることは、理解されよう。したがって、上に述べた例および実施の形態は、単に例示であって本発明を制限するものではなく、本発明は、本明細書に記されている詳細に限定されず、添付の特許請求の範囲内で変換が可能なものである。
【０１１２】
本発明の実施の形態は以下の通りである。
【０１１３】
（１）各オーディオビジュアル・セグメントが、第一のオーディオ・フレーム、順序として前記第一のオーディオ・フレームに続く第二のオーディオ・フレーム、および最後のオーディオ・フレームを含む複数のオーディオ・フレームと、第一のビデオ・フレームおよび最後のビデオ・フレームを含む複数のビデオ・フレームとを有する第一および第二のオーディオビジュアル・セグメントを貼り合わせる方法であって、
前記第一のオーディオビジュアル・セグメントの中の最初のオーディオ・フレームを前記第一のオーディオビジュアル・セグメントの中の前記第一のビデオ・フレームと位置合わせするステップで、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが半フレームより小さい場合には、前記第一のオーディオ・フレームが前記第一のオーディオビジュアル・セグメントからのタブ−イン・オーディオ・フレームに指定され、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが半フレームより大きい場合には、前記第二のオーディオ・フレームが前記第一のオーディオビジュアル・セグメントからのタブ−イン・オーディオ・フレームに指定される前記ステップと、
前記第一および第二のオーディオビジュアル・セグメントを貼り合わせるステップと、を有することを特徴とする方法。
【０１１４】
（２）（１）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる方法であって、さらに、
前記第一のオーディオビジュアル・セグメントからの前記最後のオーディオ・フレームに関係するタブ・エラーが一フレームより小さい場合には、前記最後のオーディオ・フレームが前記第一のオーディオビジュアル・セグメントからのタブ−アウト・オーディオ・フレームに指定されるステップと、
累積ストリーム・エラーが約半フレームより大きい場合には、前記タブ−アウト・オーディオ・フレームを落とすステップと、を有することを特徴とする方法。
【０１１５】
（３）（２）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる方法であって、前記累積ストリーム・エラーは、現存のストリーム・エラーおよび前記タブ・エラーを含むことを特徴とする方法。
【０１１６】
（４）（３）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる方法であって、前記タブ−インおよびタブ−アウト・オーディオ・フレームの各々が落とされて保持された後に前記現存のストリーム・エラーが再計算されることを特徴とする方法。
【０１１７】
（５）（４）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる方法であって、前記最初のオーディオ・フレームの位置合わせに関して前記現存のストリーム・エラーがゼロであることを特徴とする方法。
【０１１８】
（６）（５）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる方法であって、さらに、
前記第一のオーディオビジュアル・セグメントの中の前記最初のオーディオ・フレームを位置合わせするステップの後に、前記第一のオーディオビジュアル・セグメントの中の前記複数のオーディオ・フレームを時間的に前へシフトするステップと、
前記最初のオーディオ・フレームを位置合わせした後に、前記現存のストリーム・エラーを再計算するステップと、を有することを特徴とする方法。
【０１１９】
（７）（３）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる方法であって、さらに、
前記第二のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが一フレームより小さい場合には、第一のオーディオ・フレームが前記第二のオーディオビジュアル・セグメントからのタブ−イン・オーディオ・フレームに指定されるステップと、
前記累積ストリーム・エラーが約半フレームより大きい場合には、前記タブ−イン・オーディオ・フレームを落とすステップと、を有することを特徴とする方法。
【０１２０】
（８）各オーディオビジュアル・セグメントが、第一のオーディオ・フレーム、順序として前記第一のオーディオ・フレームに続く第二のオーディオ・フレーム、および最後のオーディオ・フレームを含む複数のオーディオ・フレームと、第一のビデオ・フレームおよび最後のビデオ・フレームを含む複数のビデオ・フレームとを有する編集された第一および第二のオーディオビジュアル・セグメントを接合する方法であって、
前記第一のオーディオビジュアル・セグメントの中のタブ−イン・オーディオ・フレームを前記第一のオーディオビジュアル・セグメントの中の前記第一のビデオ・フレームと位置合わせするステップで、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが約半フレームより小さい場合には、前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームが、前記タブ−イン・オーディオ・フレームに指定され、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが約半フレームより大きい場合には、前記第一のオーディオビジュアル・セグメントからの前記第二のオーディオ・フレームは、前記タブ−イン・オーディオ・フレームに指定され、
前記第一のオーディオビジュアル・セグメントからの前記第二のオーディオ・フレームが前記タブ−イン・オーディオ・フレームに指定される場合には、前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームが落とされる前記ステップと、
前記第一のオーディオビジュアル・セグメントの中の前記最後のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えるか否かを判別し、前記最後のオーディオ・フレームに関係する前記累積エラーが約半オーディオ・フレームを超えると判別された場合には、前記第一のオーディオビジュアル・セグメントの中の前記最後のオーディオ・フレームを落とすステップと、
前記第二のオーディオビジュアル・セグメントの中の第一のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えるか否かを判別し、前記第一のオーディオ・フレームに関係する前記累積エラーが約半オーディオ・フレームを超えると判別された場合には、前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームを落とすステップとを有し、
それによって、前記第一および第二のオーディオビジュアル・セグメントの複数のオーディオ・フレームが前記第一および第二のオーディオビジュアル・セグメントの複数のビデオ・フレームとほぼ同期することを特徴とする方法。
【０１２１】
（９）（８）に記載の編集された第一および第二のオーディオビジュアル・セグメントを接合する方法であって、前記累積エラーは、現存のストリーム・エラーおよび現在のタブ・エラーを含むことを特徴とする方法。
【０１２２】
（１０）（９）に記載の編集された第一および第二のオーディオビジュアル・セグメントを接合する方法であって、さらに、
前の各タブが落とされたかあるいは保持された後に前記現存のストリーム・エラーを計算するステップとを有することを特徴とする方法。
【０１２３】
（１１）（９）に記載の編集された第一および第二のオーディオビジュアル・セグメントを接合する方法であって、前記第一のオーディオビジュアル・セグメントの前記タブ−イン・オーディオ・フレームに関して前記現存のストリーム・エラーがゼロであり、前記最後のオーディオ・フレームに関係する前記累積エラーを計算するときに、前記タブ−イン・オーディオ・フレームの前記タブ・エラーが前に持ち越されることを特徴とする方法。
【０１２４】
（１２）（１１）に記載の編集された第一および第二のオーディオビジュアル・セグメントを接合する方法であって、さらに、
前記第一のオーディオビジュアル・セグメントの前記第一のオーディオ・フレームが前記タブ−イン・オーディオ・フレームに指定された場合には、前記第一のオーディオビジュアル・セグメントの前記複数のオーディオ・フレームを時間的に前へシフトするステップとを有することを特徴とする方法。
【０１２５】
（１３）（１１）に記載の編集された第一および第二のオーディオビジュアル・セグメントを接合する方法であって、さらに、
前記第一のオーディオビジュアル・セグメントの前記第二のオーディオ・フレームが前記タブ−イン・オーディオ・フレームに指定された場合には、前記第一のオーディオビジュアル・セグメントの前記複数のオーディオ・フレームを時間的に後へシフトするステップとを有することを特徴とする方法。
【０１２６】
（１４）（１１）に記載の編集された第一および第二のオーディオビジュアル・セグメントを接合する方法であって、前記第一および第二のオーディオビジュアル・セグメントの中の前記最後のオーディオ・フレームは、タブ−アウト・オーディオ・フレームに指定されることを特徴とする方法。
【０１２７】
（１５）各オーディオビジュアル・セグメントが、第一のオーディオ・フレーム、順序として前記第一のオーディオ・フレームに続く第二のオーディオ・フレーム、および最後のオーディオ・フレームを含む複数のオーディオ・フレームと、第一のビデオ・フレームおよび最後のビデオ・フレームを含む複数のビデオ・フレームとを有する第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、
前記第一のオーディオビジュアル・セグメントの中の最初のオーディオ・フレームを前記第一のオーディオビジュアル・セグメントの中の前記第一のビデオ・フレームと位置合わせするよう構成されたアライナーを有し、前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが約半オーディオ・フレームより小さい場合には、前記最初のオーディオ・フレームは、前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームであることを特徴とする装置。
【０１２８】
（１６）（１５）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが約半オーディオ・フレームより大きい場合には、前記第一のオーディオビジュアル・セグメントからの前記第二のオーディオ・フレームは、前記最初のオーディオ・フレームであることを特徴とする装置。
【０１２９】
（１７）（１６）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、前記第一のオーディオビジュアル・セグメントからの前記第二のオーディオ・フレームが前記最初のオーディオ・フレームである場合には、前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームが落とされることを特徴とする装置。
【０１３０】
（１８）（１７）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、さらに、
現存のストリーム・エラーと現在のタブに関係するタブ・エラーとを加え合わせるよう構成された累積エラー計算器を有することを特徴とする装置。
【０１３１】
（１９）（１８）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、前記累積エラー計算器が、前記第一のオーディオビジュアル・セグメントの中の前記最後のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えると判別した場合には、前記第一のオーディオビジュアル・セグメントの中の前記最後のオーディオ・フレームが落とされることを特徴とする装置。
【０１３２】
（２０）（１９）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、前記累積エラー計算器が、前記第一のオーディオビジュアル・セグメントの中の前記最後のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームより小さいと判別した場合には、前記第一のオーディオビジュアル・セグメントの中の前記最後のオーディオ・フレームが保持されることを特徴とする装置。
【０１３３】
（２１）（１８）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、前記累積エラー計算器が、前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えると判別した場合には、前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームが落とされることを特徴とする装置。
【０１３４】
（２２）（２１）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、前記累積エラー計算器が、前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームより小さいと判別した場合には、前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームが保持されることを特徴とする装置。
【０１３５】
（２３）（１７）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、前記アライナーが前記第一のオーディオビジュアル・セグメントの前記最初のオーディオ・フレームを位置合わせすると、前記複数のオーディオ・フレームが時間的にシフトされることを特徴とする装置。
【０１３６】
（２４）（２３）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、前記第一のオーディオ・フレームが前記最初のオーディオ・フレームである場合には、前記複数のオーディオ・フレームが時間的に前へシフトされることを特徴とする装置。
【０１３７】
（２５）（２３）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、前記第二のオーディオ・フレームが前記最初のオーディオ・フレームである場合には、前記複数のオーディオ・フレームが時間的に後へシフトされることを特徴とする装置。
【０１３８】
（２６）（１８）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、前記第一のオーディオビジュアル・セグメントの中の前記最初のオーディオ・フレームに関して前記現存のストリーム・エラーがゼロであることを特徴とする装置。
【０１３９】
（２７）（２０）に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、前記第一のオーディオビジュアル・セグメントの中の前記最後のオーディオ・フレームに関して前記現存のストリーム・エラーは、前記第一のオーディオビジュアル・セグメントの中の前記最初のオーディオ・フレームの前記タブ・エラーであることを特徴とする装置。
【０１４０】
（２８）各オーディオビジュアル・セグメントが、第一のオーディオ・フレーム、順序として前記第一のオーディオ・フレームに続く第二のオーディオ・フレーム、および最後のオーディオ・フレームを含む複数のオーディオ・フレームと、第一のビデオ・フレームおよび最後のビデオ・フレームを含む複数のビデオ・フレームとを有する第一および第二のオーディオビジュアル・セグメントを貼り合わせるプログラム命令を含むコンピュータが読み取り可能な媒体であって、
前記第一のオーディオビジュアル・セグメントの中の最初のオーディオ・フレームを前記第一のオーディオビジュアル・セグメントの中の前記第一のビデオ・フレームと位置合わせするプログラム命令で、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが半フレームより小さい場合には、前記第一のオーディオ・フレームが前記第一のオーディオビジュアル・セグメントからのタブ−イン・オーディオ・フレームに指定され、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが半フレームより大きい場合には、前記第二のオーディオ・フレームは前記第一のオーディオビジュアル・セグメントからのタブ−イン・オーディオ・フレームに指定される前記プログラム命令と、
前記第一および第二のオーディオビジュアル・セグメントを貼り合わせるプログラム命令とを有することを特徴とする媒体。
【０１４１】
（２９）複数のオーディオ・フレームと複数のビデオ・フレームとを有するオーディオビジュアル・ファイルからセグメントをコピーする方法であって、
前記セグメントの中の第一のビデオ・フレームに対応するビデオ・ファイルの中でマーク−インの位置を選定するステップで、前記第一のビデオ・フレームは、関係する開始時間を有する前記ステップと、
前記セグメントの中の最後のビデオ・フレームに対応する前記ビデオ・ファイルの中でマーク−アウトの位置を選定するステップで、前記最後のビデオ・フレームは、関係する終了時間を有する前記ステップと、
少なくとも前記第一のビデオ・フレームの開始時間と同程度に早い第一のオーディオ・フレーム開始時間を有する第一のオーディオ・フレームを最初のオーディオ・フレームに指定するステップと、
少なくとも前記最後のビデオ・フレームの終了時間と同程度に遅い第二のオーディオ・フレーム開始時間を有する第二のオーディオ・フレームを最後のオーディオ・フレームに指定するステップと、
前記第一のビデオ・フレームから前記最後のビデオ・フレームまで伸びるビデオ部分および前記最初のオーディオ・フレームから前記最後のオーディオ・フレームまで伸びるオーディオ部分を含む前記オーディオビジュアル・ファイルからセグメントをコピーするステップで、前記セグメントの前記オーディオ部分は、前記セグメントの前記ビデオ部分より長い前記ステップとを有することを特徴とする方法。
【０１４２】
（３０）（２９）に記載のオーディオビジュアル・ファイルからセグメントをコピーする方法であって、前記最初のオーディオ・フレームは、時間的に前記第一のビデオ・フレームに重なり、前記最後のオーディオ・フレームは、時間的に前記最後のビデオ・フレームに重なることを特徴とする方法。
【０１４３】
（３１）（３０）に記載のオーディオビジュアル・ファイルからセグメントをコピーする方法であって、前記指定された最初のオーディオ・フレームは、
前記第一のビデオ・フレームの開始時間に最も近く関係する開始時間を有するマーク−イン・オーディオ・フレームを識別するステップと、
前記マーク−イン・オーディオ・フレームの開始時間が少なくとも前記第一のビデオ・フレームの開始時間と同程度に早い場合には前記マーク−イン・オーディオ・フレームを前記最初のオーディオ・フレームに指定し、前記マーク−イン・オーディオ・フレームの開始時間が前記第一のビデオ・フレームの開始時間より遅い場合には前記マーク−イン・オーディオ・フレームの直前のオーディオ・フレームを前記最初のオーディオ・フレームに指定するステップとによって判別されることを特徴とする方法。
【０１４４】
（３２）（３０）に記載のオーディオビジュアル・ファイルからセグメントをコピーする方法であって、前記指定された最後のオーディオ・フレームは、
前記最後のビデオ・フレームの終了時間に最も近く関係する開始時間を有するマーク−アウト・オーディオ・フレームを識別するステップと、
前記マーク−アウト・オーディオ・フレームの開始時間が少なくとも前記最後のビデオ・フレームの終了時間と同程度に早い場合には前記マーク−アウト・オーディオ・フレームを前記最後のオーディオ・フレームに指定し、前記マーク−アウト・オーディオ・フレームの開始時間が前記最後のビデオ・フレームの終了時間より遅い場合には前記マーク−アウト・オーディオ・フレームの直前のオーディオ・フレームを前記最後のオーディオ・フレームに指定するステップとによって判別されることを特徴とする方法。
【０１４５】
（３３）（２９）に記載のオーディオビジュアル・ファイルからセグメントをコピーする方法であって、さらに、
前記最初のオーディオ・フレームで始まり第一の所定のオーディオ・フレームまで伸び、第二の所定のオーディオ・フレームで始まり前記最後のオーディオ・フレームまで伸びる所定の数のオーディオ・フレームを処理するステップを有することを特徴とする方法。
【０１４６】
（３４）（３３）に記載のオーディオビジュアル・ファイルからセグメントをコピーする方法であって、前記処理ステップは、
前記最初のオーディオ・フレームで始まり前記第一の所定のオーディオ・フレームまで伸びる所定の数のオーディオ・フレームを復号するサブステップと、
前記復号された所定の数のフレームを再符号化するサブステップとを有することを特徴とする方法。
【０１４７】
（３５）（３３）に記載のオーディオビジュアル・ファイルからセグメントをコピーする方法であって、前記処理ステップは、
前記第二の所定のオーディオ・フレームで始まり前記最後のオーディオ・フレームまで伸びる所定の数のオーディオ・フレームを復号するサブステップと、
前記復号された所定の数のフレームを再符号化するサブステップとを有することを特徴とする方法。
【０１４８】
（３６）（３４）に記載のオーディオビジュアル・ファイルからセグメントをコピーする方法であって、前記再符号化された所定の数のフレームは、イン・グル・ファイルとして記憶されることを特徴とする方法。
【０１４９】
（３７）（３５）に記載のオーディオビジュアル・ファイルからセグメントをコピーする方法であって、前記再符号化された所定の数のフレームは、アウト・グル・ファイルとして記憶されることを特徴とする方法。
【０１５０】
（３８）（３３）に記載のオーディオビジュアル・ファイルからセグメントをコピーする方法であって、さらに、
前記処理されたオーディオの間にある所定の数のオーディオ・フレームをミドル・グル・オーディオ・フレームとして識別するステップを有することを特徴とする方法。
【０１５１】
（３９）（３８）に記載のオーディオビジュアル・ファイルからセグメントをコピーする方法であって、前記ミドル・グル・オーディオ・フレームは、入力オーディオビジュアル・ストリームを指すポインタで識別されることを特徴とする方法。
【０１５２】
（４０）複数のオーディオ・フレームと複数のビデオ・フレームとを有するオーディオビジュアル・ファイルからセグメントを切り取るための装置であって、
前記セグメントの中の第一のビデオ・フレームに対応するビデオ・ファイルの中でマーク−インの位置を識別するセレクタで、前記第一のビデオ・フレームは、関係する開始時間を有する前記セレクタと、
前記セグメントの中の最後のビデオ・フレームに対応する前記ビデオ・ファイルの中でマーク−アウトの位置を識別するセレクタで、前記最後のビデオ・フレームは、関係する終了時間を有する前記セレクタと、
第一のオーディオ・フレームが少なくとも前記第一のビデオ・フレームの開始時間と同程度に早い開始時間を有する場合には、前記第一のオーディオ・フレームを最初のオーディオ・フレームに選定するよう構成された最初のオーディオ・フレーム・指示器（デジグネータ）と、
第二のオーディオ・フレームが少なくとも前記最後のビデオ・フレームの終了時間と同程度に遅い開始時間を有する場合には、前記第二のオーディオ・フレームを最後のオーディオ・フレームに選定するよう構成された最後のオーディオ・フレーム・指示器と、
前記第一のビデオ・フレームから前記最後のビデオ・フレームまで伸びるビデオ部分および前記最初のオーディオ・フレームから前記最後のオーディオ・フレームまで伸びるオーディオ部分を含む前記オーディオビジュアル・ファイルからセグメントをコピーするよう構成されたクリッパで、前記セグメントの前記オーディオ部分は、前記セグメントの前記ビデオ部分より時間的に短くない前記クリッパとを有することを特徴とする装置。
【０１５３】
（４１）複数のオーディオ・フレームと複数のビデオ・フレームとを有するオーディオビジュアル・ファイルからセグメントをコピーするためのプログラム命令を含むコンピュータが読み取り可能な媒体であって、
前記セグメントの中の第一のビデオ・フレームに対応するビデオ・ファイルの中でマーク−インの位置を選定するプログラム命令で、前記第一のビデオ・フレームは、関係する開始時間を有する前記プログラム命令と、
前記セグメントの中の最後のビデオ・フレームに対応する前記ビデオ・ファイルの中でマーク−アウトの位置を選定するプログラム命令で、前記最後のビデオ・フレームは、関係する終了時間を有する前記プログラム命令と、
少なくとも前記第一のビデオ・フレームの開始時間と同程度に早い第一のオーディオ・フレーム開始時間を有する第一のオーディオ・フレームを最初のオーディオ・フレームに指定するプログラム命令と、
少なくとも前記最後のビデオ・フレームの終了時間と同程度に遅い第二のオーディオ・フレーム開始時間を有する第二のオーディオ・フレームを最後のオーディオ・フレームに指定するプログラム命令と、
前記第一のビデオ・フレームから前記最後のビデオ・フレームまで伸びるビデオ部分および前記最初のオーディオ・フレームから前記最後のオーディオ・フレームまで伸びるオーディオ部分を含む前記オーディオビジュアル・ファイルからセグメントをコピーするプログラム命令で、前記セグメントの前記オーディオ部分は、前記セグメントの前記ビデオ部分より長い前記プログラム命令とを有することを特徴とする媒体。
【０１５４】
（４２）（４１）に記載のオーディオビジュアル・ファイルからセグメントをコピーするためのプログラム命令を含むコンピュータが読み取り可能な媒体であって、前記最初のオーディオ・フレームは、時間的に前記第一のビデオ・フレームに重なり、前記最後のオーディオ・フレームは、時間的に前記最後のビデオ・フレームに重なることを特徴とする媒体。
【０１５５】
（４３）（４２）に記載のオーディオビジュアル・ファイルからセグメントをコピーするためのプログラム命令を含むコンピュータが読み取り可能な媒体であって、前記指定された最初のオーディオ・フレームは、
前記第一のビデオ・フレームの開始時間に最も近く関係する開始時間を有するマーク−イン・オーディオ・フレームを識別するプログラム命令と、
前記マーク−イン・オーディオ・フレームの開始時間が少なくとも前記第一のビデオ・フレームの開始時間と同程度に早い場合には前記マーク−イン・オーディオ・フレームを前記最初のオーディオ・フレームに指定し、前記マーク−イン・オーディオ・フレームの開始時間が前記第一のビデオ・フレームの開始時間より遅い場合には前記マーク−イン・オーディオ・フレームの直前のオーディオ・フレームを前記最初のオーディオ・フレームに指定するプログラム命令とを与えることによって判別されることを特徴とする媒体。
【０１５６】
（４４）（４２）に記載のオーディオビジュアル・ファイルからセグメントをコピーするためのプログラム命令を含むコンピュータが読み取り可能な媒体であって、前記指定された最後のオーディオ・フレームは、
前記最後のビデオ・フレームの終了時間に最も近く関係する開始時間を有するマーク−アウト・オーディオ・フレームを識別するプログラム指令と、
前記マーク−アウト・オーディオ・フレームの開始時間が少なくとも前記最後のビデオ・フレームの終了時間と同程度に早い場合には前記マーク−アウト・オーディオ・フレームを前記最後のオーディオ・フレームに指定し、前記マーク−アウト・オーディオ・フレームの開始時間が前記最後のビデオ・フレームの終了時間より遅い場合には前記マーク−アウト・オーディオ・フレームの直前のオーディオ・フレームを前記最後のオーディオ・フレームに指定するプログラム指令とを与えることによって判別されることを特徴とする媒体。
【０１５７】
（４５）（４１）に記載のオーディオビジュアル・ファイルからセグメントをコピーするためのプログラム命令を含むコンピュータが読み取り可能な媒体であって、さらに、
前記最初のオーディオ・フレームで始まり第一の所定のオーディオ・フレームまで伸び、第二の所定のオーディオ・フレームで始まり前記最後のオーディオ・フレームまで伸びる所定の数のオーディオ・フレームを処理するプログラム命令を含むことを特徴とする媒体。
【０１５８】
（４６）（４５）に記載のオーディオビジュアル・ファイルからセグメントをコピーするためのプログラム命令を含むコンピュータが読み取り可能な媒体であって、前記処理は、さらに、
前記最初のオーディオ・フレームで始まり前記第一の所定のオーディオ・フレームまで伸びる所定の数のオーディオ・フレームを復号するプログラム命令と、
前記復号された所定の数のフレームを再符号化するプログラム命令とを含むことを特徴とする媒体。
【０１５９】
【発明の効果】
本発明の効果は数多いが、本発明の特に顕著な効果は、ストリーム・エラーが一オーディオ・フレームの約半分を超えることが防がれ、また、連続コピー操作の後に貼り合わされるセグメントの数にかかわらず、ビデオ・フレームとオーディオ・フレームの間でほぼ同期がとられることである。この結果、オーディオ構成要素がビデオ構成要素とほぼ同期した状態を確保しながら、オーディオおよびビデオ・ビット・ストリームを編集する方法および装置を実現することができる。
【図面の簡単な説明】
【図１Ａ】本発明の一実施の形態にもとづいてほぼ同期したオーディオ・構成要素を生成することに関係する処理ステップを説明するために示した多数のオーディオビジュアル・フレーム・シーケンスの例を示す図である。
【図１Ｂ】本発明の一実施の形態にもとづいて図１Ａの表示順序ストリームからコピーされたオーディオビジュアル・セグメントの例を示す図である。
【図２】本発明の一実施の形態にもとづいたオーディオビジュアル・ファイルの編集を示すデータ・フロー・アーキテクチャーの図である。
【図３】本発明の一実施の形態にもとづいたオーディオビジュアル・ファイルの編集の好ましいステップを示すフローチャートである。
【図４】本発明の一実施の形態にもとづいた任意の適当なオペレータのためにオプションでグル・セグメントを生成する方法を示すフローチャートである。
【図５】本発明の一実施の形態にもとづいたコピー・オペレータの実行に関係する処理ステップを示すフローチャートである。
【図６】本発明の一実施の形態にもとづいた図５のミドル・グルの出力に関係する処理ステップを示すフローチャートである。
【図７】本発明の一実施の形態にもとづいた図５のイン・グルの出力に関係する処理ステップを示すフローチャートである。
【図８】本発明の一実施の形態にもとづいた図５のアウト・グルの出力に関係する処理ステップを示すフローチャートである。
【図９】本発明の編集装置によって行なわれる第二のパスの間に要求された出力ストリームを生成することに関係する処理ステップの概要を示すフローチャートである。
【図１０】本発明の一実施の形態にもとづいて入力ソースから引き出されるデータを多重化することに関係する処理ステップの詳細を示す図である。
【図１１】本発明の一実施の形態にもとづいてスティッチャ・オブジェクトによって行なわれる処理ステップの概要を示す図である。
【図１２】本発明の一実施の形態にもとづいてステップ・オブジェクトによって行なわれる処理ステップの詳細を示す図である。
【図１３】本発明の一実施の形態にもとづいてタブを処理することに関係する処理ステップを示すフローチャートである。
【図１４】本発明の一実施の形態にもとづいて貼り合わされる複数のオーディオビジュアル・セグメントを示す線図である。
【図１５】本発明の一実施の形態にもとづく複数のタブ処理計算を示す表である。
【図１６】本発明の一実施の形態にもとづいて処理されるタブの後のオーディオ・フレーム・エラーを示す線図である。
【図１７】本発明の一実施の形態にもとづいてオーディオビジュアル編集ステップを行なうためのコンピューター・システムの例を示すブロック線図である。
【符号の説明】
５０…符号化順序ストリーム、５２…表示順序ストリーム、６０…オーディオビジュアル・セグメント、９−２８…ビデオ・フレーム、５６，５８−６２，６４…オーディオ・フレーム、１００…データ・フロー・アーキテクチャ、１０２…ＭＥＤＩＴエンジン、１０４…コピー・オペレータ、１０６…アプリケーション、１０８…編集リスト、１４０…記憶媒体。

Claims

各オーディオビジュアル・セグメントが、第一のオーディオ・フレーム、順序として前記第一のオーディオ・フレームに続く第二のオーディオ・フレーム、および最後のオーディオ・フレームを含む複数のオーディオ・フレームと、第一のビデオ・フレームおよび最後のビデオ・フレームを含む複数のビデオ・フレームとを有する第一および第二のオーディオビジュアル・セグメントを貼り合わせる方法であって、
前記第一のオーディオビジュアル・セグメントの中のタブ−イン・オーディオ・フレームを前記第一のオーディオビジュアル・セグメントの中の前記第一のビデオ・フレームと位置合わせするステップであって、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが半フレームより小さい場合には、前記第一のオーディオ・フレームを用いて位置合わせを行い、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが半フレームより大きい場合には、前記第二のオーディオ・フレームを用いて位置合わせするステップと、
前記第一および第二のオーディオビジュアル・セグメントを貼り合わせるステップと、
前記第二のオーディオビジュアル・セグメントの中の第一のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えるか否かを判別し、前記第一のオーディオ・フレームに関係する前記累積エラーが約半オーディオ・フレームを超えると判別された場合には、前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームを落とすステップと、を有し、
前記累積エラーは、前記第一のオーディオビジュアル・セグメントのストリーム・エラーおよび前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームのタブ・エラーを含むことを特徴とするオーディオビジュアル・セグメントを貼り合わせる方法。
請求項１に記載の第一および第二のオーディオビジュアル・セグメントを貼り合わせる方法であって、さらに、
前記最後のオーディオ・フレームに関係する累積エラーが約半フレームより大きい場合には、前記第一のオーディオビジュアル・セグメントの中のタブ−アウト・オーディオ・フレームを落とすステップ、を有することを特徴とするオーディオビジュアル・セグメントを貼り合わせる方法。
各オーディオビジュアル・セグメントが、第一のオーディオ・フレーム、順序として前記第一のオーディオ・フレームに続く第二のオーディオ・フレーム、および最後のオーディオ・フレームを含む複数のオーディオ・フレームと、第一のビデオ・フレームおよび最後のビデオ・フレームを含む複数のビデオ・フレームとを有する編集された第一および第二のオーディオビジュアル・セグメントを接合する方法であって、
前記第一のオーディオビジュアル・セグメントの中のタブ−イン・オーディオ・フレームを前記第一のオーディオビジュアル・セグメントの中の前記第一のビデオ・フレームと位置合わせするステップであって、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが約半フレームより小さい場合には、前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームを用いて位置合わせを行い、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが約半フレームより大きい場合には、前記第一のオーディオビジュアル・セグメントからの前記第二のオーディオ・フレームを用いて位置合わせするステップと、
前記第一のオーディオビジュアル・セグメントからの前記第二のオーディオ・フレームが前記タブ−イン・オーディオ・フレームとして位置合わせされる場合には、前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームを落とすステップと、
前記第一のオーディオビジュアル・セグメントの中の前記最後のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えるか否かを判別し、前記最後のオーディオ・フレームに関係する前記累積エラーが約半オーディオ・フレームを超えると判別された場合には、前記第一のオーディオビジュアル・セグメントの中の前記最後のオーディオ・フレームを落とすステップと、
前記第二のオーディオビジュアル・セグメントの中の第一のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えるか否かを判別し、前記第一のオーディオ・フレームに関係する前記累積エラーが約半オーディオ・フレームを超えると判別された場合には、前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームを落とすステップとを有し、
前記累積エラーは、前記最後のオーディオ・フレームを落とすステップの後に存在するストリーム・エラーおよび前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームのタブ・エラーを含むことを特徴とするオーディオビジュアル・セグメントを接合する方法。
各オーディオビジュアル・セグメントが、第一のオーディオ・フレーム、順序として前記第一のオーディオ・フレームに続く第二のオーディオ・フレーム、および最後のオーディオ・フレームを含む複数のオーディオ・フレームと、第一のビデオ・フレームおよび最後のビデオ・フレームを含む複数のビデオ・フレームとを有する第一および第二のオーディオビジュアル・セグメントを貼り合わせる装置であって、
前記第一のオーディオビジュアル・セグメントの中の最初のオーディオ・フレームを前記第一のオーディオビジュアル・セグメントの中の前記第一のビデオ・フレームと位置合わせするよう構成されたアライナーを有し、前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが約半オーディオ・フレームより小さい場合には、前記最初のオーディオ・フレームは、前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームであり、
前記第二のオーディオビジュアル・セグメントの中の第一のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えるか否かを判別し、前記第一のオーディオ・フレームに関係する前記累積エラーが約半オーディオ・フレームを超えると判別された場合には、前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームを落とし、
前記累積エラーは、前記第一のオーディオビジュアル・セグメントのストリーム・エラーおよび前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームのタブ・エラーを含むことを特徴とするオーディオビジュアル・セグメントを貼り合わせる装置。
請求項４に記載のオーディオビジュアル・セグメントを貼り合わせる装置であって、さらに、
前記最後のオーディオ・フレームに関係する累積エラーが約半フレームより大きい場合には、前記第一のオーディオビジュアル・セグメントの中のタブ−アウト・オーディオ・フレームを落とすことを特徴とするオーディオビジュアル・セグメントを貼り合わせる装置。
各オーディオビジュアル・セグメントが、第一のオーディオ・フレーム、順序として前記第一のオーディオ・フレームに続く第二のオーディオ・フレーム、および最後のオーディオ・フレームを含む複数のオーディオ・フレームと、第一のビデオ・フレームおよび最後のビデオ・フレームを含む複数のビデオ・フレームとを有する第一および第二のオーディオビジュアル・セグメントを貼り合わせるプログラム命令を含むコンピュータが読み取り可能な媒体であって、
前記第一のオーディオビジュアル・セグメントの中のタブ−イン・オーディオ・フレームを前記第一のオーディオビジュアル・セグメントの中の前記第一のビデオ・フレームと位置合わせするプログラム命令であって、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが半フレームより小さい場合には、前記第一のオーディオ・フレームを用いて位置合わせを行い、
前記第一のオーディオビジュアル・セグメントからの前記第一のオーディオ・フレームに関係するタブ・エラーが半フレームより大きい場合には、前記第二のオーディオ・フレームを用いて位置合わせするプログラム命令と、
前記第一および第二のオーディオビジュアル・セグメントを貼り合わせるプログラム命令と、
前記第二のオーディオビジュアル・セグメントの中の第一のオーディオ・フレームに関係する累積エラーが約半オーディオ・フレームを超えるか否かを判別し、前記第一のオーディオ・フレームに関係する前記累積エラーが約半オーディオ・フレームを超えると判別された場合には、前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームを落とすプログラム命令と、を有し、
前記累積エラーは、前記第一のオーディオビジュアル・セグメントのストリーム・エラーおよび前記第二のオーディオビジュアル・セグメントの中の前記第一のオーディオ・フレームのタブ・エラーを含むことを特徴とするコンピュータが読み取り可能な媒体。
請求項６に記載のコンピュータが読み取り可能な媒体であって、さらに、
前記最後のオーディオ・フレームに関係する累積エラーが約半フレームより大きい場合には、前記第一のオーディオビジュアル・セグメントの中のタブ−アウト・オーディオ・フレームを落とすプログラム命令、を有することを特徴とするコンピュータが読み取り可能な媒体。