【発明の詳細な説明】
併合ビデオ及びオーディオ・データの同期化の測定及び規制
発明の技術分野
この発明は、一般に、記録及び/又は送信される圧縮ディジタルデータの技術
分野、特に、ビデオ及びオーディオデータを、それ等が単一の圧縮ディジタルデ
ータ流に組み合わされる従い、順次同期化呈示可能化させることに関する。
背景技術
付随する圧縮ディジタル化オーディオデータを伴う圧縮ディジタル化ビデオデ
ータから成る記録及び/又は送信された多数媒体プログラムを適切に再生するに
は、ディジタルデータビット流をビデオデータとオーディオデータの両方を含む
単一同期化順次システムデータ流に組み合わせることを要する。データをシステ
ムデータ流に組み立てるに又は組立システムデータ流を呈示するに際して、ビデ
オデータとオーディオデータが無いか或いはそれ等が不適切に同期化されている
と、しばしば可視画像は付随する音と同期化して現れるものである。例えば、言
葉を話す個人の唇移動を示す画像を呈示しようとすると、それはこれ等の言葉の
可聴音と同期しないことが有る。
以上の問題に答えるべく、移動画像専門家グループ(”MPEG”)基準、標
準化国際機構(”ISO”)及び国際電子技術委員会(”IEC”)基準ISO
/IEC 11172のパート1は、ディジタル化ビデオ及びオーディオデータ
を単一同期化順次システムデータ流に組み合わせることを許容する枠組みを規定
している。一旦単一ディジタルデータ流に組み合わされると、データは、ディジ
タルコンピュータに含まれるハードディスク又はCD−ROM上等のディジタル
記憶装置又はケーブルアンテナテレビ(”CATV”)システム又は高ビットレ
ートディジタル電話システム、例えば、TI、ISDN主要レート又はATM遠
隔通信アクセスに亘るような送信の為に充分適した形式となる。ISO/IEC
11172基準に従って組み立てられたシステムデータ流は、MPEGデコーダ
(復号器)により復号化されて復号化画像及び/又は復号化オーディオサンプル
を得ることが出来る。
MPEG圧縮を規定するISO/IEC11172基準は、圧縮ビデオビット
流及び圧縮オーディオビット流から抽出されたデータのパケットがシステムデー
タ流を組み立てる際に交互配置されるべきと規定している。更に、ISO/IE
C11172基準に従って、システムデータ流は、圧縮ビデオ及び圧縮オーディ
オビット流に加えて、個人保有のパディング流を含むことが出来る。MPEGに
より規定されたシステムデータ流の特性はMPEGエンコーダ(符号器)及びデ
コーダ(復号器)に機能的及び性能要求を課しているが、MPEG基準に特定さ
れたシステムデータ流はMPEG符号器又は復号器に対するアーキテクチャ又は
その具現化を規定していない。事実、ISO/IEC11172基準に従って動
作する符号器及び復号器の可能な設計及び具現化に対して、かなりの自由度が存
在する。ISO/IEC11172基準のパート1に従うシステムデータ流は二
つのデータ層、即ち、圧縮層と圧縮層のディジタルデータを包括するシステムデ
ータ層を含む。ISO/IEC11172システム層はそれ自体、二つの副層、
即ち、「パック層」として識別される多重幅動作の為の層と「パケット層」とし
て識別される流れ特定動作の為の層に分割される。ISO/IEC11172基
準に従うシステムデータ流のパック層に属するパックは、システムクロック基準
(”SCR”)を特定するヘッダーを含む。SCRは、90キロヘルツ(”kH
z”)の期間内で圧縮層に含まれるディジタル化ビデオ及びオーディオデータの
圧縮を開始する意図された時間を固定する。
ディジタル化ビデオ及びオーディオデータの同期化呈示を行う為に、パケット
層を規定するISO/IEC11172基準は「呈示時間スタンプ」(”PTS
”)及び任意復号化時間スタンプ(”DTS”)を提供する。PTSとDTSは
パック層に特定されたSCRに関しビデオ及びオーディオデータ用同期を特定す
る。PSTとDTSの両方を任意に含むパケット層は、ISO/IEC1117
2基準により規定された圧縮層に含まれるデータと独立している。例えば、ビデ
オパケットはビデオ流内のどんなバイトでも開始出来る。しかしながら、PST
と任意のDTSは、各パケットのヘッダーに符号化されていると、そのパケット
で開始する第一の「アクセスユニット」(”AU”)に適用する。
MPEG基準ISO/IEC11172は、AUを「呈示ユニット」(PU)
の符号化表示と定義する。ISO/IEC11172基準は更に、PUを復号化
オーディオAU又は復号化画像と定義している。この基準はまた、オーディオ信
号をコンプレス又はデコンプレスする基準において「層」と呼ばれる三つの異な
る方法を規定する。これ等の方法の二つに対しては、基準はオーディオAUを、
それ自体で復号化され得る符号化オーディオビット流の最小部分として定義する
。第三の方法に対しては、基準はオーディオAUを、前に捕捉された位置と主情
報を用いて復号化可能な符号化オーディオビット流最小部分として定義する。
ISO/IEC11172基準のパート1は、圧縮ビデオ及びオーディオデー
タの同期化呈示の間に、ビデオ画像とオーディオ音の再生が、一つの流、例えば
、ビデオデータ流を調整して他の流、例えば、オーディオデータ流の再生に整合
させるより寧ろ、流タイムクロック(”STC”)と呼ばれるマスタータイムベ
ースに対して両圧縮ディジタルデータの再生に調整することによって同期化され
ることを示唆している。ISO/IEC11172基準は、MPGE復号器のS
TMが復号器のクロック(例えば、SCR、ビデオPTS又はオーディオPTS
)、ディジタル記憶媒体(”DSM”)又はチャネルクロックの一つであるか、
或いはそれが何らかの外部クロックで良いことを示唆している。MPEGシステ
ムデータ流に符号化される多数媒体プログラムのエンドツーエンド同期化は:
a.符号器が、システムデータ流の組立中に、タイムスタンプを埋め込む;
b.ビデオ及びオーディオ復号器が圧縮データと共に埋め込みタイムスタンプ
を受け取る;及び
c.復号器が多数媒体プログラムの呈示を予定するのに際してタイムスタンプ
を用いる
場合に起こる。
MPEG復号器に符号化ビット流はSCRに対して正確な関係を有しているこ
とを伝達する為に、システムデータ流の開始時に起こり且つ該流内で繰り返され
る「システムヘッダー」(”SH”)は、「システム オーディオ ロック フ
ラグ」と「システム ビデオ ロック フラグ」を含む。システム オーディ
オ ロック フラグを1に設定すれば、オーディオサンプリングレートとSCR
の間に特定な一定の関係が存在することを表示する。システム ビデオ ロック
フラグを1に設定すれば、ビデオ画面とレートとSCRの間に特定な一定の関係
が存在することを表示する。これのフラグの何れかを零に設定すれば、対応する
関係が無いことを表示する。
上述のように、ISO/IEC11172基準は、システムデータ流がパディ
ング流を含むことが出来ることを特に規定している。パディング流からシステム
データ流に組み立てられたパケットは、一定の全データ流レートを維持するのに
用いることが出来、セクタ合わせを達成し、或いは復号器バッファーアンダーフ
ローを阻止する。
パディング流に加えて、16バイト迄の「スタッフィング」は各パケット内で
許容される。スタッフィングはパディング流の目的と同様の目的で用いられ、バ
イト(8ビット)合わせが不十分なような応用においてワード(16ビット)又
は長ワード(32ビット)合わせを提供するのに特に有用である。スタッフィン
グは、必要とされるバイト数がパディング流パケットの最小大きさがより小さい
時、パケットを満たす唯一の方法である。
ISO/IEC11172基準のパート2に従って圧縮されたビデオデータの
ビット流は、圧縮ビデオデータの一連のフレームから成る。MPGM圧縮ビデオ
データビット流における一連のフレームは、内部(”I”)フレーム、予測(”
P”)フレーム及び双方向(”B”)フレームを含む。他のどんなデータをも参
照しないMPEG Iフレームを復号化すれば、ビデオデータの全未圧縮フレー
ムが再生される。MPEG Pフレームは、ビデオデータの前の復号化フレーム
を参照することによってのみ、即ち前の復号化Iフレームを参照するか前の復号
化Pフレームを参照してビデオデータの全未圧縮フレームを得るように復号化す
ることが出来る。MPEG Bフレームは、前の及び引き続く参照フレームの両
者を参照することによってのみ、即ち、復号化I又はPフレームの何れかを参照
して、ビデオデータの全未圧縮フレームを得るように復号化することが出来る。
ISO/IEC11172仕様は、画像群(”GOP”)として、Iフレームが
基準となるPフレーム及びBフレームの全てと共に、一つ以上のIフレームを規
定している。
システムデータ流を組み立てるのに際し、実時間MPEG符号器は各システム
データ流の開始時にシステムヘッダーを含まなければならず、そのシステムヘッ
ダーはシステム オーディオ ロック フラグ及びシステム ビデオ ロック
フラグを零(0)か一(1)に設定しなければならない。実時間MPEG符号器
がこれ等のフラグの何れか又は両方は設定されるべきと特定すれば、特定される
全システムデータ流に亘って、オーディオサンプリングレートとSCRの間に且
つビデオ画面レートとSCRの間にそれぞれ一定関係が存在することを適切に保
証する。圧縮オーディオビット流符号器がビデオのフレームが起こるレートに無
関係に動作すれば、システムデータ流にインターリーブ(交互配置)されるべき
符号化データにはこれ等の一定の関係が存在すると云う保証は無い。
発明の開示
本発明の一目的は、可視画像と付随する音の同期化呈示を許容するシステムデ
ータ流を組み立てる方法を提供することにある。
本発明の他の目的は、オーディオサンプリングレートとSCRの間に一定関係
を維持するシステムデータ流を提供することにある。
本発明の他の目的は、ビデオ画像レートとSCRの間に一定関係を維持するシ
ステムデータ流を提供することにある。
簡略して云えば、本発明は、復号器により復号化ビデオ画像と復号化オーディ
オ信号に復号化され得る符号化システムデータ流の実時間組立方法である。特に
、本発明により組み立てられたシステムデータ流は、復号器が復号化ビデオ画像
と実質的に同期して復号化オーディオ信号を呈示するのを許容する。このシステ
ムデータ流は、圧縮オーディオビット流から選ばれたデータのパケットを圧縮ビ
デオビット流から選ばれたデータのパケットで交互配置することによって組み立
てられる。システムデータ流に交互配置される圧縮オーディオビット流は、予め
特定されたオーディオサンプリングレートでサンプルされたオーディオ信号を圧
縮することによって発生される。システムデータ流に交互配置された圧縮ビデオ
ビット流は、予め特定されたビデオフレームレートを有するビデオ信号の一連の
フレームを圧縮することによって発生される。
システムビット流の組立を開始する前に、予め特定されたビデオフレームレー
トにより分割された予め特定されたオーディオサンプリングレートに等しい予期
される符号化オーディオ/ビデオ比が計算される。次いで、システムヘッダー(
”SH”)は、オーディオサンプリングレートとシステムクロック基準(”SC
R”)の間に特定された一定の関係があり且つビデオ画像レートとSCRの間に
特定された一定の関係があることをそれぞれ表示するように設定されたシステム
オーディオ ロック フラグとシステム ビデオ ロック フラグの両方を含
むシステムデータ流に埋め込まれる。次いで、データのパケットは、圧縮オーデ
ィオビット流又は圧縮ビデオビット流の何れかからそれぞれ選ばれシステムデー
タ流に組み込まれる。同期を行う為に、呈示タイムスタンプ(”PTS”)及び
任意復号器タイムスタンプ(”DTS”)が、各パケットと共に、システムデー
タ流に埋め込まれる。
更に、圧縮用受信オーディオ信号の全サンプルのカウントを表す数により分割
された圧縮用受信ビデオ信号のフレーム全数に等しい実際の符号化オーディオ/
ビデオ比が計算される。この実際の符号化オーディオ/ビデオ比を用いて、符号
化フレーム誤差値は次いで、予期される符号化オーディオ/ビデオ比を実際の符
号化オーディオ/ビデオ比から先ず差引いて計算され比の差を得る。次いで、比
の差は圧縮用受信ビデオ信号のフレーム全数で掛け合わされる。
かく計算された符号化フレーム誤差値が予め特定された負の誤差値より小さけ
れば、ビデオ信号の全フレームに対する圧縮ビデオビット流内の全データは次い
で、システムデータ流から除外される。逆に、符号化フレーム誤差値が予め特定
された正の誤差数より大きければ、ビデオ信号の全フレームの第二のコピーに対
する全データは、圧縮ビデオビット流からシステムデータ流に組み込まれる。本
発明のより好ましい実施例においては、予め特定された正の誤差値と予め特定さ
れた負の誤差値の両者は、復号化ビデオ画像の1.5フレームを呈示するのに要
する時間間隔に約等しい時間間隔を表す。
この発明の利点は、より容易に復号化され得るシステムデータ流を発生するこ
とである。
この発明の他の利点は、種々の異なる復号器により復号化され得るシステムデ
ータ流を発生することである。
この発明の他の利点は、比較的簡単な復号器により復号化され得るシステムデ
ータ流を発生することである。
これ等及び他の特徴、目的及び利点は、種々の図面図に例示された好ましい実
施例の以下の詳細な説明から当業技術者に容易に理解されよう。
図面の簡単な説明
図1は、圧縮オーディオビット流から選ばれたパケットを圧縮ビデオビット流
から選ばれたパケットで交互配置しシステムデータ流を組み立てるプロセスを図
表的に描写する図である。
図2は、ビデオ信号の一連のフレームを圧縮ビデオビット流に圧縮するビデオ
符号器、オーディオ信号を圧縮オーディオビット流に圧縮するオーディオ符号器
及び圧縮ビデオビット流から選ばれたパケットを圧縮ビット流から選ばれたパケ
ットで交互配置してシステムビット流を組み立てるマルチプレクサを例示するブ
ロック線図である。
図3は、圧縮オーディオビット流から選ばれたパケットを圧縮ビデオビット流
から選ばれたパケットで交互配置することによって組み立てられたシステムデー
タ流を例示する図である。
図4は、ビデオ信号全フレームに対する全てのデータがシステムデータ流から
省かれる(除外される)べきか、又はビデオ信号の全フレームの第二のコピーに
対する全てのデータがシステム流に組み込まれるべきかを決定するプロセスを具
現化するCプログラム言語で書かれたコンピュータプログラムである。
発明を実施する最良の態様
図1における矢印12aと12bは、圧縮オーディオビット流16から選ばれ
たパケットを圧縮ビデオビット流18から選ばれたパケットと交互配置して連結
パック24から成る直列システムデータ流22を組み立てるプロセスを描写して
いる。ブロック線図に例示されたオーディオ符号器32は、矢印34により図2
に例示されたオーディオ信号を処理することによって、圧縮されたオーディオビ
ット流16を発生する。オーディオ符号器32は、予め特定されたオーディオサ
ンプリングレート(”PSASR”)でオーディオ信号34を先ずディジタル化
し、次いでディジタル化オーディオ信号のディジタル化表示を圧縮することによ
って、圧縮オーディオビット流を発生する。ビデオ符号器36は、予め特定され
たビデオフレームレート(”PSVFR”)を有する、図2に矢印38により例
示されたビデオ信号の一連のフレームをMPEG GOPsに圧縮することによ
って、圧縮されたビデオビット流18を発生する。オーディオ符号器32は、好
ましくは、カリフォルニア州94086サニーベル、イー・アーカス・アベニュ
ー1096所在のFutureTel,Inc.により市販されているオーディ
オ圧縮エンジン・モデルNo.96−0003−0002である。ビデオ符号器
36は、好ましくは、同FutureTel,Inc.により販売されているビ
デオ圧縮エンジン・モデルNo.96−0002−002である。これ等の好ま
しいオーディオ符号器32とビデオ符号器36は、オーディオ信号34を圧縮オ
ーディオビット流16に及びビデオ信号38を圧縮ビデオビット流18にそれぞ
れ実時間で圧縮出来る。
実時間において、システムデータ流マルチプレクサ44は、圧縮オーディオビ
ット流16又は圧縮ビデオビット流18からの圧縮オーディオデータ又は圧縮ビ
デオデータのパケットをそれぞれ繰り返し選び図1に例示されたシステムデータ
流22のパックに交互配置組立を行う。システムデータ流マルチプレクサ44は
、好ましくは、オーディオ符号器32とビデオ符号器36が位置するパーソナル
コンピュータ(図示せず)に含まれるホストマイクロプロセッサによって実行さ
れるコンピュータプログラムである。オーディオ信号34とビデオ信号38をそ
れぞれ圧縮するオーディオ符号器32とビデオ符号器36の製作に際して、ホス
トマイクロプロセッサにより実行されるコンピュータプログラムは指令とデータ
をオーディオ符号器32とビデオ符号器36に転送し、予め特定されたビットレ
ートで圧縮オーディオビット流16と圧縮ビデオビット流を生成する。システム
データ流に埋め込まれる制御データ用に必要とされるオーバーヘッドを収容する
為、圧縮オーディオビット流16と圧縮ビデオビット流18用コンピュータプロ
グラムによって特定されるビットレートの和は、システムデータ流22に対して
特定されるビットレートより僅かに少ない。オーディオ符号器32に圧縮オーデ
ィオ
ビット流16を予め特定されたビットレートで発生するように指令することに加
えて、ホストマイクロプロセッサは、オーディオ符号器32にオーディオ信号3
4をPSASRでディジタル化するように指令する付加制御データをオーディオ
符号器32に転送する。
制御データをオーディオ符号器32とビデオ符号器36に転送しそれ等をして
圧縮オーディオビット流16と圧縮ビデオビット流18をそれぞれ発生させる準
備を為さしめることに加えて、ホストマイクロプロセッサにより実行されるコン
ピュータブログラムはまた、システムデータ流22を組み立てるのに用いられる
ある種のデータを準備する。特に本発明に関して、ホストマイクロプロセッサに
より実行されるコンピュータプログラムは、PSASRとPSVFRを分割する
ことによって、システムデータ流22に対して予測される符号化オーディオ/ビ
デオ比(”EEAVR”)を計算する。
ホストマイクロプロセッサにより実行されるコンピュータプログラムがシステ
ムデータ流22を組み立てる準備を完了した後、システムデータ流マルチプレク
サ44は、圧縮オーディオビット流16又は圧縮ビデオビット流18からのそれ
ぞれのデータのパケットを繰り返し選び、システムデータ流22のパック24に
組み込む。図3に例示されているように、ISO/IEC11172仕様に従う
組立システムデータ流22の各パック24は、予め特定された長さLを有する。
各パック24は、65.538バイト程度の長さLをもつことが出来る。各パッ
ク24は、その特定のパック24に対してシステムクロック基準(”SCR”)
値を含む、図3においてPHで示されたパックヘッダー52で始まる。
システムデータ流22の第一のパック24において、図3にSHで示されたシ
ステムヘッダー54は、パックヘッダー52に直従する。ISO/IEC111
72仕様に従って、システムヘッダー54はまた、システムデータ流22内で各
パック24で繰り返される。システムヘッダー54は、システム オーディオ
ロック フラグ及びシステム ビデオ ロック フラグの両方を含む。ホストマ
イクロプロセッサにより実行されるコンピュータプログラムは、システム オー
ディオ ロック フラグ及びシステム ビデオ ロック フラグを1に設定して
、オーディオサンプリングレートとSCRの間に特定な一定の関係が存在し且つ
ビ
デオ画像レートとSCRの間に特定な一定の関係が存在することをそれぞれ表示
する。
一つがパック24に含まれていれば、パックヘッダー52とシステムヘッダー
54に引き続いて、図3に例示された各パック24の残りは、圧縮オーディオビ
ット流16又は圧縮ビデオビット流18の何れかからシステムデータ流マルチプ
レクサ44により選ばれたデータのパケット56を含む。各パケット56は、図
示しないパケットを含み、これは呈示タイムスタンプ(”PTS”)を含むこと
が出来、ISO/IEC11172仕様に従って任意の復号化タイムスタンプ(
”DTS”)も含むことが出来る。
図示されていないが、この発明によるシステムデータ流22はまた、パディン
グ流のパックを含むことが出来る。ISO/IEC11172仕様下で許容され
ているように、システムデータ流マルチプレクサ44はパディング流からのパッ
クをシステムデータ流22に組立て、一定の全データレートを維持し、セクタ合
わせを達成し、或いは復号器バッファーアンダーフローを阻止するようにするこ
とがある。
好ましいオーディオ符号器32は、オーディオ信号34を予め特定されたサン
プリングレートでディジタル化することによってオーディオビット流16を圧縮
し、次いで、ディジタル化されたオーディオ信号を圧縮し予め特定されたビット
レートで圧縮オーディオビット流16を発生するので、好ましいオーディオ符号
器32により発生された圧縮オーディオビット流16は、SCR、STS及びD
TSをシステムデータ流22のパック24に割り当てる安定したタイミング基準
を固有に提供する。比較によれば、ビデオ信号38がビデオカセットをビデオカ
セットレコーダ(”VTR”)上で再生し又はレーザーディスクをレーザーディ
スク上で動作させる場合には、ビデオ信号のフレームレートの変動故に、ビデオ
信号のフレームレートはSCR,PTS及びDTSを割り当てる安定したタイミ
ング基準を提供しない。
システムデータ流22の組立中に、ホストマイクロプロセッサにより実行され
るコンピュータプログラムは、圧縮オーディオビット流16又は圧縮ビデオビッ
ト流18から選ばれたパケット56に加えてオーディオ符号器32とビデオ符号
器36からのデータを取り込む。特に、システムデータ流マルチプレクサ44は
、オーディオ符号器32内の位置62からオーディオ符号器32が圧縮用に受信
したオーディオ信号の全サンプル(”NOS”)の走行サンプルを表す数を取り
込む。同様に、システムデータ流マルチプレクサ44はまた、ビデオ符号器36
内の位置64からビデオ符号器36が圧縮用に受信したビデオ信号38の全フレ
ーム数(”NOF”)の走行カウントを取り込む。ホストマイクロプロセッサに
より実行されるコンピュータプログラムは、これ等二つの値を出来るだけ時間的
に近接して取り込む。次いで、システムデータ流マルチプレクサ44は、NOS
をNOFで分割し実際の符号化オーディオ/ビデオ比(”AEAVR”)を得る
。
次いで、システムデータ流マルチプレクサ44は、先ずAEAVRから前に計
算されたEEAVRを差し引いて比(”DOR”)の差を得る。次いで、DOR
はNOFにより掛け合わされ符号化フレーム誤差値(”EFEV”)を得る。E
FEVは、予め特定されたオーディオサンプリング比に基づいて、システムデー
タ流22に組み立てられたNOFに対する実際の時間とシステムデータ流22に
組み立てられたNOFに対する予測時間の時間差を表す。
かく計算されたEFEVが、圧縮ビデオビット流18に組み立てられたNOF
に対する実際の時間が圧縮ビデオビット流18より予め特定された負の誤差値(
”PSNEV”)以上に大きいと云う理由で、PVNEVより小さければ、シス
テムデータ流マルチプレクサ44はシステムデータ流22から、圧縮ビデオビッ
ト流18における全Bフレームに対する全てのデータを省く(除外する)。EF
EVが、圧縮ビデオビット流18に組み立てられたNOFに対する実際の時間が
圧縮ビデオビット流18に組み立てられたNOFに対する予測時間より予め特定
された正の誤差値(”PSPEV”)以上少ないと云う理由で、PSPEVより
大きければ、システムデータ流マルチプレクサ44は、圧縮ビデオビット流18
における全Bフレームに対する全てのデータの第二のコピーをシステムデータ流
22に組み込む。
PSNEV及びPSPEVに対する好ましい値は、復号化ビデオ画像の1.5
フレームの呈示に対して要求される時間間隔を表す。かくして、EFEVの大き
さが復号化ビデオ画像の1.5フレームの呈示に必要とされる時間間隔を超える
時間間隔を表す場合にのみ、圧縮ビデオビット流18内の全Bフレームがシステ
ムデータ流22から省かれ、或いは圧縮ビデオビット流18内の全Bフレームの
第二のコピーがシステムデータ流22に組み立てられるのである。
ISO/IEC11172のパート2に従うシステムデータ流22内の各フレ
ームは付番されるので、システムデータ流マルチプレクサ44がシステムデータ
流22から圧縮ビデオビット流18における全Bフレームに対する全てのデータ
を省く場合、システムデータ流マルチプレクサ44は、現在のGOPにおける全
ての引き続くフレームに、それ等をシステムデータ流22に組み立てる前に、従
って再付番しなければならない。それに対応して、システムデータ流マルチプレ
クサ44がシステムデータ流22に圧縮ビデオビット流18内の全Bフレームに
対する全てのデータの第二のコピーを組み込む場合には、システムデータ流マル
チプレクサ44は従ってそのフレームに付番し且つ現在のGOPから引き続く全
フレームに再付番になければならない。
図4は、ビデオ信号38の全フレームに対する全てのデータがシステムデータ
流22から省かれるべきか、或いはビデオ信号38の全フレームの第二のコピー
に対する全てのデータがシステムデータ流22に組み込まれるべきかを決定する
プロセスを具現化する、Cプログラム言語で書かれたコンピュータプログラムで
ある。図4におけるライン番号1−8は、オーディオ符号器32内の位置62及
びビデオ信号64内の位置からのカウントを取り込みNOF及びNOSに対する
値を設定する。図4におけるライン番号13−16は、EFEVの計算を具現す
る。図4におけるライン番号21−22は低域フィルタをEFEVに適用する。
図4におけるライン番号26−36は、ビデオ信号38の全フレームに対する全
てのデータがシステムデータ流22から省かれるべきか、或いはビデオ信号38
の全フレームの第二のコピーに対する全てのデータがシステムデータ流22に組
み込まれるべきかを決定する。
産業上適用性
圧縮ビデオビット流18に対するビットレートを設定するのに、ホストマイク
ロプロセッサにより実行されるコンピュータプログラムは、そのビットレートを
、
システムデータ流22に対する所望の基準ビットレート差引圧縮オーディオビッ
ト流16に対する予め特定されたビットレート以下約1%に設定する。圧縮ビデ
オビット流18に対するビットレートを所望の基準ビットレート以下1%に設定
すると、圧縮オーディオビット流16と圧縮ビデオビット流18に対するビット
レートの和にシステムデータ流22のオーバーヘッドを加えたものが、たとえ圧
縮ビデオビット流18内の全Bフレームに対する全てのデータの第二のコピーが
システムデータ流22にたまたま組み込まれようと、システムデータ流22に対
する最大ビットレートを決して超えることがないと云う充分な安全余裕が得られ
る。
システムデータ流マルチプレクサ44は、それがシステムデータ流22を数分
間組み立てた後にのみ、システムデータ流22からのBフレームの省略(除外)
又はシステムデータ流22に対するBフレームの付加をして開始する。システム
データ流マルチプレクサ44は、誤動作を避ける為、短い時間間隔、Bフレーム
の省略又は付加を禁止する。システムデータ流22の始めの数分間中のかかるB
フレームの誤動作省力又は付加は、NOSに対する一つの比較的小数をNOFに
対する他の比較的小数により分割する結果である。両オーディオ符号器32とビ
デオ符号器36の動作をそれぞれ起動させる、ホストマイクロプロセッサにより
実行されるコンピュータプログラムから送られる指令がオーディオ符号器32と
ビデオ符号器36の両者で実行されるマイクロコードを生じ、それが位置62に
あるカウントと位置64にあるカウントを零にリセットするので、始めの数分間
の動作中に小数がNOSとNOFに対して起こる。数分間の時間間隔の後、カウ
ントNOSとカウントNOFは充分に大きくなり、引き続くDORsは一GOP
から次のGOPに対してそれ程顕著には変化しない。
システムデータ流22の始めの数分間の短い時間の間、Bフレームの省略(除
外)と付加を完全に禁止することに加えて、Bフレームがシステムデータ流22
から省かれる(除外される)べきか、或いはBフレームがシステムデータ流22
に付加されるべきかを決定するEFWVをテストする前に、低域フィルタがEF
EVに適用されBフレームの誤動作除外又は付加を更に禁止する。低域フィルタ
をEFEVに適用すると、EEAVRとAEAVR間の差における長時間傾向に
のみ応答して、且つ、NOSとNOFの値の変動によらず、多分一つのGOP中
のNOS又はNOFの何れかの一つの値の読み取り及び直前又は直後のGOP中
のNOF又はNOSの何れかの対応する値の読み取りによらず、Bフレームのシ
ステムデータ流22からの省略又はBフレームのシステムデータ流22への付加
が保証される。
EFEVに適用される好ましい低域フィルタは、非対称応答を有する。即ち、
低域フィルタの特性により、フィルタの出力値は、それがEFEVに対する非零
値に応答して零から離れるのより速やかに、EFEVに対する零値に応答して零
に帰還する。低域フィルタに採用される実際の応答時間は、半経験的に決定され
る。更に、システムデータ流マルチプレクサ44が圧縮ビデオビット流18のフ
レームをシステムデータ流からから省くか或いはそれに付加するならば、低域フ
ィルタの出力値は任意に零に設定される。低域フィルタの出力値を零に設定すれ
ば、直続するMPEG GOPsの処理中に、圧縮ビデオビット流18の全フレ
ームの省略又は圧縮ビデオビット流18の全フレームの付加がより禁止されるよ
うになる。
本発明に従って、好ましいオーディオ符号器32、好ましいビデオ符号器36
及びシステムデータ流マルチプレクサ44の組み合わせは、事実上、如何なる所
望のデータ流22をも直接及び如何なる介在処理動作無しに組み立てることを許
容する。例えば、オランダ国、ジェービー・アインドホーフェン5600、P.
O.Box80002、ビルディングSA−1のフィリップス・コンシューマー
・エレクトロニクス、コーディネーション・オフィス&磁気媒体システムは、「
ホワイト・ボックス」仕様と口語的に言及されるビデオCDに対する仕様を確立
した。フィリップスのホワイト・ボックス基準は、毎秒1,151.929.1
ビットの圧縮ビデオビット流18に対する最大ビットレート、44.1kHzの
オーディオサンプリングレート及び毎秒224キロビットのオーディオビットレ
ートを特定する。フィリップスのホワイト・ボックス基準はまた、オーディオパ
ケットを2279バイト長とし、一方、ビデオパケットは2296バイト長を有
し且つシステムデータ流22は毎秒75パックのパックレートを有するとしてい
る。好ましいオーディオ符号器32及び好ましいビデオ符号器36と関連して
動作する本発明によるシステムデータ流マルチプレクサ44は、システムデータ
流22を、安定して特定された圧縮オーディオビット流16と圧縮ビデオビット
流18からフィリップスのホワイト・ボックス基準に従って、また如何なる介在
動作も無く、直接組み立てることが出来る。
本発明は以上、現在のところ好ましい実施例に付いて記載されたが、か
かる開示は純粋に例示的なものであり、限定的に解釈されるべきでないことが理
解されるべきである。従って、発明の精神と範囲を逸脱することなく、本発明の
種々の変更、修正及び/又は代替的応用は、疑いも無く、以上の開示を読了した
当業技術者に示唆されるであろう。従って、以下の請求項は、本発明の真の精神
と範囲内に該当する全ての変更、修正又は代替的応用を包括するものと理解され
るべきことが意図されるものである。DETAILED DESCRIPTION OF THE INVENTION
Measurement and regulation of synchronization of merged video and audio data
TECHNICAL FIELD OF THE INVENTION
The present invention generally relates to techniques for recording and / or transmitting compressed digital data.
Field, and in particular, video and audio data,
The present invention relates to enabling synchronized presentation in accordance with data flow.
Background art
Compressed digitized video data with accompanying compressed digitized audio data
To properly reproduce recorded and / or transmitted multi-media programs consisting of data
Contains digital data bit stream including both video and audio data
Requires combining into a single synchronized sequential system data stream. System data
When assembling to a data stream or presenting an assembled system data stream,
Audio data and audio data are missing or improperly synchronized
Often, the visible image appears in synchronization with the accompanying sound. For example, say
If you try to present an image that shows the movement of the lips of a leaf-speaking individual,
May not be synchronized with audible sound.
In order to answer the above questions, the Moving Image Experts Group ("MPEG")
International Organization for Standardization ("ISO") and International Electrotechnical Commission ("IEC") Standard ISO
/ IEC 11172 Part 1 digitized video and audio data
Stipulates a framework that allows to combine data into a single synchronized sequential system data stream
doing. Once combined into a single digital data stream, the data is digitized.
Digital on hard disk or CD-ROM included in the computer
Storage device or cable antenna television ("CATV") system or high bit-rate
Digital telephone systems such as TI, ISDN major rate or ATM remote
It is a format well suited for transmissions over remote communications access. ISO / IEC
The system data stream assembled according to the 11172 standard is an MPEG decoder
(Decoder) decoded image and / or decoded audio sample
Can be obtained.
The ISO / IEC 11172 standard that defines MPEG compression is based on compressed video bits.
Packets of data extracted from the stream and compressed audio bit stream
Stipulate that they should be interleaved when assembling the flow. Furthermore, ISO / IE
In accordance with the C11172 standard, system data streams are compressed video and compressed audio
In addition to the obbit stream, it can include privately owned padding streams. MPEG
The characteristics of the system data stream specified by the MPEG encoder (encoder) and the data
It imposes functional and performance requirements on the coder (decoder), but does not
The system data stream that has been created is based on the architecture for the MPEG encoder or decoder or
It does not specify its implementation. In fact, it works according to the ISO / IEC 11172 standard.
There is considerable freedom in the possible design and implementation of encoders and decoders that make
Exist. The system data stream according to Part 1 of the ISO / IEC 11172 standard is
System data that includes two data layers, namely, the compression layer and the digital data of the compression layer.
Data layer. The ISO / IEC 11172 system layer itself has two sub-layers:
That is, a layer for multi-width operation identified as a “pack layer” and a “packet layer”
Are divided into layers for the flow identification operation identified. ISO / IEC11172 units
Packs belonging to the pack layer of the system data flow according to the standard are based on the system clock reference.
("SCR"). SCR is 90 kilohertz ("kHz")
z ″) of the digitized video and audio data contained in the compression layer during the period
Fix the intended time to start compression.
Packets are used to provide synchronized presentation of digitized video and audio data.
The ISO / IEC 11172 standard that defines layers is "presentation time stamp" ("PTS
") And an optional decoding time stamp (" DTS ").
Specifies the synchronization for video and audio data for the SCR specified in the pack layer
You. The packet layer optionally including both PST and DTS is ISO / IEC1117
It is independent of the data contained in the compression layer specified by the two standards. For example, bidet
An packet can start with any byte in the video stream. However, PST
And any DTS is encoded in the header of each packet,
To the first "access unit" ("AU").
The MPEG standard ISO / IEC 11172 describes AU as a "presentation unit" (PU)
Is defined as an encoded representation of ISO / IEC 11172 standard further decodes PU
It is defined as an audio AU or a decoded image. This criterion also covers audio signals.
The three different standards referred to as “layers” in the standards for compressing or decompressing
Stipulates how to For two of these methods, the criteria are audio AU,
Define as the smallest part of the encoded audio bit stream that can be decoded by itself
. For the third method, the criteria are the audio AU, the previously captured location and
Is defined as the minimum part of the encoded audio bit stream that can be decoded using the information.
Part 1 of the ISO / IEC 11172 standard is for compressed video and audio data.
During the synchronized presentation of data, the playback of video images and audio
Adjust the video data stream to match the playback of other streams, for example, audio data stream
Rather than letting it run, a master time clock called the “stream clock” (“STC”)
Synchronized to the playback of both compressed digital data
Suggests that The ISO / IEC 11172 standard defines the MPGE decoder S
TM is the decoder clock (eg, SCR, video PTS or audio PTS)
), A digital storage medium ("DSM") or one of the channel clocks;
Or it suggests that some external clock is fine. MPEG system
The end-to-end synchronization of a multi-media program encoded in a data stream is:
a. The encoder embeds a timestamp during assembly of the system data stream;
b. Video and audio decoder embedded time stamp with compressed data
Receive; and
c. Timestamps when the decoder schedules the presentation of multiple media programs
Use
What happens if.
Make sure that the encoded bit stream has an accurate relationship to the SCR for the MPEG decoder.
Occurs at the beginning of the system data stream and is repeated within the stream to communicate
“System Header” (“SH”) audio Lock H
Lag and system video Lock Flags ". system Audio
Oh Lock If the flag is set to 1, the audio sampling rate and SCR
Indicates that there is a certain constant relationship between system video Lock
If the flag is set to 1, a certain fixed relationship between video screen, rate and SCR
To indicate that exists. If any of these flags are set to zero, the corresponding
Indicates that there is no relationship.
As mentioned above, the ISO / IEC 11172 standard states that system data streams
In particular, it stipulates that the flow can include lingering streams. System from padding style
Packets assembled into a data stream are required to maintain a constant overall data stream rate.
Can be used to achieve sector alignment, or
Prevent low.
In addition to the padding style, up to 16 bytes of "stuffing" is included in each packet.
Permissible. Stuffing is used for a purpose similar to that of the padding style.
In applications where alignment (8 bits) is not sufficient, word (16 bits) or
Is particularly useful for providing long word (32 bit) alignment. Staffin
If the required number of bytes is smaller than the minimum size of the
Sometimes, the only way to fill a packet.
Video data compressed according to Part 2 of the ISO / IEC 11172 standard
A bit stream consists of a series of frames of compressed video data. MPGM compressed video
The sequence of frames in the data bit stream is an internal ("I") frame, a prediction ("
P ") frame and bidirectional (" B ") frame.
Decoding MPEG I-frames that do not illuminate all uncompressed frames of video data
Is played. MPEG P-frame is a decoded frame before video data
By referencing only the previous decoded I-frame or the previous decoded
Decoding to obtain all uncompressed frames of video data with reference to the
Rukoto can. An MPEG B frame contains both the previous and subsequent reference frames.
Only by referencing the decoder, ie, referencing either the decoded I or P frame
Then, it can be decoded to obtain all the uncompressed frames of the video data.
According to the ISO / IEC11172 specification, an I frame is defined as an image group ("GOP").
One or more I-frames are defined along with all of the reference P- and B-frames.
I have decided.
In assembling the system data stream, the real-time MPEG encoder
The system header must be included at the start of the data stream and the system header
Dar is a system audio Lock Flags and systems video Lock
The flag must be set to zero (0) or one (1). Real-time MPEG encoder
Is specified if it specifies that one or both of these flags should be set
Over the entire system data stream, between the audio sampling rate and the SCR and
To ensure that a fixed relationship exists between the video screen rate and the SCR.
Testify. The compressed audio bitstream encoder has no effect on the rate at which frames of video occur.
Should be interleaved with the system data stream if it works in relation
There is no guarantee that these fixed relationships exist in the encoded data.
Disclosure of the invention
An object of the present invention is to provide a system data that allows synchronized presentation of a visual image and accompanying sound.
It is to provide a method for assembling a data flow.
Another object of the invention is to provide a fixed relationship between the audio sampling rate and the SCR.
The purpose is to provide a system data flow that maintains
It is another object of the present invention to maintain a constant relationship between video image rate and SCR.
It is to provide a stem data stream.
Briefly stated, the present invention provides a method for decoding a decoded video image and a decoded audio by a decoder.
A method for real-time assembly of an encoded system data stream that can be decoded into an e-signal. Especially
The system data stream constructed according to the present invention is
To present the decoded audio signal substantially in synchronism with the audio signal. This system
The stream of data consists of packets of data selected from the compressed audio bit stream.
Assembled by interleaving packets of data selected from the deobit stream
I can The compressed audio bit stream interleaved with the system data stream
Compresses an audio signal sampled at a specified audio sampling rate.
It is generated by shrinking. Compressed video interleaved with system data stream
The bit stream is a series of video signals having a pre-specified video frame rate.
Generated by compressing a frame.
Before starting to assemble the system bit stream, the video frame
Expectation equal to a pre-specified audio sampling rate divided by
An encoded audio / video ratio to be calculated is calculated. Then the system header (
"SH") is the audio sampling rate and system clock reference ("SC").
R ") and there is a specified relationship between the video image rate and the SCR
Systems configured to indicate that there is a certain relationship identified
audio Lock Flags and systems video Lock Include both flags
Embedded in the system data stream. The packet of data is then compressed
System data selected from either the
Be incorporated into the stream. In order to perform synchronization, the presentation time stamp ("PTS") and
An arbitrary decoder time stamp ("DTS") is added to the system data along with each packet.
Embedded in the stream.
Furthermore, it is divided by a number representing the count of all samples of the received audio signal for compression.
Of the actual encoded audio / audio equal to the total number of frames of the compressed received video signal
The video ratio is calculated. Using this actual encoded audio / video ratio, the code
The framed frame error value is then used to convert the expected encoded audio / video ratio to the actual code.
The difference is obtained by first subtracting from the encoded audio / video ratio. Then the ratio
Is multiplied by the total number of frames of the received video signal for compression.
If the calculated frame error value is smaller than the previously specified negative error value,
Then, all data in the compressed video bit stream for all frames of the video signal is
And is excluded from the system data stream. Conversely, the coding frame error value is specified in advance.
If the number of positive errors is greater than the given error number, the second copy of all frames of the video signal is
The entire data stream is incorporated into the system data stream from the compressed video bit stream. Book
In a preferred embodiment of the invention, a pre-specified positive error value and a pre-specified
Both negative error values obtained are required to represent 1.5 frames of the decoded video image.
Represents a time interval approximately equal to
An advantage of the present invention is that it produces a system data stream that can be more easily decoded.
And
Another advantage of the present invention is that the system data can be decoded by a variety of different decoders.
Data flow.
Another advantage of the present invention is that the system data can be decoded by a relatively simple decoder.
Data flow.
These and other features, objects and advantages are described in the preferred embodiments illustrated in the various drawing figures.
Those skilled in the art will readily appreciate from the following detailed description of the embodiments.
BRIEF DESCRIPTION OF THE FIGURES
FIG. 1 shows a packet selected from a compressed audio bit stream as a compressed video bit stream.
Figure illustrates the process of assembling the system data flow by interleaving packets selected from
FIG.
FIG. 2 illustrates a video that compresses a series of frames of a video signal into a compressed video bit stream.
Encoder, audio encoder that compresses audio signal into compressed audio bit stream
And packets selected from the compressed video bit stream and packets selected from the compressed bit stream.
Block that illustrates a multiplexer that interleaves the bits to assemble the system bit stream.
It is a lock diagram.
FIG. 3 shows a packet selected from a compressed audio bit stream as a compressed video bit stream.
System data constructed by interleaving packets selected from
It is a figure which illustrates a flow.
FIG. 4 shows that all data for all frames of the video signal are taken from the system data stream.
Should be omitted (excluded) or included in the second copy of every frame of the video signal
Implement a process to determine if all data for
It is a computer program written in the C programming language to be realized.
BEST MODE FOR CARRYING OUT THE INVENTION
Arrows 12a and 12b in FIG. 1 are selected from the compressed audio bit stream 16.
Packets that are interleaved with packets selected from the compressed video bit stream 18 and concatenated
Depicting the process of assembling a serial system data stream 22 consisting of packs 24
I have. The audio encoder 32 illustrated in the block diagram is illustrated in FIG.
By processing the audio signal illustrated in
A cut stream 16 is generated. The audio encoder 32 has a predetermined audio source.
The audio signal 34 is first digitized at the sampling rate ("PSASR")
And then compressing the digitized representation of the digitized audio signal.
Thus, a compressed audio bit stream is generated. The video encoder 36 is specified in advance.
Example with arrow 38 in FIG. 2 having a different video frame rate ("PSVFR")
By compressing a series of frames of the indicated video signal into MPEG GOPs
Thus, a compressed video bit stream 18 is generated. Audio encoder 32 is preferably
Best of all, E-Arcus Avenue, 94086 Sunnybell, California
FutureTel, Inc. Audio marketed by
O Compression engine model No. 96-0003-0002. Video encoder
36, preferably from FutureTel, Inc .; Be sold by
Video compression engine model No. 96-0002-002. Like these
A new audio encoder 32 and video encoder 36 compress the audio signal 34
And the video signal 38 into the compressed video bit stream 18
It can be compressed in real time.
In real time, the system data stream multiplexer 44 provides a compressed audio
Compressed audio data or compressed video data from the stream 16 or the compressed video bit stream 18.
System data illustrated in FIG. 1 by repeatedly selecting packets of video data.
The packs of stream 22 are assembled alternately. The system data stream multiplexer 44
, Preferably where the audio encoder 32 and the video encoder 36 are located.
Executed by a host microprocessor included in a computer (not shown)
Computer program. Audio signal 34 and video signal 38
When producing the audio encoder 32 and the video encoder 36 for compression, respectively,
The computer program executed by the microprocessor is composed of commands and data.
Is transferred to the audio encoder 32 and the video encoder 36, and the bit
A compressed audio bit stream 16 and a compressed video bit stream are generated by a port. system
Accommodates the overhead required for control data embedded in the data stream
For the compressed audio bit stream 16 and the compressed video bit stream 18
The bit rate sum specified by the gram is
Slightly less than the specified bit rate. Compressed audio to audio encoder 32
Io
In addition to instructing bit stream 16 to occur at a pre-specified bit rate,
In addition, the host microprocessor sends the audio signal 3 to the audio encoder 32.
4 is an additional control data for instructing to digitize 4 with PSASR.
Transfer to encoder 32.
Transfer control data to audio encoder 32 and video encoder 36,
The conditions for generating the compressed audio bit stream 16 and the compressed video bit stream 18, respectively.
In addition to provisions, the
The puttable is also used to assemble the system data stream 22
Prepare some data. Particularly with respect to the present invention, the host microprocessor
More executed computer program splits PSASR and PSVFR
This allows the expected encoded audio / video to be
Calculate the video ratio ("EEAVR").
A computer program executed by the host microprocessor is
After the preparation for assembling the data stream 22 is completed, the system data stream multiplex
The signal from the compressed audio bit stream 16 or the compressed video bit stream 18 is
Each data packet is repeatedly selected and stored in the pack 24 of the system data stream 22.
Incorporate. According to the ISO / IEC11172 specification, as illustrated in FIG.
Each pack 24 of the assembly system data stream 22 has a pre-specified length L.
Each pack 24 can have a length L of about 65.538 bytes. Each package
The clock 24 uses the system clock reference ("SCR") for that particular pack 24.
It begins with a pack header 52, indicated by PH in FIG. 3, containing the value.
In the first pack 24 of the system data stream 22, the system indicated by SH in FIG.
The stem header 54 directly follows the pack header 52. ISO / IEC111
In accordance with the G.72 specification, the system header 54 also
Repeated for pack 24. The system header 54 indicates the system audio
Lock Flags and systems video Lock Includes both flags. Hostma
The computer program executed by the microprocessor is a system program. Oh
Dio Lock Flags and systems video Lock Set the flag to 1
There is a certain fixed relationship between the audio sampling rate and the SCR, and
Bi
Indicate that there is a certain fixed relationship between video image rate and SCR
I do.
If one is included in pack 24, pack header 52 and system header
Following 54, the remainder of each pack 24 illustrated in FIG.
From either the stream 16 or the compressed video bit stream 18
Includes a packet 56 of data selected by lexer 44. Each packet 56 is
Include unindicated packets, which include a presentation time stamp ("PTS")
And any decoding timestamp (according to the ISO / IEC11172 specification)
"DTS").
Although not shown, the system data stream 22 according to the present invention also includes padding.
It can include packs of style. Allowed under ISO / IEC11172 specification
As shown, the system data stream multiplexer 44 includes a padding stream from the padding stream.
The data into the system data stream 22 to maintain a constant overall data rate and
Or to prevent decoder buffer underflow.
There is.
The preferred audio encoder 32 converts the audio signal 34 to a pre-specified sample.
Compress audio bitstream 16 by digitizing at pulling rate
And then compresses the digitized audio signal and
Generates a compressed audio bit stream 16 at a rate so that the preferred audio code
The compressed audio bit stream 16 generated by the modulator 32 is composed of SCR, STS and D
Stable timing reference for assigning TS to packs 24 of system data stream 22
Is provided uniquely. By comparison, video signal 38 converts the video cassette to the video cassette.
Play on a set recorder (“VTR”) or insert a laser disc
When operating on a disc, the video frame rate may fluctuate.
The frame rate of the signal is a stable time to assign SCR, PTS and DTS.
Does not provide any testing criteria.
Executed by the host microprocessor during assembly of the system data stream 22
The computer program can be a compressed audio bit stream 16 or a compressed video bit stream.
Audio encoder 32 and video code in addition to packet 56 selected from stream 18
The data from the device 36 is fetched. In particular, the system data stream multiplexer 44
, Audio encoder 32 receives for compression from position 62 in audio encoder 32
Number representing the running samples of all samples ("NOS") of the audio signal
Put in. Similarly, system data stream multiplexer 44 also controls video encoder 36.
Of the video signal 38 received for compression by the video encoder 36 from a location 64 within the
The running count of the number of frames ("NOF") is captured. To host microprocessor
A more executed computer program will use these two values as temporally as possible.
Take in close to. Next, the system data stream multiplexer 44 sets the NOS
Is divided by NOF to obtain the actual coded audio / video ratio ("AEAVR")
.
The system data stream multiplexer 44 then first counts forward from AEAVR.
Subtract the calculated EEAVR to get the difference in ratio ("DOR"). Then, DOR
Are multiplied by NOF to obtain an encoded frame error value ("EFEV"). E
The FEV uses the system data based on the audio sampling ratio specified in advance.
The actual time for the NOF assembled in the data stream 22 and the system data stream 22
The time difference of the predicted time with respect to the assembled NOF is shown.
The EFEV thus calculated is combined with the NOF assembled into the compressed video bit stream 18.
Is the actual time for the negative error value (
If it is smaller than PVNEV, because it is larger than "PSNEV"),
The system data stream multiplexer 44 outputs a compressed video bit from the system data stream 22.
All data for all B frames in the stream 18 are omitted (excluded). EF
EV sets the actual time for the NOF assembled into compressed video bitstream 18
Preliminarily specified from the estimated time for the NOF assembled in the compressed video bit stream 18
Less than the positive error value (“PSPEV”)
If so, the system data stream multiplexer 44 controls the compressed video bit stream 18
A second copy of all data for all B frames in the system data stream
22.
The preferred value for PSNEV and PSPEV is 1.5 for decoded video images.
Represents the time interval required for the presentation of a frame. Thus, the size of the EFEV
Exceeds the time interval required for the presentation of 1.5 frames of the decoded video image
Only when representing a time interval, all B frames in the compressed video bit stream 18 are systematically represented.
Of all B frames in the compressed video bit stream 18
A second copy is assembled into the system data stream 22.
Each frame in the system data stream 22 according to ISO / IEC 11172 Part 2
Since the frames are numbered, the system data stream multiplexer 44
All data for all B frames in stream 22 from compressed video bit stream 18
Is omitted, the system data stream multiplexer 44 provides all the data in the current GOP.
Before assembling them into the system data stream 22 on all subsequent frames,
Must be renumbered. Correspondingly, the system data flow
Wedge 44 converts all B frames in compressed video bit stream 18 into system data stream 22.
Incorporate a second copy of all data for the system data stream
The multiplexor 44 will therefore number that frame and all subsequent frames from the current GOP.
Must be renumbered on the frame.
FIG. 4 shows that all data for all frames of the video signal 38 are system data.
A second copy of all frames of video signal 38 to be omitted from stream 22
To determine if all data for is to be incorporated into the system data stream 22
A computer program written in the C programming language that embodies the process
is there. Line numbers 1-8 in FIG.
And the count from the position in the video signal 64 and take in the NOF and NOS
Set the value. Line numbers 13-16 in FIG. 4 embody the calculation of EFEV
You. Line numbers 21-22 in FIG. 4 apply a low pass filter to the EFEV.
The line numbers 26 to 36 in FIG.
All data should be omitted from the system data stream 22 or the video signal 38
All data for the second copy of all frames of the
Decide if it should be.
Industrial applicability
The host microphone is used to set the bit rate for the compressed video bit stream 18.
Computer programs executed by the microprocessor
,
The desired reference bit rate subtracted compressed audio bit for system data stream 22.
Approximately 1% or less of a bit rate specified in advance for the stream 16. Compressed bidet
Set the bit rate for the obbit stream 18 to 1% below the desired reference bit rate
Then, the bits for the compressed audio bit stream 16 and the compressed video bit stream 18
The sum of the rates plus the overhead of system data stream 22 is equivalent to the pressure
A second copy of all data for all B frames in compressed video bit stream 18 is
If it happens to be incorporated into the system data stream 22,
A sufficient safety margin that the maximum bit rate never exceeds
You.
The system data stream multiplexer 44 divides the system data stream 22 into minutes.
Omission (exclusion) of B frames from system data stream 22 only after assembly
Or, start by adding a B frame to the system data stream 22. system
The data stream multiplexer 44 has a short time interval, B frame
Omission or addition of is prohibited. B taking during the first few minutes of system data stream 22
Malfunction savings or additions of frames can be made by adding one relatively small number to NOS to NOF.
The result is a division by another relatively decimal number. Both audio encoders 32
The host microprocessor activates the operation of the video encoder 36, respectively.
The instructions sent from the computer program to be executed
Produces microcode that is executed by both of video encoders 36, which
Reset the count and the count at position 64 to zero, so the first few minutes
Decimal numbers occur for NOS and NOF during this operation. After a time interval of several minutes, the cow
The count NOS and the count NOF are sufficiently large, and the subsequent DORs are one GOP.
Does not change so noticeably for the next GOP.
For a short time in the first few minutes of the system data stream 22, omission of B frames (excluding
B), and in addition to completely prohibiting the addition, the B frame
Should be omitted (excluded) from the system data stream 22
Before testing the EFWV to determine if it should be added to
Applied to the EV, the elimination or addition of the malfunction of the B frame is further prohibited. Low pass filter
Applying to EFEV, the long-term trend in the difference between EEAVR and AEAVR
Only in one GOP, responding only and irrespective of the variation of NOS and NOF values
During reading of one value of either NOS or NOF and GOP immediately before or after
Irrespective of reading the corresponding value of either NOF or NOS
Omission from system data stream 22 or addition of B frame to system data stream 22
Is guaranteed.
Preferred low-pass filters applied to EFEV have an asymmetric response. That is,
Due to the characteristics of the low-pass filter, the output value of the filter is non-zero with respect to EFEV.
In response to the zero value in response to the zero value,
Return to. The actual response time employed for the low pass filter is determined semi-empirically.
You. In addition, the system data stream multiplexer 44 controls the compression of the compressed video bit stream 18.
If you want to omit or add frames from the system data stream,
The output value of the filter is arbitrarily set to zero. Set the output value of the low-pass filter to zero
For example, during processing of successive MPEG GOPs, all frames of the compressed video bit stream 18
Omission of frames or addition of all frames of the compressed video bit stream 18 is more prohibited.
Swell.
In accordance with the present invention, a preferred audio encoder 32, a preferred video encoder 36
And the combination of the system data stream multiplexer 44 can be used in virtually any location.
Allow the desired data stream 22 to be assembled directly and without any intervening processing operations.
Accept. For example, in the Netherlands, Javi Eindhoven 5600;
O. Box80002, Philips Consumer of Building SA-1
・ Electronics, coordination office & magnetic media system
Establishes specifications for video CDs colloquially referred to as "white box" specifications
did. Philips' white box standard is 1,151.929.1 per second
Maximum bit rate for compressed video bit stream 18 of bits, 44.1 kHz
Audio sampling rate and audio bit rate of 224 kilobits per second
Identify the site. Philips' White Box Standard also states that audio
Video packets are 2279 bytes long, while video packets are 2296 bytes long.
And the system data stream 22 has a pack rate of 75 packs per second.
You. In connection with the preferred audio encoder 32 and the preferred video encoder 36
The operating system data stream multiplexer 44 according to the present invention provides
Stream 22 is a stream of stably identified compressed audio bit stream 16 and compressed video bits
From stream 18 according to Philips white box standards and any intervention
There is no operation and can be assembled directly.
Although the present invention has been described with reference to the presently preferred embodiment,
Such disclosure is purely illustrative and should not be construed as limiting.
Should be understood. Accordingly, without departing from the spirit and scope of the invention,
Various alterations, modifications and / or alternative applications have, without doubt, read the above disclosure.
It will be suggested to those skilled in the art. Therefore, the following claims are claimed by the true spirit of the invention.
And is understood to encompass all changes, modifications or alternative applications falling within the scope.
It is intended to be done.
─────────────────────────────────────────────────────
フロントページの続き
(51)Int.Cl.6 識別記号 FI
H04N 7/04 H04N 7/04 101
7/045 ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 6 Identification code FI H04N 7/04 H04N 7/04 101 7/045