JP2010136041A - 符号化ストリーム伝送方法,符号化ストリーム伝送装置,符号化ストリーム伝送制御プログラムおよびその記録媒体 - Google Patents

符号化ストリーム伝送方法,符号化ストリーム伝送装置,符号化ストリーム伝送制御プログラムおよびその記録媒体 Download PDF

Info

Publication number
JP2010136041A
JP2010136041A JP2008309293A JP2008309293A JP2010136041A JP 2010136041 A JP2010136041 A JP 2010136041A JP 2008309293 A JP2008309293 A JP 2008309293A JP 2008309293 A JP2008309293 A JP 2008309293A JP 2010136041 A JP2010136041 A JP 2010136041A
Authority
JP
Japan
Prior art keywords
audio
video
encoded
code amount
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008309293A
Other languages
English (en)
Other versions
JP4878051B2 (ja
Inventor
Takeshi Nakamura
健 中村
Atsushi Shimizu
淳 清水
Ryuichi Tanida
隆一 谷田
Noboru Harada
登 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008309293A priority Critical patent/JP4878051B2/ja
Publication of JP2010136041A publication Critical patent/JP2010136041A/ja
Application granted granted Critical
Publication of JP4878051B2 publication Critical patent/JP4878051B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】映像符号化において,音声の余剰符号量を映像符号化に利用し,画質を向上させるとともに,デコード遅延時間の増加を抑える。
【解決手段】映像符号化制御部11は,音声符号化部20が映像よりも先行して符号化した音声発生符号量をもとに,映像ストリームの伝送に用いることができる音声の余剰符号量を利用して目標符号量を決め,映像フレーム符号化部12により符号化する。多重化部50は,映像と音声の符号化データを多重化して伝送するが,このとき音声符号化部20が符号化した音声フレームは,遅延バッファ40を用いて,伝送先におけるデコード直前のタイミングで伝送する。
【選択図】図1

Description

本発明は,音声ストリームのビットレートと映像ストリームのビットレートとの和が所定のビットレートの範囲内になるように,音声の発生符号量に応じて映像の符号量を制御して伝送する符号化ストリーム伝送方法,符号化ストリーム伝送装置,符号化ストリーム伝送制御プログラムおよびその記録媒体に関するものである。
一般に,映像ストリームと,音声やデータなどの他のストリームとを多重化して送るような伝送システムでは,映像は,他のストリームとは独立にビットレート制御を行っていた(非特許文献1,2参照)。
特に,ロスレス音声符号化ストリームは,固定ビットレート(CBR:Constant Bit Rate )で伝送されるのに対し,ロッシー映像符号化ストリームは,動きが激しかったり,複雑な絵柄のシーンでは符号量を多くし,単調で動きが少ないシーンでは符号量を少なくして,所定の範囲内で発生符号量を変化させる可変ビットレート(VBR:Variable Bit Rate )の制御が行われている。
ISO/IEC 13818-2 Annex C, ITU-T Recomendation H.264 Annex C 映像情報メディア学会編,"総合マルチメディア選書MPEG",社団法人映像情報メディア学会,(株)オーム社発行,1996.4.20
MPEG−4 ALSのようなロスレス音声符号化ストリームと映像符号化ストリーム(以下,符号化ストリームを単に「ストリーム」ともいう)とを多重化する場合,音声ビットレートの変動が映像ビットレートに比べて無視できないほど大きいことが多い。
したがって,映像と音声の多重化ストリームにおいて,固定で割り当てられていた音声のビットレートのうち,音声符号化データの発生符号量が小さい余剰符号量分を映像符号化に利用することができれば,ビットレートに無駄が生じることがなく,画質の向上に寄与すると考えられる。
しかし,このように音声符号化データの発生符号量の変動分を,映像符号化に有効に利用するために,音声のビットレートに合わせて映像のビットレートを変化させると,音声符号量の変動によって,映像伝送ビットレートが変動するため,それに応じて同じ映像発生符号量でも伝送に要する時間が変動する。
一般にロッシー映像符号化では,ピクチャの種別や絵柄により符号量が変動し,その変動を一定遅延時間内に伝送できる範囲に制御する必要がある。さらに,音声の余剰符号量分のビットレートを映像の伝送に利用した場合には,その余剰符号量によるビットレートの変動分を考慮して,デコーダバッファのアンダーフローおよびオーバーフローが生じないような伝送の制御が必要になる。
デコーダバッファのアンダーフローやオーバーフローが生じないようにする方法としては,あらかじめデコーダのバッファサイズを大きくして,デコード遅延を大きめに設定する方法,もしくは全体の伝送ビットレートを高めにして,オーバーフローが生じそうなときには,フィラーデータ(ヌルパケット)等を挿入して伝送するなどの方法がある。
しかしながら,デコード遅延の許容時間(バッファサイズ)にも限界があり,また伝送ビットレートを高めに設定することは,音声の余剰符号量分のビットレートを映像の伝送に利用して効率的な伝送を実現するという目的にも反することになるため,一定のデコード遅延の制限時間内,および一定の伝送ビットレート内で,上記課題を解決する必要がある。
本発明は,以上の問題点の解決を図り,音声の余剰符号量分のビットレートを映像ストリームの伝送に有効に利用するとともに,デコード遅延が小さくデコーダバッファの破綻が生じない伝送方式を提供することを目的とする。
本発明は,上記課題を解決するため,ロスレス音声符号化ストリームやデータストリーム等の符号化ビットレートを制御できないストリームと,ロッシー映像符号化ストリームとを固定ビットレート(CBR)で多重化する場合に,次のように音声・映像の符号化およびストリームの伝送を制御する。
(1)ある映像ピクチャを符号化する際に,同時刻の音声フレームを先に符号化し,その発生符号量の情報を得てから,映像ピクチャの符号化を行う。
(2)音声フレームの圧縮データを,受信側装置におけるデコード直前のタイミングで伝送する。
これにより,映像ピクチャ符号化時に,その映像ピクチャ復号直前までの映像伝送帯域を確定させることができ,かつ符号化から復号までのデコード遅延時間を短くすることができる。
映像伝送帯域は,TS(Transport Stream)ビットレートから音声伝送帯域を減算することで求まるので,映像ピクチャ符号化直後からデコード直前までの期間に伝送される音声の伝送タイミングと伝送レートを,映像ピクチャ符号化に先立って決める必要があり,上記の(1),(2)を実施することで,これをもっとも効率的に実現することができる。
本発明によってデコード遅延を短縮することができる理由は,以下のとおりである。符号化から復号までの遅延の内訳は,次のように分類することができる。
A:映像・音声符号化時間
B:送信側および受信側のバッファ滞留時間
C:映像・音声デコード
もし,上記(1)を実施しないで,音声フレームの発生符号量を得ずに映像を符号化すると,バッファ・遅延条件が破綻する可能性が生じる。それを回避するには,Bの時間を長くとる必要があり,デコード遅延が大きくなる。
また,上記(2)を行わないで,音声フレームの伝送タイミングを遅くした場合,デコード時に映像の待ちが生じ,Cの時間が増えることになる。一方,上記(2)を行わないで,音声フレームの伝送タイミングを早くした場合,伝送帯域確定のため音声を先行して符号化する必要が生じ,Aの時間が増えることになる。
また,符号化効率が極端に低下しない範囲で音声フレームをできるだけ小さくすることが望ましい。音声フレームを可能な範囲で小さくすることで,音声符号化に要する時間が短くなり,ひいては全体の遅延を短くすることが可能になる。
以上の点を踏まえて,本発明は,符号化ストリームの伝送を次のように制御する。まず,符号化対象の音声信号を,伝送先で同時刻に復号する符号化対象の映像信号よりも先に符号化する。次に,符号化済みの音声発生符号量から映像符号化制御単位(例えばGOPまたはフレーム)の期間における音声の余剰符号量を算出する。こうして算出した余剰符号量の一部または全部を映像符号化制御単位における目標符号量に加え,次に符号化する映像符号化制御単位における目標符号量を決定する。決定された目標符号量に従って,映像符号化制御単位における映像信号を符号化する。符号化の後,符号化結果の映像符号化データと音声符号化データとを多重化して伝送する際に,音声符号化データについては,該音声符号化データの伝送先における復号直前のタイミングで伝送する。
上記本発明において,符号化対象の音声信号を符号化する場合に,伝送先で同時刻に復号する符号化対象の映像信号よりも1映像符号化制御単位の期間分だけ先行して音声信号を符号化するようにすると,映像符号化制御単位における目標符号量の精度を上げることができる。
上記発明において,映像信号を符号化する場合に,音声の余剰符号量に従ってデコーダバッファサイズとデコーダバッファ占有量とを更新し,デコーダバッファが破綻しないかを検証するデコーダバッファ検定を行うようにすることにより,音声の余剰符号量を映像符号化データの伝送に利用することによるデコーダバッファのオーバーフローおよびアンダーフローを効果的に回避することができる。
本発明によれば,映像符号化データと音声符号化データとを多重化した符号化ストリームを,所定のビットレートの範囲内で伝送する場合に,音声の余剰符号量を映像符号化データの伝送に利用し,余分なビットレートを加えずに効率的に多重化することができ,また,デコード遅延を小さくすることができる。すなわち,ストリームバッファサイズ(デコーダバッファサイズ)を小さくすることができる。
以下,本発明の実施の形態を図面を用いながら詳細に説明する。
図1は,本発明の実施例に係る装置の構成例を示す図である。符号化ストリーム送信装置1は,映像を符号化する映像符号化部10と,音声を符号化する音声符号化部20と,信号を遅延させる遅延バッファ30,40と,符号化された音声ストリームと映像ストリームとを多重化して伝送する多重化部50とからなる。
遅延バッファ30は,入力した符号化対象の映像・音声重畳信号のうち映像信号を一時的に保持し,その符号化を音声信号の符号化より遅らせるためのバッファである。映像符号化部10は,映像・音声重畳信号のうち映像信号を遅延バッファ30から入力し,それを符号化して映像ストリームを生成する。
音声符号化部20は,映像・音声重畳信号のうち音声信号を入力し,音声信号を符号化する。この音声の符号化では,音声符号化部20は,遅延バッファ30による遅延によって,映像信号よりも先に音声信号を符号化し,フレーム毎もしくは逐次,音声発生符号量を映像符号化部10に伝達し,また,音声PES出力ビットレートの情報を出力する(PES:Packetized Elementary Stream)。
また,音声符号化部20の出力する音声ストリームは,遅延バッファ40に格納され,遅延バッファ40から受信装置におけるデコード直前のタイミングで音声PESが多重化部50へ出力される。なお,音声PESは,本装置のエンコーダが自律的に出力する構成でも実現可能である。
映像符号化部10は,映像符号化制御部11と,映像フレーム符号化部12と,出力バッファ13とを備える。映像符号化制御部11は,音声符号化部20から音声符号量の情報を取得し,GOP目標符号量およびフレーム目標符号量を算出して映像フレーム符号化部12における符号化の制御を行う。映像フレーム符号化部12は,フレーム目標符号量に従って映像信号を符号化し,符号化された映像ストリームを出力バッファ13に格納する。出力バッファ13に格納された映像ストリームは,多重化部50からの出力可能通知に応じて映像PESとして出力される。
〔実施例1〕
次に,本発明の第1の実施例(実施例1という)を説明する。映像と音声の符号化は並行して行われる。実施例1では,映像フレームiと音声フレームjの表示時刻と表示期間は同じであるとする。
図2は,映像符号化部10における映像符号化処理のフローチャートである。以下の説明において,余剰符号量Rr (i)は,映像フレームi−1のデコード開始時刻から映像フレームiのデコード開始時刻の間に伝送される音声の余剰符号量である。Dは,映像フレームエンコード終了からデコード開始までの時間を映像フレーム数で換算した値である。基準映像ビットレートは,音声余剰符号量が常に0の場合のビットレートとする。すなわち,基準映像ビットレートは,音声フレームの発生符号量が常に最大の場合に確保できる映像ビットレートを指す。n番目のGOP(Group Of Pictures )を,GOP(n)と表す。
まず,映像符号化制御部11は,音声符号化部20から音声発生符号量の情報を受け取り,直前GOP(n−1)と同一の表示期間の音声フレームの余剰符号量やその時点までの映像符号化結果から追加GOP目標符号量Gd (n)を決定する(ステップS101)。
追加GOP目標符号量Gd (n)は,例えば次のようにして決定する。GOP(n−1)の映像フレームと同一表示期間の音声フレームj−M〜j−1について,GOP(n)期間の余剰符号量Gr ′(n)を,次式によって求める。
r ′(n)=Σx=j-M j-1 {Samax−Sa (x)}
ここで,Samaxは,各音声フレームの最大発生符号量,Sa (x)は,x番目の音声フレームの発生符号量である。
この余剰符号量Gr ′(n)の全部または一部を,追加GOP目標符号量Gd (n)とする。余剰符号量Gr ′(n)の一部を,追加GOP目標符号量Gd (n)とする場合,余剰符号量Gr ′(n)を超えない範囲で,追加GOP目標符号量Gd (n)を過去の数映像フレームの平均量子化パラメータや平均量子化ステップなどに応じて,平均量子化パラメータもしくは平均量子化ステップが大きいほど大きい値となるような関数を用いて定めてもよい。
次に,GOP目標符号量G(n)を,GOP内フレーム数N×基準映像ビットレートR/映像フレームレートPと,追加GOP目標符号量Gd (n)と,前のGOPからの繰越符号量の和で求める(ステップS102)。GOP目標符号量G(n)は,次のようになる。
G(n)=N・R/P+Gd (n)+前のGOPからの繰越符号量
GOP目標符号量G(n)が決まったならば,そのG(n)を今後のNフレームに対して配分し,次フレームの目標符号量T(i)を求める(ステップS103)。GOP(n)の目標符号量から,次フレームの目標符号量T(i)を算出する方法としては,例えば次の参考文献1に開示されている方法などがあり,周知技術であるため,ここでの詳細な説明は省略する。
[参考文献1]International Organisation for Standardisation, Test Model Editing Committee, 1993, Test Model 5, April, ISO-IEC/JTC1/SC29/WG11/N0400
次に,目標符号量T(i)が,デコーダバッファ占有量B(i)より大きいかどうかを判定する(ステップS104)。T(i)>B(i)の場合,T(i)=B(i)となるように目標符号量T(i)をデコーダバッファ占有量B(i)でクリッピングする(ステップS105)。
映像符号化制御部11が,以上の処理によって次フレームの目標符号量T(i)を決定すると,映像フレーム符号化部12は,その目標符号量T(i)に従って,映像フレームiを符号化する(ステップS106)。なお,インターレースの場合に,その指定があればフィールド単位で符号化するが,説明を簡単にするため,フィールド単位の符号化の場合も単にフレームの符号化として説明する。
フレームの符号化が終了すると,映像符号化制御部11は,デコーダバッファ占有量B(i)から,フレーム発生符号量S(i)を減算する(ステップS107)。この結果をB* (i)とする。すなわち,B* (i)=B(i)−S(i)とする。
次に,デコーダバッファサイズBmax ()を,下記のように余剰符号量Rr ()で更新する(ステップS108)。
max (i+1)=Bmax (i)−Rr (i−D+1)+Rr (i+1)
また,デコーダバッファ占有量を,下記のように余剰符号量Rr ()で更新する(ステップS109)。
B(i+1)=B* (i)+R/P+Rr (i+1)
次に,デコーダバッファに破綻が生じないかどうかのバッファ検定のため,デコーダバッファ占有量B(i+1)が,デコーダバッファサイズBmax (i+1)より大きいかどうかを判定する(ステップS110)。デコーダバッファ占有量B(i+1)が,デコーダバッファサイズBmax (i+1)より大きい場合,このまま転送したのでは,デコーダバッファのオーバーフローが生じるので,超過分のフィラーデータF(i)を挿入し,デコーダバッファ占有量を,デコーダバッファサイズBmax (i+1)となるように更新する(ステップS111)。
F(i)=B(i+1)−Bmax (i+1)
B(i+1)←B(i+1)−F(i)=Bmax (i+1)
その後,GOP(n)内の全フレームについて符号化が終了したかどうかを判定し,終了していなければ,ステップS103に戻って,全フレームについて符号化が終了するまで同様に処理を繰り返す(ステップS112)。
GOP(n)内の全フレームについて符号化が終了したならば,映像符号化制御部11は,GOP開始時のGOP目標符号量G(n)と,GOP発生符号量との差から,次のGOPへの繰越符号量を決定する(ステップS113)。以下,ステップS101に戻って,次のGOPについて同様に符号化処理を行う。
〔実施例2〕
実施例1では,追加GOP目標符号量Gd (n)を,直前GOP(n−1)と同一の表示期間の音声フレームの余剰符号量やその時点までの映像符号化結果から決定していた。これに対し,実施例2では,これから符号化するGOP(n)と同一の表示期間の音声フレームの余剰符号量やその時点までの映像符号化結果から決定する。
すなわち,実施例2では,図2に示すステップS101の処理が,以下のような処理に置き換わる。映像符号化制御部11は,音声符号化部20から音声発生符号量の情報を受け取り,これから符号化するGOP(n)と同一の表示期間の音声フレームの余剰符号量やその時点までの映像符号化結果から追加GOP目標符号量Gd (n)を,次のように決定する。
GOP(n)の映像フレームと同一表示期間の音声フレームj〜j+M−1についての余剰符号量Gr ′(n)を,次式によって求める。
r ′(n)=Σx=j j+M-1 {Samax−Sa (x)}
ここで,Samaxは,各音声フレームの最大発生符号量,Sa (x)は,x番目の音声フレームの発生符号量である。
この余剰符号量Gr ′(n)の全部または一部を,追加GOP目標符号量Gd (n)とする。余剰符号量Gr ′(n)の一部を,追加GOP目標符号量Gd (n)とする場合,余剰符号量Gr ′(n)を超えない範囲で,追加GOP目標符号量Gd (n)を過去の数映像フレームの平均量子化パラメータや平均量子化ステップなどに応じて,平均量子化パラメータもしくは平均量子化ステップが大きいほど大きい値となるような関数を用いて定めてもよい。
実施例2における以降の処理は,実施例1のステップS102〜S113と同様である。
〔実施例3〕
実施例1,2では,映像フレームiと音声フレームjの表示時刻と表示期間は同じとしていたが,この表示時刻と表示期間は必ずしも同じでなくてもよい。例えば音声フレームが映像フレームの2倍の長さで,映像フレームi〜i+1と音声フレームjとの表示期間が同じであるような場合にも,同様に本発明を実施することができる。
〔多重化処理〕
図1に示す多重化部50の処理フローを,図3に示す。まず,多重化部50は,次に出力する音声PESの出力ビットレートを音声符号化部20から取得する。また,最初に出力する音声TSパケット出力時刻を求める(ステップS201)。この最初の音声TSパケットの出力時刻は,当該音声フレームのデコード時刻の1フレーム期間前の時刻とする。また,次に出力する映像PESのデコード時刻を求める(ステップS202)。
その後,次のTSパケット出力時刻まで待つ(ステップS203)。TSパケット出力時刻間隔は,TSレートより決まる値である。
TSパケット出力時刻になったならば,TSパケット出力時刻にPCR出力可能状態であるかどうかを判定する(ステップS204)。PCR(Program Clock Reference) は,TSのクロック情報である。PCR出力可能状態であれば,PCR−TSパケットを出力する。ここで,当該TSパケット送出時刻のSTCを,PCRとして打刻する。PCR−TSパケットを出力したならば,一定時間後までPCR出力不可能状態にする(ステップS205)。その後,ステップS213に進む。
次に,TSパケット出力時刻にPSI出力可能状態であるかどうかを判定する(ステップS206)。PSIは,TSのプログラム構成情報である。PSI出力可能状態であれば,PSI−TSパケットを出力する。PSI−TSパケットを出力したならば,一定時間後までPSI出力不可能状態にする(ステップS207)。その後,ステップS213に進む。
次に,TSパケット出力時刻に音声TS出力可能状態であるかどうかを判定する(ステップS208)。音声TS出力可能状態であれば,音声TSパケットを1つ出力する。音声PES出力ビットレートから,次に音声TSパケットを出力する時刻を決め,それまで音声TS出力不可能状態にする(ステップS209)。その後,ステップS213に進む。
次に,TSパケット出力時刻に映像PESエンコード終了済みかどうかを判定する(ステップS210)。映像PESエンコード終了済みであれば,映像TSパケットを1つ出力し(ステップS211),ステップS213に進む。
ステップS204,S206,S208,S210の判定条件を満たさない場合,ヌルTSパケットを1つ出力する(ステップS212)。
次に,当該音声PESのTSパケット出力が終了したかどうかを判定し(ステップS213),その出力が終了した場合には,次に出力する音声PESの出力ビットレートを取得し,音声PES出力ビットレートから,次に音声TSパケット出力可能状態にする時刻を求める(ステップS214)。
続いて,当該映像PESのTSパケット出力が終了したかどうかを判定し(ステップS215),その出力が終了した場合には,次に出力する映像PESデコード時刻を求める(ステップS216)。その後,ステップS203に戻り,同様に処理を繰り返す。
以下,本実施例におけるエンコードとストリーム伝送とデコードのタイミングの例を,図面に従って説明する。
図4は,実施例1として説明したように,映像フレームiと音声フレームjの長さが同じ場合の伝送タイミングの例を示す図である。実施例1では,直前GOP(n−1)と同一の表示期間の音声フレームの余剰符号量やその時点までの映像符号化結果から追加GOP目標符号量Gd (n)を決定する例を説明したが,ここでは説明を簡単にするために,同時刻の音声フレームjを先に符号化し,その発生符号量の情報を得て,映像フレームiを符号化するものとして表している。ここで同時刻とは,音声と映像のデコード時刻が同じ時刻であることを意味している。
図4において,横軸が時間軸tであり,時刻は左から右方向へ進むものとする。映像符号化データが伝送されるタイミングは,その時点のデコーダバッファ占有量に応じて異なる。音声フレームjの音声符号化データは,図4に示すように,デコード直前のタイミングで伝送する。すなわち,音声フレームjは,映像フレームi−1デコード開始時刻からフレームiデコード開始時刻までの1フレーム分の時間で伝送する。これにより,音声フレームjと映像フレームiを同時刻にデコードし,デコード遅延を小さくすることができる。
図5は,実施例2と同様に,音声を1GOP分先行して符号化する場合の伝送タイミングの例を示している。この図5に示す例では,音声フレームを1GOP分(例えば15フレーム等)先に符号化し,その発生符号量の情報を得てから,映像符号化制御部11が,基準映像ビットレートに対して追加する追加GOP目標符号量Gd (n)を決定し,それをもとに算出したGOP目標符号量G(n)を各フレームに配分する。
GOP符号化開始時に1GOP分の余剰符号量が判明しているため,GOP目標符号量の妥当性が高まり,GOP内のレート制御が安定する。ただし,音声エンコード開始から映像エンコード終了までの時間が図4の例よりも延び,その分だけ遅延時間が大きくなる。
この場合にも,音声符号化データは,デコード直前のタイミングで,1フレーム分の時間で伝送する。
図6は,実施例3と同様に,音声フレームjの期間が映像フレームiの期間より長い場合の伝送タイミングの例を示している。図6の例では,音声フレームが映像フレームの2倍の長さで,映像フレームi〜i+1と音声フレームjとの表示期間が同じである。音声フレームjの音声符号化データは,デコード直前のタイミングで伝送する。音声フレームが大きいほど,音声エンコード開始から映像エンコード終了までの遅延時間が延びることになる。したがって,音声フレームは,符号化効率が極端に低下しない範囲でできるだけ小さいほうが好ましい。
図7は,本発明の実施例と異なり,音声符号化データの伝送タイミングを早くした場合に遅延が増加することを説明する図である。
図7に示すように,音声フレームjの音声符号化データをデコード直前ではなく,それよりも早めのタイミングで伝送したとする。こうすると,映像フレームiの符号化より前に音声フレームj+1を先に符号化する必要が生じることから,音声フレームjのエンコード開始から映像フレームiのエンコード終了までの遅延時間が延びることになる。本発明の実施例で説明したように,音声フレームjの音声符号化データをデコード直前のタイミングで伝送するようにすれば,図7の場合よりも遅延時間の延びを少なくすることができる。
図8は,本発明の実施例と異なり,同時刻にデコードされる音声フレームjを映像フレームiよりも先に符号化しない場合に遅延が増加することを説明する図である。
図8に示すように,音声フレームjを映像フレームiよりも先に符号化しないで同時に符号化した場合,映像フレームiの符号化では,音声発生符号量がわからないため符号量の制限条件が不明であり,デコーダバッファの破綻が生じないようにするためには,デコード時刻を大きく遅らせる必要が生じる。もしくは,映像フレームiの符号量の制限条件を音声フレームjの発生符号量が最大であるものと仮定して決める必要があるため,画質低下につながることになる。本発明の実施例で説明したように,音声フレームjの音声符号化データを映像フレームiの符号化より先に符号化し,その音声発生符号量を考慮して映像フレームiの目標符号量を決めることにより,図8の場合の問題は解決されることになる。
図9は,本発明の実施例で行うデコーダバッファ検定を説明するための図である。
デコーダバッファにオーバーフローやアンダーフローによる破綻が生じないようにするためには,例えばMPEG−2における可変ビットレート時のVBV(Video Buffer Verifier )の要求する条件やH.264におけるHRD(Hypothetical Reference Decoder)の規格に準拠している必要がある。これをデコーダバッファ検定という。
従来技術では,この仮想的なデコーダバッファサイズは固定した値であったが,本発明の場合には,音声発生符号量に応じてその余剰符号量に相当するビットレートを,映像フレームの伝送に利用するため,実質的にデコーダバッファサイズが変化することになる。したがって,このデコーダバッファサイズの変化を考慮したデコーダバッファ検定を行う。
図9に示す例では,説明の簡素化のため映像フレームiと音声フレームjの表示時刻と表示期間は同じとする。Bmax (i)は,デコーダバッファサイズであり,映像フレームiのエンコード終了時刻から映像フレームiのデコード開始時刻までの間に伝送可能な映像符号量に相当する。デコーダバッファ占有量B(i)は,映像フレームi−1の伝送終了時刻から映像フレームiのデコード開始時刻までの間に伝送可能な映像符号量に相当する。デコーダバッファサイズBmax (i)は,いわば最大デコーダバッファ占有量と考えることができる。
図9(A)〜(C)において,底辺から点線までの高さが基準映像ビットレートである。音声ストリームが固定ビットレート(CBR)の従来方法の場合には,映像符号量を基準映像ビットレート内に収める必要がある。本発明では,音声発生符号量の余剰符号量を映像ストリームの伝送に利用するので,音声フレームj−5〜j+1ごとに各図に凹凸で示されるように,音声発生符号量の変動に応じて実際の映像ビットレートが変化する。
図9(A)に示すデコーダバッファの状態で,図2に示すステップS106による映像フレームiの符号化が終了したとする。このとき,続くステップS107でデコーダバッファ占有量B(i)からフレームiの発生符号量S(i)を減算する。これは,図9(B)に示すB* (i)の算出を意味する。
* (i)=B(i)−S(i)
続く,図2のステップS108では,デコーダバッファサイズを更新する。すなわち,図9(C)に示すBmax (i+1)を次式により算出する。
max (i+1)=Bmax (i)−Rr (i−D+1)+Rr (i+1)
ここで,Rr (i+1)は,映像フレームiのデコード開始時刻から映像フレームi+1のデコード開始時刻の間に伝送される音声の余剰符号量である。Rr (i−D+1)におけるDは,映像フレームのエンコード終了からデコード開始までの時間を映像フレーム数に換算した値であり,図9の例では,D=6となっている。
図2のステップS109では,デコーダバッファ占有量を更新する。すなわち,図9(C)に示すB(i+1)を次式により算出する。次式のRは基準映像ビットレート,Pは映像フレームレートである。
B(i+1)=B* (i)+R/P+Rr (i+1)
以上のようにして算出したデコーダバッファ占有量B(i+1)が,デコーダバッファサイズBmax (i+1)よりも大きくなった場合,デコーダバッファにオーバーフローが生じることになる。したがって,B(i+1)>Bmax (i+1)の場合には,映像フレームi+1の伝送を遅らせるために,超過分のフィラーデータF(i)=B(i+1)−Bmax (i+1)を挿入し,デコーダバッファ占有量B(i+1)をデコーダバッファサイズBmax (i+1)の大きさに収める。
デコーダバッファサイズBmax ()と,デコーダバッファ占有量B()と,映像フレームのフレーム番号iとの関係は,図9(D)に示すようになる。
max (i+1)は,Bmax (i)に余剰符号量Rr (i+1)−Rr (i−D+1)を加算した値になる。従来のビットレート制御におけるデコーダバッファサイズは,この余剰符号量の項を0とした場合に相当する。デコーダバッファ占有量B(i)から映像フレームiの発生符号量S(i)を減算したものがB* (i)であり,デコーダバッファ占有量B(i+1)は,B* (i)に,R/P+Rr (i+1)を加算したものになる。なお,従来のデコーダバッファ検定の場合には,デコーダバッファ占有量B(i+1)は,B(i+1)=B(i)+R/Pであり,余剰符号量Rr (i+1)は加算されない。
以上の符号化およびストリーム伝送の処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも,ネットワークを通して提供することも可能である。
本発明の実施例に係る装置の構成例を示す図である。 本発明の実施例の映像符号化処理のフローチャートである。 本発明の実施例における多重化部の処理フローチャートである。 映像フレームiと音声フレームjの長さが同じ場合の伝送タイミングの例を示す図である。 音声を1GOP分先行して符号化する場合の伝送タイミングの例を示す図である。 音声フレームjの期間が映像フレームiの期間より長い場合の伝送タイミングの例を示す図である。 音声符号化データの伝送タイミングを早くした場合に遅延が増加することを説明する図である。 同時刻にデコードされる音声フレームjを映像フレームiよりも先に符号化しない場合に遅延が増加することを説明する図である。 本発明の実施例で行うデコーダバッファ検定を説明するための図である。
符号の説明
1 符号化ストリーム送信装置
10 映像符号化部
11 映像符号化制御部
12 映像フレーム符号化部
13 出力バッファ
20 音声符号化部
30,40 遅延バッファ
50 多重化部

Claims (6)

  1. 映像符号化データと音声符号化データとを多重化した符号化ストリームを,所定のビットレートの範囲内で伝送する符号化ストリーム伝送方法であって,
    符号化対象の音声信号を,伝送先で同時刻に復号する符号化対象の映像信号よりも先に符号化する過程と,
    符号化済みの音声発生符号量から映像符号化制御単位の期間における音声の余剰符号量を算出する過程と,
    前記余剰符号量の一部または全部を映像符号化制御単位における目標符号量に加え,次に符号化する映像符号化制御単位における目標符号量を決定する過程と,
    前記決定された目標符号量に従って,映像符号化制御単位における映像信号を符号化する過程と,
    符号化結果の映像符号化データと音声符号化データとを多重化して伝送する際に,音声符号化データについては,該音声符号化データの伝送先における復号直前のタイミングで伝送する過程とを有する
    ことを特徴とする符号化ストリーム伝送方法。
  2. 請求項1に記載の符号化ストリーム伝送方法において,
    前記符号化対象の音声信号を符号化する過程では,伝送先で同時刻に復号する符号化対象の映像信号よりも1映像符号化制御単位の期間分だけ先行して音声信号を符号化する
    ことを特徴とする符号化ストリーム伝送方法。
  3. 請求項1または請求項2に記載の符号化ストリーム伝送方法において,
    前記映像信号を符号化する過程では,前記音声の余剰符号量に従ってデコーダバッファサイズとデコーダバッファ占有量とを更新し,デコーダバッファが破綻しないかを検証するデコーダバッファ検定を行う
    ことを特徴とする符号化ストリーム伝送方法。
  4. 映像符号化データと音声符号化データとを多重化した符号化ストリームを,所定のビットレートの範囲内で伝送する符号化ストリーム伝送装置であって,
    符号化対象の音声信号を,伝送先で同時刻に復号する符号化対象の映像信号よりも先に符号化する手段と,
    符号化済みの音声発生符号量から映像符号化制御単位の期間における音声の余剰符号量を算出する手段と,
    前記余剰符号量の一部または全部を映像符号化制御単位における目標符号量に加え,次に符号化する映像符号化制御単位における目標符号量を決定する手段と,
    前記決定された目標符号量に従って,映像符号化制御単位における映像信号を符号化する手段と,
    符号化結果の映像符号化データと音声符号化データとを多重化して伝送する際に,音声符号化データについては,該音声符号化データの伝送先における復号直前のタイミングで伝送する手段とを備える
    ことを特徴とする符号化ストリーム伝送装置。
  5. 請求項1から請求項3までのいずれか1項に記載の符号化ストリーム伝送方法を,コンピュータに実行させるための符号化ストリーム伝送制御プログラム。
  6. 請求項1から請求項3までのいずれか1項に記載の符号化ストリーム伝送方法を,コンピュータに実行させるための符号化ストリーム伝送制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008309293A 2008-12-04 2008-12-04 符号化ストリーム伝送方法,符号化ストリーム伝送装置,符号化ストリーム伝送制御プログラムおよびその記録媒体 Active JP4878051B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008309293A JP4878051B2 (ja) 2008-12-04 2008-12-04 符号化ストリーム伝送方法,符号化ストリーム伝送装置,符号化ストリーム伝送制御プログラムおよびその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008309293A JP4878051B2 (ja) 2008-12-04 2008-12-04 符号化ストリーム伝送方法,符号化ストリーム伝送装置,符号化ストリーム伝送制御プログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2010136041A true JP2010136041A (ja) 2010-06-17
JP4878051B2 JP4878051B2 (ja) 2012-02-15

Family

ID=42346888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008309293A Active JP4878051B2 (ja) 2008-12-04 2008-12-04 符号化ストリーム伝送方法,符号化ストリーム伝送装置,符号化ストリーム伝送制御プログラムおよびその記録媒体

Country Status (1)

Country Link
JP (1) JP4878051B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017085603A (ja) * 2011-10-14 2017-05-18 アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドAdvanced Micro Devices Incorporated 領域ベースの画像圧縮

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06216779A (ja) * 1993-01-13 1994-08-05 Casio Comput Co Ltd 通信装置
JPH07202820A (ja) * 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd ビットレート制御システム
JPH1118090A (ja) * 1997-06-19 1999-01-22 Victor Co Of Japan Ltd 可変レート符号化装置
JP2000358247A (ja) * 1999-01-19 2000-12-26 Matsushita Electric Ind Co Ltd レート制御装置、レート制御方法及び符号化装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06216779A (ja) * 1993-01-13 1994-08-05 Casio Comput Co Ltd 通信装置
JPH07202820A (ja) * 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd ビットレート制御システム
JPH1118090A (ja) * 1997-06-19 1999-01-22 Victor Co Of Japan Ltd 可変レート符号化装置
JP2000358247A (ja) * 1999-01-19 2000-12-26 Matsushita Electric Ind Co Ltd レート制御装置、レート制御方法及び符号化装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017085603A (ja) * 2011-10-14 2017-05-18 アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドAdvanced Micro Devices Incorporated 領域ベースの画像圧縮

Also Published As

Publication number Publication date
JP4878051B2 (ja) 2012-02-15

Similar Documents

Publication Publication Date Title
KR102179360B1 (ko) 비디오 스플라이싱을 단순화시키기 위한 버퍼링 정보에 대한 구문 및 의미
TWI606722B (zh) 用於減少視訊編碼及解碼中之延遲的方法、系統及電腦可讀取媒體
US6324217B1 (en) Method and apparatus for producing an information stream having still images
US8804825B2 (en) Bi-pred mode decision in GOP architecture
KR100777486B1 (ko) 압축된 이미지 및 비디오를 위한 낮은 기동 지연을 갖는가상의 표준 디코더
US6229849B1 (en) Coding device and method
KR101494562B1 (ko) 동화상 부호화 장치, 동화상 부호화 방법 및 동화상 부호화용 컴퓨터 프로그램이 기록된 컴퓨터 판독가능한 기록 매체
US20060239563A1 (en) Method and device for compressed domain video editing
US20020057739A1 (en) Method and apparatus for encoding video
US20080075164A1 (en) Motion picture encoding apparatus and method
US20150172680A1 (en) Producing an Output Need Parameter for an Encoder
US8724710B2 (en) Method and apparatus for video encoding with hypothetical reference decoder compliant bit allocation
US20070237187A1 (en) Multiplexer and multiplexing method
US6226326B1 (en) Coding device and coding method
KR20070029072A (ko) 동화상 신호의 부호화 장치, 동화상 신호의 부호화 방법 및컴퓨터 판독 가능한 기록 매체
US20090168891A1 (en) Method for controlling video encoding bit rate based on transport packet length, and apparatus for coding video using the same
JP4878051B2 (ja) 符号化ストリーム伝送方法,符号化ストリーム伝送装置,符号化ストリーム伝送制御プログラムおよびその記録媒体
JP6344386B2 (ja) 時系列データ符号化装置、方法およびプログラム、並びに時系列データ再符号化装置、方法およびプログラム
JP2003125400A (ja) 動画像を符号化する方法及び装置及びプログラム並びに動画像音声多重化の方法及び装置
JP2009246489A (ja) 映像信号切替装置
JP4879958B2 (ja) 映像・音声ストリーム伝送制御方法、映像・音声ストリーム伝送制御装置、映像・音声ストリーム伝送制御プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4878052B2 (ja) 映像符号量制御方法,映像符号化装置,映像符号量制御プログラムおよびその記録媒体
JP2003244706A (ja) 画像符号化データ変換装置及び変換方法並びに変換プログラム
JP4239734B2 (ja) 符号化装置、および、符号化方法、並びに、プログラム
JP2005151095A (ja) 統計多重装置及び方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111124

R150 Certificate of patent or registration of utility model

Ref document number: 4878051

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350