JP4373283B2 - 映像音声復号方法、映像音声復号装置、映像音声復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

映像音声復号方法、映像音声復号装置、映像音声復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP4373283B2
JP4373283B2 JP2004168796A JP2004168796A JP4373283B2 JP 4373283 B2 JP4373283 B2 JP 4373283B2 JP 2004168796 A JP2004168796 A JP 2004168796A JP 2004168796 A JP2004168796 A JP 2004168796A JP 4373283 B2 JP4373283 B2 JP 4373283B2
Authority
JP
Japan
Prior art keywords
video
audio
buffer
received
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004168796A
Other languages
English (en)
Other versions
JP2005348347A (ja
Inventor
裕江 岩崎
次郎 長沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004168796A priority Critical patent/JP4373283B2/ja
Publication of JP2005348347A publication Critical patent/JP2005348347A/ja
Application granted granted Critical
Publication of JP4373283B2 publication Critical patent/JP4373283B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、IPネットワークなどの伝送路を介して送信されてくる映像及び音声の符号化データのビットストリームを受信して復号する映像音声復号方法及びその装置と、その映像音声復号方法の実現に用いられる映像音声復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体とに関し、特に、タイプスタンプを用いずに映像と音声の同期再生を実現できるようにする映像音声復号方法及びその装置と、その映像音声復号方法の実現に用いられる映像音声復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体とに関する。
映像と音声とを伝送するシステムにおいて、従来では、MPEG−2で規定されているPCR再生を用いて、映像と音声の同期再生を実現するようにしている(例えば、非特許文献1参照)。
このMPEG−2で規定されているPCR再生では、映像と音声のビットストリームを時刻情報のタイムスタンプを付加したトランスポートストリームに構成して、その映像音声のビットストリームを伝送し、そのタイムスタンプに従って、映像と音声の同期再生を確立するようにしている。
Information Technology-Generic Coding of Moving Pictures and Associated Audio: Systems-, ISO/IEC 13818-1 International Standard, November 1994.
MPEG−2の規格はハードウェア処理を想定しており、これから、計算機上のソフトウェアにより映像音声の同期再生を行う場合に、次のような問題が生じる。
すなわち、MPEG−2の規格では、27MHzという非常に細かい精度での制御が要求されるものであり、従って、IPネットワークなどによる映像音声伝送における映像/音声の同期制御については、通常の計算機上のアプリケーションレベルでの制御は困難である。
これから、IPネットワークなどの伝送路を用いて映像音声伝送を行う場合に、計算機上でPCR再生を用いて映像と音声の同期制御を行うことができないというのが実情である。
このようなことを背景にして、IPネットワークなどの伝送路を用いて映像音声伝送を行う場合に、計算機上で映像音声の符号化復号処理を扱うときの映像と音声の新たな同期技術の提供が求められている。
本発明はかかる事情に鑑みてなされたものであって、IPネットワークなどの伝送路を用いて映像音声伝送を行う場合に、計算機上で映像音声の符号化復号処理を扱うときの映像と音声の新たな同期技術の提供を目的とする。
記の目的を達成するために、本発明では、本発明の映像音声復号装置に対して伝送路を介して映像音声の符号化データのビットストリームを送信してくる装置が、映像と音声のフレームが入力されると、その映像と音声のフレームをキャプチャすると同時に符号化して、タイムスタンプを付加することなく、その符号化データのビットストリームを送信してくるという構成を採ることを前提としている。
上記の目的を達成するために、上記の前提の下、本発明の映像音声復号装置は、(1)規定のフレーム数分の映像を格納する映像用バッファと、(2)規定のフレーム数分の音声を格納する音声用バッファと、(3)映像と音声のフレームがキャプチャされると同時に符号化されることで生成された符号化データのビットストリームを受信する受信手段と、(4)映像用バッファに格納される映像のフレーム数が映像用バッファを満杯にするフレーム数より小さい数に設定される規定の閾値を超えていない場合には、受信手段の受信した映像を映像用バッファに格納し、超えている場合には、その受信した映像のピクチャ種別に応じて、その受信した映像を映像用バッファに格納するか破棄し、一方、映像用バッファに空きがない場合には、その受信した映像を破棄するとともに、その破棄した映像により影響を受ける後続の映像については、映像用バッファの格納状態に依らずに破棄する映像格納破棄実行手段と、(5)音声用バッファに空きがある場合には、受信手段の受信した音声を音声用バッファに格納し、音声用バッファに空きがない場合には、その受信した音声を破棄する音声格納破棄実行手段と、(6)送信側におけるキャプチャのフレームレートよりも速い復号速度を有して、映像用バッファから映像を連続的に読み出して復号する映像復号手段と、(7)送信側におけるキャプチャのフレームレートよりも速い復号速度を有して、映像の符号化に要する時間とその時間よりも小さい時間となる音声の符号化に要する時間との差に相当する時間分だけ遅らせる形で音声用バッファから音声を連続的に読み出して復号する音声復号手段と、(8)映像復号手段の復号した映像を出力するとともに、出力した映像に続く映像が復号されない場合には、その出力した映像を出力し続ける映像出力手段と、(9)音声復号手段の復号した音声を出力するとともに、出力した音声に続く音声が復号されない場合には、特定のフレーム数分の間その出力した音声を出力し、その後無音を出力する音声出力手段とを備えるように構成する。
この構成を採るときにあって、映像格納破棄実行手段は、映像用バッファに格納される映像のフレーム数が上記の閾値を超えている場合にあって、受信手段の受信した映像がフレーム内予測のピクチャである場合には、その受信した映像を映像用バッファに格納し、それ以外のピクチャである場合には、その受信した映像を破棄するように処理することがある。
また、映像格納破棄実行手段は、閾値が複数設定される場合には、映像用バッファに格納される映像のフレーム数がどの閾値を超えているのかということと、受信手段の受信した映像のピクチャ種別とに応じて、その受信した映像を映像用バッファに格納するか破棄するのかを決定するように処理することがある。このとき、他のフレームに影響を与えるピクチャほど優先順位を高く設定して、優先順位の高いピクチャほど映像用バッファに格納されることになるようにと、その受信した映像を映像用バッファに格納するか破棄するのかを決定するように処理することがある。
また、映像格納破棄実行手段は、破棄した映像により影響を受ける後続の映像については、映像用バッファの格納状態に依らずに破棄するように処理することがある。
以上の各処理手段が動作することで実現される本発明の映像音声復号方法はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてCPUなどの制御手段上で動作することにより本発明を実現することになる。
このように構成される本発明の映像音声復号装置では、映像と音声のフレームがキャプチャされると同時に符号化されることで生成された符号化データのビットストリームを受信すると、その受信した映像を映像用バッファに格納していくとともに、その受信した音声を音声用バッファに格納していく。
このとき、映像については、送信側におけるキャプチャのフレームレートよりも速い復号速度でもって、映像用バッファから映像を連続的に読み出して復号していく。従って、通常の場合には、映像用バッファにはほとんど映像が格納されることなく、映像の復号が実行されることになる。
一方、音声については、送信側におけるキャプチャのフレームレートよりも速い復号速度でもって、音声用バッファから音声を連続的に読み出して復号していくことになるが、このとき、映像の符号化遅延を考慮して、その分遅らせる形で音声用バッファから音声を連続的に読み出して復号していく。従って、通常の場合には、音声については、符号化遅延分のフレーム数にほぼ一致する音声が音声用バッファに格納されて、音声の復号が実行されることになる。
このような処理を行うときに、一時的に映像及び音声の受信量が急激に増加することがあり、これにより、映像用バッファや音声用バッファが満杯に近づいていくことが起こる。
このような場合、音声については、音声同士の間で優先度が付けられないので、音声用バッファに入りきれない音声については破棄することになる。
一方、映像については、1つ又は複数の閾値を設けて、その閾値を超える場合にあって、フレーム内予測のピクチャのような優先度の高いピクチャを受信した場合には、それを映像用バッファに格納し、優先度の低いピクチャを受信した場合には、それを破棄することで、優先度の高いピクチャについてはできる限り破棄しないようにすることになる。
そして、そのような制御を行っても映像用バッファが満杯になるときには、映像用バッファに入りきれない映像については破棄することになる。このとき、破棄した映像が後続の映像に影響を与えるものである場合には、その破棄した映像により影響を受ける後続の映像については、映像用バッファの格納状態に依らずに破棄することになる。
また、このような処理を行うときに、一時的に映像及び音声の受信量が急激に減少することがあり、これにより、映像用バッファが空の状態になったり、音声用バッファに格納される音声が符号化遅延分のフレーム数を超えない状態になったりすることが起こる。
このような場合には、新たな映像が復号されない状態になったり、新たな音声が復号されない状態になるので、新たな映像が復号されない状態になることで、出力した映像に続く映像が復号されない場合には、その出力した映像を出力し続けることになる。また、新たな音声が復号されない状態になることで、出力した音声に続く音声が復号されない場合には、特定のフレーム数分の間その出力した音声を出力し、その後無音を出力することになる。
このようにして、本発明の映像音声復号装置によれば、IPネットワークなどの伝送路を用いて映像音声伝送を行う場合に、タイプスタンプを用いずに映像と音声の同期再生を実現できるようになる。
以上に説明したように、本発明によれば、時刻情報を用いずに、映像と音声の同期再生を実現できるようになる。
このようにして、本発明によれば、IPネットワークなどの伝送路を用いて映像音声伝送を行う場合に、MPEG−2で規定されているPCR再生を用いずに、映像と音声の同期再生を実現できるようになるので、計算機上のソフトウェアを使って映像と音声の同期再生を実現できるようになる。
さらに、本発明によれば、ビットストリームに時刻情報を付加することを要求しないので、時刻情報の付加されたビットストリームについては意味のある再生ができなくなり、これにより、不正なビットストリーム(時刻情報が付加されている)の入り込む余地がなくなるという利点も得られる。
以下、実施の形態に従って本発明を詳細に説明する。
図1に、本発明の適用される映像音声伝送システムの一例を図示する。
図中、1は映像音声符号化送信装置であって、映像と音声とを符号化して、その符号化データのビットストリームを送信するもの、2は本発明を具備する映像音声受信復号装置であって、映像音声符号化送信装置1から送信されてくる映像及び音声の符号化データのビットストリームを受信して復号するもの、3はIPネットワークなどのようなネットワークであって、映像音声符号化送信装置1と本発明の映像音声受信復号装置2との間を接続するものである。
本発明を実現する場合、映像音声符号化送信装置1は、映像と音声のフレームが入力されると、その映像と音声のフレームをキャプチャすると同時に符号化して(例えば、1秒間に30フレームというようなフレームレートでキャプチャする)、タイムスタンプを付加することなく、その符号化データのビットストリームを本発明の映像音声受信復号装置2に送信するように動作する。
なお、一般的に符号化データを伝送する場合、ピクチャによっては符号化の順番を変えて伝送することが行われており、同時にキャプチャして符号化して送信するということは、厳密な意味で順番を保持するということを意味しておらず、一般的に行われているそのような順序の変更を含むものである。
この符号化にあたって、映像の符号化に要する時間(ΔT1)は音声の符号化に要する時間(ΔT2)よりも大きいことから、図中に示すように、映像の符号化データは音声の符号化データよりもΔTの時間分だけ遅延されて、本発明の映像音声受信復号装置2に送信されてくることになる。
本発明の映像音声受信復号装置2は、このような形態で送られてくる映像及び音声の符号化データのビットストリームを受信して、タイムスタンプを用いることもなく、映像と音声の同期再生を実現するように処理する。
図2に、本発明の映像音声受信復号装置2の一実施形態例を図示する。
この図に示すように、本発明の映像音声受信復号装置2は、パケット受信破棄手段20と、映像用バッファ21と、音声用バッファ22と、映像復号手段23と、音声復号手段24と、映像出力手段25と、音声出力手段26とを備える。
このパケット受信破棄手段20は、映像音声符号化送信装置1から伝送されてくる映像及び音声の符号化データを受信して、その受信した映像や音声の符号化データを破棄したり、その受信した映像や音声の符号化データを映像用バッファ21や音声用バッファ22に格納する。
映像用バッファ21は、初期設定で指定されるフレーム数のバッファで構成されて、映像音声符号化送信装置1から伝送されてくる映像符号化データを格納する。
音声用バッファ22は、初期設定で指定されるフレーム数のバッファで構成されて(映像用バッファ21のフレーム数と同一である必要はない)、映像音声符号化送信装置1から伝送されてくる音声符号化データを格納する。
映像復号手段23は、映像音声符号化送信装置1におけるキャプチャのフレームレートよりも速い復号速度を有して、映像用バッファ21から映像符号化データを連続的に読み出して復号する。
音声復号手段24は、映像音声符号化送信装置1におけるキャプチャのフレームレートよりも速い復号速度を有して、映像の符号化遅延分遅らせる形で音声用バッファ22から音声符号化データを連続的に読み出して復号する。
映像出力手段25は、映像復号手段23の復号した映像を出力するとともに(図示しない出力用メモリに映像を書き込むことで出力する)、出力した映像に続く映像が復号されない場合には、その出力用メモリに新たな映像を書き込まないことで、その出力した映像を出力し続けるように制御する。
音声出力手段26は、音声復号手段24の復号した音声を出力するとともに、出力した音声に続く音声が復号されない場合には、特定のフレーム数分の間その出力した音声を出力し、その後無音を出力するように制御する。
〔1〕本発明に関連する発明
図3ないし図6に、このように構成される本発明の映像音声受信復号装置2が本発明に関連する発明を実現するときに実行する処理フローの一例を図示する。
ここで、図3は映像音声符号化送信装置1から映像符号化コードを受信したときに実行する処理フローの一例を示し、図4は映像音声符号化送信装置1から音声符号化コードを受信したときに実行する処理フローの一例を示し、図5は映像用バッファ21に格納される映像符号化データの復号処理の処理フローの一例を示し、図6は音声用バッファ22に格納される音声符号化データの復号処理の処理フローの一例を示す。
次に、これらの処理フローに従って、このように構成される本発明の映像音声受信復号装置2が本発明に関連する発明を実現するときに実行する処理について詳細に説明する。
〔1−1〕映像符号化コードの受信時の処理
先ず最初に、図3の処理フローに従って、映像符号化コードの受信時の処理について説明する。
本発明の映像音声受信復号装置2は、本発明に関連する発明を実現する場合には、映像音声符号化送信装置1から映像符号化コードを受信すると、図3の処理フローに示すように、先ず最初に、ステップ10で、映像用バッファ21に空きがあるのか否かを判断して、映像用バッファ21に空きがあることを判断するときには、ステップ11に進んで、受信した映像符号化コードを映像用バッファ21に格納して、処理を終了する。
一方、ステップ10の判断処理に従って、映像用バッファ21に空きがないことを判断するときには、ステップ12に進んで、受信した映像符号化コードを破棄する。すなわち、映像用バッファ21に格納することができないので破棄するのである。
続いて、ステップ13で、破棄した映像符号化コードがIピクチャであるのか否かを判断して、Iピクチャであることを判断するときには、ステップ14に進んで、次に受信するIピクチャまでの後続のP,Bピクチャの映像符号化コードを破棄して、処理を終了する。すなわち、後続のP,Bピクチャが破棄したIピクチャの影響を受けるので、それらを破棄するのである。
一方、ステップ13の判断処理に従って、破棄した映像符号化コードがIピクチャでないことを判断するときには、ステップ15に進んで、破棄した映像符号化コードがPピクチャであるのか否かを判断して、Pピクチャであることを判断するときには、ステップ16に進んで、次に受信するIピクチャまでの後続のBピクチャの映像符号化コードを破棄して、処理を終了する。すなわち、後続のBピクチャが破棄したPピクチャの影響を受けるので、それらを破棄するのである。
一方、ステップ15の判断処理に従って、破棄した映像符号化コードがPピクチャでないことを判断するとき、すなわち、破棄した映像符号化コードがBピクチャであることを判断するときには、そのまま処理を終了する。すなわち、破棄の影響を受けるピクチャが存在しないので、そのまま処理を終了するのである。
〔1−2〕音声符号化コードの受信時の処理
次に、図4の処理フローに従って、音声符号化コードの受信時の処理について説明する。
本発明の映像音声受信復号装置2は、本発明に関連する発明を実現する場合には、映像音声符号化送信装置1から音声符号化コードを受信すると、図4の処理フローに示すように、先ず最初に、ステップ20で、音声用バッファ22に空きがあるのか否かを判断して、音声用バッファ22に空きがあることを判断するときには、ステップ21に進んで、受信した音声符号化コードを音声用バッファ22に格納して、処理を終了する。
一方、ステップ20の判断処理に従って、音声用バッファ22に空きがないことを判断するときには、ステップ22に進んで、受信した音声符号化コードを破棄して、処理を終了する。すなわち、音声用バッファ22に格納することができないので破棄するのである。
〔1−3〕映像符号化データの復号処理
次に、図5の処理フローに従って、映像符号化データの復号処理について説明する。
本発明の映像音声受信復号装置2は、本発明に関連する発明を実現する場合には、映像音声符号化送信装置1から送られてくる映像符号化データの復号要求があると、図5の処理フローに示すように、先ず最初に、ステップ30で、映像用バッファ21が空となったのか否かを判断して、映像用バッファ21が空となっていないことを判断するときには、ステップ31に進んで、映像用バッファ21から映像符号化データを読み出す。
続いて、ステップ32で、その読み出した映像符号化データを復号し、続くステップ33で、その復号した映像を出力してから、ステップ30に戻る。
一方、ステップ30の判断処理に従って、映像用バッファ21が空となったことを判断するときには、ステップ34に進んで、直前の映像を出力し続けるように制御してから、ステップ30に戻る。
〔1−4〕音声符号化データの復号処理
次に、図6の処理フローに従って、音声符号化データの復号処理について説明する。
本発明の映像音声受信復号装置2は、本発明に関連する発明を実現する場合には、映像音声符号化送信装置1から送られてくる音声符号化データの復号要求があると、図6の処理フローに示すように、先ず最初に、ステップ40で、音声用バッファ22に格納される音声符号化データが規定の閾値(図1に示した符号化遅延ΔTに相当するフレーム数で設定される)を超えているのか否かを判断して、閾値を超えていることを判断するときには、ステップ41に進んで、音声用バッファ22から音声符号化データを読み出す。
続いて、ステップ42で、その読み出した音声符号化データを復号し、続くステップ43で、その復号した音声を出力し、続くステップ44で、変数iに“0”をセットしてから、ステップ40に戻る。
一方、ステップ40の判断処理に従って、音声用バッファ22に格納される音声符号化データが規定の閾値を超えていないということを判断するときには、ステップ45に進んで、変数iの値が“0”であるのか否かを判断する。
この判断処理に従って、変数iの値が“0”であることを判断するとき、すなわち、ステップ40〜ステップ44のループを始めて抜けてきたことを判断するときには、ステップ46に進んで、変数iに“1”をセットし、続くステップ47で、直前に出力した音声を出力してから、ステップ40に戻る。
一方、ステップ45の判断処理に従って、変数iの値が“0”でないことを判断するときには、ステップ48に進んで、変数iの値が予め設定される最大値imax を超えたのか否かを判断する。
この判断処理に従って、変数iの値が最大値imax を超えていないことを判断するときは、ステップ49に進んで、変数iの値を1つインクリメントし、続くステップ50で、直前に出力した音声を出力してから、ステップ40に戻る。
一方、ステップ48の判断処理に従って、変数iの値が最大値imax を超えたことを判断するときには、ステップ51に進んで、無音を出力してから、ステップ40に戻る。
〔1−5〕本発明に関連する発明の処理のまとめ
このようにして、本発明に関連する発明を実現する場合、本発明の映像音声受信復号装置2は、映像と音声のフレームがキャプチャされると同時に符号化されることで生成された符号化データのビットストリームを受信すると、その受信した映像符号化データを映像用バッファ21に格納していくとともに、その受信した音声符号化データを音声用バッファ22に格納していく。
このとき、映像符号化データについては、映像音声符号化送信装置1におけるキャプチャのフレームレートよりも速い復号速度でもって、映像用バッファ21から映像符号化データを連続的に読み出して復号していく。従って、通常の場合には、映像用バッファ21にはほとんど映像符号化データが格納されることなく、映像符号化データの復号が実行されることになる。
一方、音声符号化データについては、映像音声符号化送信装置1におけるキャプチャのフレームレートよりも速い復号速度でもって、音声用バッファ22から音声符号化データを連続的に読み出して復号していくことになるが、このとき、映像の符号化遅延を考慮して、その分遅らせる形で音声用バッファ22から音声符号化データを連続的に読み出して復号していく。従って、通常の場合には、音声符号化データについては、符号化遅延分のフレーム数にほぼ一致する音声符号化データが音声用バッファ22に格納されて、音声符号化データの復号が実行されることになる。
このような処理を行うときに、一時的に映像符号化データ及び音声符号化データの受信量が急激に増加することがあり、これにより、映像用バッファ21や音声用バッファ22が満杯となることが起こる。
このような場合には、映像用バッファ21に入りきれない映像符号化データについては破棄するとともに、音声用バッファ22に入りきれない音声符号化データについては破棄することになる。このとき、破棄した映像符号化データが後続の映像符号化データに影響を与えるものである場合には、その破棄した映像符号化データにより影響を受ける後続の映像符号化データについては、映像用バッファ21の格納状態に依らずに破棄することになる。
また、このような処理を行うときに、一時的に映像符号化データ及び音声符号化データの受信量が急激に減少することがあり、これにより、映像用バッファ21が空の状態になったり、音声用バッファ22に格納される音声符号化データが符号化遅延分のフレーム数を超えない状態になったりすることが起こる。
このような場合には、新たな映像符号化データが復号されない状態になったり、新たな音声符号化データが復号されない状態になるので、新たな映像符号化データが復号されない状態になることで、出力した映像に続く映像符号化データが復号されない場合には、その出力した映像を出力し続けることになる。また、新たな音声符号化データが復号されない状態になることで、出力した音声に続く音声符号化データが復号されない場合には、特定のフレーム数分の間その出力した音声を出力し、その後無音を出力することになる。
このようにして、本発明の映像音声受信復号装置2により実現される本発明に関連する発明によれば、IPネットワークなどのネットワークを用いて映像音声伝送を行う場合に、タイプスタンプを用いずに映像と音声の同期再生を実現できるようになる。
〔2〕第の実施形態例
本発明に関連する発明では、映像用バッファ21が満杯になるときに、映像音声符号化送信装置1から送られてくる映像符号化データを破棄するようにした。
これに対して、実施形態例では、図7に示すように、映像用バッファ21に対して閾値Thを設定して、(i)映像用バッファ21に格納される映像符号化データが閾値Thを超えていない場合には、映像音声符号化送信装置1から送られてくる映像符号化データを無条件に映像用バッファ21に格納し、(ii)閾値Thを超えた場合には、特定のピクチャ(以下、蓄積対象ピクチャと称する)の映像符号化データのみを映像用バッファ21に格納し、それ以外のピクチャの映像符号化データについては破棄するという構成を採る。
この構成に従うと、一律に映像符号化データを破棄するのではなくて、他のフレームに大きな影響を与える蓄積対象ピクチャに対して優先的な復号処理を行えるようになる。
実施形態例に従う場合、本発明の映像音声受信復号装置2は、図3の処理フローに代えて図8及び図9の処理フローを実行し、それ以外の図4〜図6の処理フローについては上述した本発明に関連する発明と同様に実行することになる。
〔2−1〕図8及び図9の処理フローの説明
本発明の映像音声受信復号装置2は、実施形態例に従う場合には、映像音声符号化送信装置1から映像符号化コードを受信すると、図8及び図9の処理フローに示すように、先ず最初に、ステップ60で、映像用バッファ21に空きがあるのか否かを判断して、映像用バッファ21に空きがないことを判断するときには、ステップ61に進んで、受信した映像符号化コードを破棄する。
続いて、ステップ62で、破棄した映像符号化コードにより影響を受ける後続の映像符号化コードを破棄して、処理を終了する。
一方、ステップ60の判断処理に従って、映像用バッファ21に空きがあることを判断するときには、ステップ63に進んで、映像用バッファ21に格納される映像符号化データが閾値Thを超えているのか否かを判断して、閾値Thを超えていないことを判断するときには、ステップ64に進んで、受信した映像符号化コードを映像用バッファ21に格納して、処理を終了する。
一方、ステップ63の判断処理に従って、映像用バッファ21に格納される映像符号化データが閾値Thを超えていることを判断するときには、ステップ65に進んで、受信した映像符号化コードのピクチャ種別を判断する。
続いて、ステップ66で、この判断処理に従って、受信した映像符号化コードのピクチャ種別が蓄積対象のピクチャ種別であることが得られたのか否かを判断して、蓄積対象ピクチャであることを判断するときは、ステップ67に進んで、受信した映像符号化コードを映像用バッファ21に格納して、処理を終了する。
一方、ステップ66の判断処理に従って、受信した映像符号化コードのピクチャ種別が蓄積対象のピクチャ種別でないことを判断するときには、ステップ68に進んで、受信した映像符号化コードを破棄し、続くステップ69で、破棄した映像符号化コードにより影響を受ける後続の映像符号化コードを破棄して、処理を終了する。
〔2−2〕第の実施形態例の処理のまとめ
このようにして、本実施形態例に従う場合、本発明の映像音声受信復号装置2は、映像と音声のフレームがキャプチャされると同時に符号化されることで生成された符号化データのビットストリームを受信すると、その受信した映像符号化データを映像用バッファ21に格納していくとともに、その受信した音声符号化データを音声用バッファ22に格納していく。
このとき、映像符号化データについては、映像音声符号化送信装置1におけるキャプチャのフレームレートよりも速い復号速度でもって、映像用バッファ21から映像符号化データを連続的に読み出して復号していく。従って、通常の場合には、映像用バッファ21にはほとんど映像符号化データが格納されることなく、映像符号化データの復号が実行されることになる。
一方、音声符号化データについては、映像音声符号化送信装置1におけるキャプチャのフレームレートよりも速い復号速度でもって、音声用バッファ22から音声符号化データを連続的に読み出して復号していくことになるが、このとき、映像の符号化遅延を考慮して、その分遅らせる形で音声用バッファ22から音声符号化データを連続的に読み出して復号していく。従って、通常の場合には、音声符号化データについては、符号化遅延分のフレーム数にほぼ一致する音声符号化データが音声用バッファ22に格納されて、音声符号化データの復号が実行されることになる。
このような処理を行うときに、一時的に映像符号化データ及び音声符号化データの受信量が急激に増加することがあり、これにより、映像用バッファ21や音声用バッファ22が満杯に近づいていくことが起こる。
このような場合、音声については、音声同士の間で優先度が付けられないので、音声用バッファ22に入りきれない音声符号化データについては破棄することになる。
一方、映像については、ある1つの閾値を設けて、その閾値を超える場合にあって、フレーム内予測のピクチャのような優先度の高いピクチャの符号化データを受信した場合には、それを映像用バッファ21に格納し、優先度の低いピクチャの符号化データを受信した場合には、それを破棄することで、優先度の高いピクチャの符号化データについてはできる限り破棄しないようにすることになる。
そして、そのような制御を行っても映像用バッファ21が満杯になるときには、映像用バッファ21に入りきれない映像符号化データについては破棄することになる。このとき、破棄した映像符号化データが後続の映像符号化データに影響を与えるものである場合には、その破棄した映像符号化データにより影響を受ける後続の映像符号化データについては、映像用バッファ21の格納状態に依らずに破棄することになる。
また、このような処理を行うときに、一時的に映像符号化データ及び音声符号化データの受信量が急激に減少することがあり、これにより、映像用バッファ21が空の状態になったり、音声用バッファ22に格納される音声符号化データが符号化遅延分のフレーム数を超えない状態になったりすることが起こる。
このような場合には、新たな映像符号化データが復号されない状態になったり、新たな音声符号化データが復号されない状態になるので、新たな映像符号化データが復号されない状態になることで、出力した映像に続く映像符号化データが復号されない場合には、その出力した映像を出力し続けることになる。また、新たな音声符号化データが復号されない状態になることで、出力した音声に続く音声符号化データが復号されない場合には、特定のフレーム数分の間その出力した音声を出力し、その後無音を出力することになる。
このようにして、本発明の映像音声受信復号装置2によれば、IPネットワークなどのネットワークを用いて映像音声伝送を行う場合に、タイプスタンプを用いずに映像と音声との同期再生を実現できるようになる。
図8及び図9の処理フローでは、どのようなピクチャを蓄積対象ピクチャとするのかについて記載しなかったが、蓄積対象ピクチャとしては、例えば、MPEG−2やMPEG−4で用いるIピクチャやI−VOPピクチャなどのフレーム内予測のピクチャを用いることになる。
このようなフレーム内予測のピクチャは他のフレームに対する影響が大きいので、なるべく破棄されないようにすることが好ましいからである。
本発明の映像音声受信復号装置2は、蓄積対象ピクチャとしてフレーム内予測のピクチャを用いる場合には、図8及び図9の処理フローに代えて、蓄積対象ピクチャがフレーム内予測のピクチャであることを明記した図10及び図11の処理フローを実行することになる。
〔3〕第の実施形態例
の実施形態例では、図7に示したように、映像用バッファ21に対して閾値Thを設定して、(i)映像用バッファ21に格納される映像符号化データが閾値Thを超えていない場合には、映像音声符号化送信装置1から送られてくる映像符号化データを無条件に映像用バッファ21に格納し、(ii)閾値Thを超えた場合には、蓄積対象ピクチャの映像符号化データのみを映像用バッファ21に格納し、それ以外のピクチャの映像符号化データについては破棄するようにした。
これに対して、第の実施形態例では、図12に示すように、映像用バッファ21に対して2つの閾値Th1とTh2(Th1<Th2)とを設定して、(i)映像用バッファ21に格納される映像符号化データが閾値Th1を超えていない場合には、映像音声符号化送信装置1から送られてくるI,P,Bピクチャの映像符号化データを無条件に映像用バッファ21に格納し、(ii)映像用バッファ21に格納される映像符号化データが閾値Th1と閾値Th2との間にある場合には、映像音声符号化送信装置1から送られてくるI,Pピクチャの映像符号化データについては映像用バッファ21に格納し、映像音声符号化送信装置1から送られてくるBピクチャの映像符号化データについては破棄し、(iii)映像用バッファ21に格納される映像符号化データが閾値Th2を超えた場合には、映像音声符号化送信装置1から送られてくるIピクチャの映像符号化データについては映像用バッファ21に格納し、映像音声符号化送信装置1から送られてくるP,Bピクチャの映像符号化データについては破棄するという構成を採る。
この構成に従うと、第の実施形態例に従うときよりも、きめ細やかな優先的な復号処理を行えるようになる。
の実施形態例に従う場合、本発明の映像音声受信復号装置2は、図3の処理フローに代えて図13及び図14の処理フローを実行し、それ以外の図4〜図6の処理フローについては上述した本発明に関連する発明と同様に実行することになる。
〔3−1〕図13及び図14の処理フローの説明
本発明の映像音声受信復号装置2は、第の実施形態例に従う場合には、映像音声符号化送信装置1から映像符号化コードを受信すると、図13及び図14の処理フローに示すように、先ず最初に、ステップ80で、映像用バッファ21に空きがあるのか否かを判断して、映像用バッファ21に空きがないことを判断するときには、ステップ81に進んで、受信した映像符号化コードを破棄する。
続いて、ステップ82で、破棄した映像符号化コードにより影響を受ける後続の映像符号化コードを破棄して、処理を終了する。
一方、ステップ80の判断処理に従って、映像用バッファ21に空きがあることを判断するときには、ステップ83に進んで、受信した映像符号化コードのピクチャ種別を判断する。
続いて、ステップ84で、この判断処理に従って、受信した映像符号化コードのピクチャ種別がBピクチャであることが得られたのか否かを判断して、Bピクチャであることを判断するときには、ステップ85に進んで、映像用バッファ21に格納される映像符号化データが閾値Th1を超えているのか否かを判断する。
この判断処理に従って、映像用バッファ21に格納される映像符号化データが閾値Th1を超えていないことを判断するときには、ステップ86に進んで、受信した映像符号化コードを映像用バッファ21に格納して、処理を終了する。そして、閾値Th1を超えていることを判断するときには、ステップ87に進んで、受信した映像符号化コードを破棄して、処理を終了する。
一方、ステップ84の判断処理に従って、受信した映像符号化コードのピクチャ種別がBピクチャでないことを判断するときには、ステップ88に進んで、受信した映像符号化コードのピクチャ種別がPピクチャであるのか否かを判断して、Pピクチャであることを判断するときには、ステップ89に進んで、映像用バッファ21に格納される映像符号化データが閾値Th2を超えているのか否かを判断する。
この判断処理に従って、映像用バッファ21に格納される映像符号化データが閾値Th2を超えていないことを判断するときには、ステップ90に進んで、受信した映像符号化コードを映像用バッファ21に格納して、処理を終了する。そして、閾値Th2を超えていることを判断するときには、ステップ91に進んで、受信した映像符号化コードを破棄し、続くステップ92で、その破棄した映像符号化コードにより影響を受ける後続の映像符号化コード(具体的にはBピクチャの映像符号化コード)を破棄して、処理を終了する。
一方、ステップ88の判断処理に従って、受信した映像符号化コードのピクチャ種別がPピクチャでないことを判断するとき、すなわち、受信した映像符号化コードのピクチャ種別がIピクチャであることを判断するときには、ステップ93に進んで、受信した映像符号化コードを映像用バッファ21に格納して、処理を終了する。
〔3−2〕第の実施形態例のまとめ
の実施形態例の基本的な処理の流れは、第の実施形態例と同様である。異なる点は、第の実施形態例では、図7に示すような形態で映像符号化データの格納破棄を制御するのに対して、第の実施形態例では、図12に示すような形態で映像符号化データの格納破棄を制御するという点である。
この構成に従って、第の実施形態例によれば、第の実施形態例に従うよりも、きめ細やかな優先的な復号処理を行えるようになる。
本発明の適用される映像音声伝送システムの説明図である。 本発明の映像音声受信復号装置の一実施形態例である。 本発明に関連する発明で実行する処理フローの一例である。 本発明に関連する発明で実行する処理フローの一例である。 本発明に関連する発明で実行する処理フローの一例である。 本発明に関連する発明で実行する処理フローの一例である。 の実施形態例における映像符号化データの格納破棄の説明図である。 の実施形態例で実行する処理フローの一例である。 の実施形態例で実行する処理フローの一例である。 の実施形態例で実行する処理フローの一例である。 の実施形態例で実行する処理フローの一例である。 の実施形態例における映像符号化データの格納破棄の説明図である。 の実施形態例で実行する処理フローの一例である。 の実施形態例で実行する処理フローの一例である。
符号の説明
1 映像音声符号化送信装置
2 映像音声受信復号装置
3 ネットワーク
20 パケット受信破棄手段
21 映像用バッファ
22 音声用バッファ
23 映像復号手段
24 音声復号手段
25 映像出力手段
26 音声出力手段

Claims (12)

  1. 伝送路を介して送信されてくる映像及び音声の符号化データのビットストリームを受信して復号する映像音声復号方法であって、
    映像と音声のフレームがキャプチャされると同時に符号化されることで生成された符号化データのビットストリームを受信する過程と、
    映像用バッファに格納される映像のフレーム数が該映像用バッファを満杯にするフレーム数より小さい数に設定される規定の閾値を超えていない場合には、上記受信した映像を該映像用バッファに格納し、超えている場合には、該映像のピクチャ種別に応じて、該映像を該映像用バッファに格納するか破棄し、一方、該映像用バッファに空きがない場合には、該映像を破棄するとともに、その破棄した映像により影響を受ける後続の映像については、該映像用バッファの格納状態に依らずに破棄する過程と、
    音声用バッファに空きがある場合には、上記受信した音声を該音声用バッファに格納し、該音声用バッファに空きがない場合には、該音声を破棄する過程と、
    上記キャプチャのフレームレートよりも速い復号速度を有して、上記映像用バッファから映像を連続的に読み出して復号する過程と、
    上記キャプチャのフレームレートよりも速い復号速度を有して、映像の符号化に要する時間とその時間よりも小さい時間となる音声の符号化に要する時間との差に相当する時間分だけ遅らせる形で上記音声用バッファから音声を連続的に読み出して復号する過程とを備えることを、
    特徴とする映像音声復号方法。
  2. 請求項1に記載の映像音声復号方法において、
    上記映像を破棄する過程では、上記映像用バッファに格納される映像のフレーム数が上記閾値を超えている場合にあって、上記受信した映像がフレーム内予測のピクチャである場合には、その受信した映像を上記映像用バッファに格納し、それ以外のピクチャである場合には、その受信した映像を破棄することを、
    特徴とする映像音声復号方法。
  3. 請求項1に記載の映像音声復号方法において、
    上記映像を破棄する過程では、上記閾値が複数設定される場合には、上記映像用バッファに格納される映像のフレーム数がどの閾値を超えているのかということと、上記受信した映像のピクチャ種別とに応じて、上記受信した映像を上記映像用バッファに格納するか破棄するのかを決定することを、
    特徴とする映像音声復号方法。
  4. 請求項3に記載の映像音声復号方法において、
    上記映像を破棄する過程では、他のフレームに影響を与えるピクチャほど優先順位を高く設定して、優先順位の高いピクチャほど上記映像用バッファに格納されることになるようにと、上記受信した映像を上記映像用バッファに格納するか破棄するのかを決定することを、
    特徴とする映像音声復号方法。
  5. 請求項1ないしのいずれか1項に記載の映像音声復号方法において、
    上記復号した映像を出力するとともに、出力した映像に続く映像が復号されない場合には、その出力した映像を出力し続ける過程と、
    上記復号した音声を出力するとともに、出力した音声に続く音声が復号されない場合には、特定のフレーム数分の間その出力した音声を出力し、その後無音を出力する過程とを備えることを、
    特徴とする映像音声復号方法。
  6. 伝送路を介して送信されてくる映像及び音声の符号化データのビットストリームを受信して復号する映像音声復号装置であって、
    規定のフレーム数分の映像を格納する映像用バッファと、
    規定のフレーム数分の音声を格納する音声用バッファと、
    映像と音声のフレームがキャプチャされると同時に符号化されることで生成された符号化データのビットストリームを受信する手段と、
    上記映像用バッファに格納される映像のフレーム数が上記映像用バッファを満杯にするフレーム数より小さい数に設定される規定の閾値を超えていない場合には、上記受信した映像を上記映像用バッファに格納し、超えている場合には、該映像のピクチャ種別に応じて、該映像を上記映像用バッファに格納するか破棄し、一方、上記映像用バッファに空きがない場合には、該映像を破棄するとともに、その破棄した映像により影響を受ける後続の映像については、該映像用バッファの格納状態に依らずに破棄する手段と、
    上記音声用バッファに空きがある場合には、上記受信した音声を上記音声用バッファに格納し、上記音声用バッファに空きがない場合には、該音声を破棄する手段と、
    上記キャプチャのフレームレートよりも速い復号速度を有して、上記映像用バッファから映像を連続的に読み出して復号する手段と、
    上記キャプチャのフレームレートよりも速い復号速度を有して、映像の符号化に要する時間とその時間よりも小さい時間となる音声の符号化に要する時間との差に相当する時間分だけ遅らせる形で上記音声用バッファから音声を連続的に読み出して復号する手段とを備えることを、
    特徴とする映像音声復号装置。
  7. 請求項に記載の映像音声復号装置において、
    上記映像を破棄する手段は、上記映像用バッファに格納される映像のフレーム数が上記閾値を超えている場合にあって、上記受信した映像がフレーム内予測のピクチャである場合には、その受信した映像を上記映像用バッファに格納し、それ以外のピクチャである場合には、その受信した映像を破棄することを、
    特徴とする映像音声復号装置。
  8. 請求項に記載の映像音声復号装置において、
    上記映像を破棄する手段は、上記閾値が複数設定される場合には、上記映像用バッファに格納される映像のフレーム数がどの閾値を超えているのかということと、上記受信した映像のピクチャ種別とに応じて、上記受信した映像を上記映像用バッファに格納するか破棄するのかを決定することを、
    特徴とする映像音声復号装置。
  9. 請求項に記載の映像音声復号装置において、
    上記映像を破棄する手段は、他のフレームに影響を与えるピクチャほど優先順位を高く設定して、優先順位の高いピクチャほど上記映像用バッファに格納されることになるようにと、上記受信した映像を上記映像用バッファに格納するか破棄するのかを決定することを、
    特徴とする映像音声復号装置。
  10. 請求項ないしのいずれか1項に記載の映像音声復号装置において、
    上記復号した映像を出力するとともに、出力した映像に続く映像が復号されない場合には、その出力した映像を出力し続ける手段と、
    上記復号した音声を出力するとともに、出力した音声に続く音声が復号されない場合には、特定のフレーム数分の間その出力した音声を出力し、その後無音を出力する手段とを備えることを、
    特徴とする映像音声復号装置。
  11. 請求項1ないしのいずれか1項に記載の映像音声復号方法をコンピュータに実行させるための映像音声復号プログラム。
  12. 請求項1ないしのいずれか1項に記載の映像音声復号方法をコンピュータに実行させるための映像音声復号プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004168796A 2004-06-07 2004-06-07 映像音声復号方法、映像音声復号装置、映像音声復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 Active JP4373283B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004168796A JP4373283B2 (ja) 2004-06-07 2004-06-07 映像音声復号方法、映像音声復号装置、映像音声復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004168796A JP4373283B2 (ja) 2004-06-07 2004-06-07 映像音声復号方法、映像音声復号装置、映像音声復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2005348347A JP2005348347A (ja) 2005-12-15
JP4373283B2 true JP4373283B2 (ja) 2009-11-25

Family

ID=35500262

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004168796A Active JP4373283B2 (ja) 2004-06-07 2004-06-07 映像音声復号方法、映像音声復号装置、映像音声復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4373283B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108712658A (zh) * 2018-05-15 2018-10-26 安徽天卓信息技术有限公司 基于bs结构网络直播用户端播放音屏延时调节系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112511885A (zh) * 2020-11-20 2021-03-16 深圳乐播科技有限公司 音视频同步方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108712658A (zh) * 2018-05-15 2018-10-26 安徽天卓信息技术有限公司 基于bs结构网络直播用户端播放音屏延时调节系统

Also Published As

Publication number Publication date
JP2005348347A (ja) 2005-12-15

Similar Documents

Publication Publication Date Title
TWI606722B (zh) 用於減少視訊編碼及解碼中之延遲的方法、系統及電腦可讀取媒體
JP4690280B2 (ja) メディアデータをストリーミングする方法、システム及びクライアント装置
JP5133567B2 (ja) コーデック変更方法及び装置
EP2011332B1 (en) Method for reducing channel change times in a digital video apparatus
CN109660879B (zh) 直播丢帧方法、系统、计算机设备和存储介质
JP2004502359A (ja) ビデオ誤り回復方法
JP2016506698A (ja) ビデオ・スプライシングを単純化する、バッファリング情報のためのシンタックス及びセマンティックス
CA2599803A1 (en) System and method for generating trick mode streams
US8798162B2 (en) Encoding method, decoding method, encoder, and decoder
JP2010245822A (ja) 動画像符号化装置および動画像符号化方法
US7333711B2 (en) Data distribution apparatus and method, and data distribution system
CN115134629B (zh) 视频传输方法、系统、设备及存储介质
US20050094965A1 (en) Methods and apparatus to improve the rate control during splice transitions
JP2002320228A (ja) 信号処理装置
KR20120036788A (ko) 정보 처리 장치 및 방법, 및 프로그램
JP4373283B2 (ja) 映像音声復号方法、映像音声復号装置、映像音声復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
US7269839B2 (en) Data distribution apparatus and method, and data distribution system
CN110300305B (zh) 视频编码装置与方法
JP2000341686A (ja) トランスコーダ装置
KR101161604B1 (ko) 비디오 스트림의 립 싱크 제어 방법 및 그 장치
JP4350638B2 (ja) 映像記録装置
JPH1022960A (ja) メディア符号化装置
US11197014B2 (en) Encoding apparatus, decoding apparatus, and image processing system
JP2011004163A (ja) 送信装置
JPH11164308A (ja) 映像符号化方法およびこの映像符号化方法による符号データが格納された記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090428

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090901

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090903

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120911

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4373283

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130911

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350