JP4188402B2 - 映像受信装置 - Google Patents

映像受信装置 Download PDF

Info

Publication number
JP4188402B2
JP4188402B2 JP2006514365A JP2006514365A JP4188402B2 JP 4188402 B2 JP4188402 B2 JP 4188402B2 JP 2006514365 A JP2006514365 A JP 2006514365A JP 2006514365 A JP2006514365 A JP 2006514365A JP 4188402 B2 JP4188402 B2 JP 4188402B2
Authority
JP
Japan
Prior art keywords
video
time
display
display time
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006514365A
Other languages
English (en)
Other versions
JPWO2005122578A1 (ja
Inventor
純一 横里
優一 出原
文伸 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2005122578A1 publication Critical patent/JPWO2005122578A1/ja
Application granted granted Critical
Publication of JP4188402B2 publication Critical patent/JP4188402B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/28Flow control; Congestion control in relation to timing considerations
    • H04L47/283Flow control; Congestion control in relation to timing considerations in response to processing delays, e.g. caused by jitter or round trip time [RTT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234318Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4331Caching operations, e.g. of an advertisement for later insertion during playback

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

この発明は、ネットワークを介して伝送されてきた映像データの受信時に発生する遅延時間を軽減して映像再生を行う映像受信装置に関するものである。
近年、ネットワークを経由させて、送信側より映像・音声の高能率符号化の標準MPEG(Moving Picture Experts Group)−4ビデオ等に代表される映像データを伝送し、受信側においてこれを復号化して映像再生を行う映像伝送システムが実現されるようになった。このようなシステムでは、受信側で復号化後、送信側における映像サンプリング時のタイムスタンプに合わせて映像データを出力させている。この受信再生方法では、第1映像フレーム目として伝送する映像データのサイズがネットワークの伝送速度に比べて大きい場合、その映像フレームの伝送遅延が原因となり再生側の表示に遅延が生じ、その後の映像ストリームが全てその遅延を有するまま再生されることになっていた。例えば第1映像フレーム目のサイズをSv1とし、ネットワーク伝送速度をRvとすると、第1映像フレームのネットワーク伝送時間はSv1/Rvとなる。通常、第1映像フレームが再生開始可能となった時間を起点として映像表示を開始し、続く映像フレームは各映像フレームに設定されている表示時間に合わせて表示を行っている。このことにより、撮影した映像と同じ動きの映像の再生がネットワーク経由で可能となる。
しかし、上記状況下では、第1フレーム目の映像については、先頭のパケットが到着してから上記ネットワーク伝送時間Sv1/Rv後に全てのデータが揃うことになり、送信側遅延やデコード遅延とは別に少なくともSv1/Rvの遅延が生じることになる。Sv1≪Rvの場合はその遅延は小さいが、Sv1≫Rvの場合は遅延が大きく、さらに第1フレーム目の表示時間を起点として表示タイミングを計算する後続の映像フレーム全てがその遅延を有して再生されることになる。このような現象はライブ配信等のリアルタイム性が要求される場合においては大きな問題となっていた。
この問題を解決するのに適用できそうな方法として、特開平11−262008号公報(文献1とする。)に記載された技術がある。文献1に記載されているものは、符号化ストリームのビットレートが変動するシステムにおいて、ビットレートが低く設定された場合にも遅延時間を短く維持可能とする符号化装置である。この技術は、主にMPEGをターゲットにしており、ストリームのビットレートが低く設定された場合にはVBV(Video Buffering Verifier)バッファ容量を減少させることにより、ストリーム配信中にビットレートが低ビットレートに変更された場合でも、復号化側における遅延が増加することなく映像データをストリーム配信可能とするものである。
文献1に記載された技術を上記問題点を解決するために適用する場合、最大許容遅延時間で復号化可能なVBVバッファ量を設定し、そのVBVバッファサイズを使用して送信側で映像を符号化することで遅延時間を最大許容遅延時間内に抑えることが可能である。しかしながら、アプリケーションによってはVGA(Video Graphics Array;640×480のサイズの表示解像度)レベルの比較的大きな画面の映像を低帯域ネットワークで送信するシステム要求も存在するので、そのような場合には最大許容遅延時間を満足するようにVBVバッファを設定すると画質面で問題が生じる可能性がある。特に、第1映像フレーム目の画像はイントラフレームである可能性が高いため、最大許容遅延時間を満たすVBVバッファ容量で符号化したストリームの場合、画像の劣化が予想される。
この発明は、上記のような課題を解決するためになされたもので、受信側でデコード画像の表示時間管理を行うことにより、VBVバッファ容量をネットワーク帯域に対応して制限することなく、低帯域のネットワークを介して映像データを受信する場合でも遅延時間を少なくして再生可能にする映像受信装置を得ることを目的とする。
この発明に係る映像受信装置は、符号化された映像データとこの映像データの表示タイムスタンプをパケットによりネットワークを介して受信し、第1パケットの受信時に第1パケット到着通知を出力すると共に、各パケットを順次出力する映像受信部と、順次入力されるパケットから1映像フレーム分ごとの映像データを復号して該当映像フレームの表示タイムスタンプと共に出力する映像復号化部と、映像復号化部からの映像データと該当映像フレームの表示タイムスタンプを受信した際、入手した現在の表示時間と表示タイムスタンプに基づいて映像の表示を開始すると共に、表示開始通知を出力する映像出力部と、映像データの受信開始後から第1映像フレーム目の表示を行うまでの最大許容遅延時間が予め設定されており、第1パケット到着通知を受けると時間計測を開始し、当該計測値が前記最大許容遅延時間に達する前に映像出力部からの表示開始通知を受信した場合、および第1パケット到着通知を受けてから表示開始通知を受ける前に最大許容遅延時間を経過した場合のいずれか早い方の場合を起点にして表示時間の計測を行う表示時間管理を開始し、また映像出力部からの問い合わせに対して現在の表示時間を返す時間管理部とを備え、映像出力部は、計測された表示時間に基づいて次の映像フレームの映像データの表示を開始するようにしたものである。
このことによって、第1映像フレームは伝送時間が大きく、最大許容遅延時間を越えて復号化された場合でも、第2映像フレーム以降は表示時間通りに表示することが可能となり、VBVバッファ容量をネットワーク帯域に対応して制限することなく、低帯域のネットワークを介して映像データを受信する場合でも遅延時間を少なくして再生可能にする効果がある。
この発明の実施の形態1および実施の形態2による映像受信装置が適用された映像伝送システムの基本構成を示すブロック図である。 この発明の実施の形態1による映像受信装置の機能構成を示すブロック図である。 この発明の実施の形態1に係る時間管理部の動作を示すフローチャートである。 この発明の実施の形態1に係る映像フレームの送受信および表示の状況を簡易的に示したタイムチャートである。 最大許容遅延時間の設定機能を有さない映像受信装置適用時の映像フレームの送受信および表示の状況を簡易的に示したタイムチャートである。 この発明の実施の形態2による映像受信装置の機能構成を示すブロック図である。 この発明の実施の形態3乃至実施の形態5の映像受信装置が適用される映像・音声伝送システムの基本構成を示すブロック図である。 この発明の実施の形態3による映像受信装置の機能構成を示すブロック図である。 この発明の実施の形態4による映像受信装置の機能構成を示すブロック図である。 この発明の実施の形態5による映像受信装置の機能構成を示すブロック図である。
以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態1.
実施の形態1と実施の形態2では、映像としてMPEG−4ビデオを使用し、IPネットワーク上でIETF(Internet Engineering Task Force) RFC(Request for Comments)3550で規定されているRTP(Real-time Transport Protocol)を使用して映像や音声のリアルタイムデータを伝送する映像伝送システムを例に説明を行う。本例ではMPEG−4の1VOP(Video Object Plane)は複数のRTP(Real-time Transport Protocol)パケットに分割されて送信され、MPEG−4ビデオをRTPパケットに格納する方式についてはIETF RFC3016で規定されている形式を使用するものとする。
図1はこの発明の実施の形態1および実施の形態2による映像受信装置が適用された映像伝送システムの基本構成を示すブロック図である。このシステムは、映像送信装置101、映像受信装置102、カメラ103、モニタ104およびネットワーク105から構成されている。
図において、カメラ103から取り込まれた映像データは、映像送信装置101でMPEG−4ビデオに符号化され、RTPパケットによりネットワーク105を介して映像受信装置102に送信される。このとき、RTPパケットには、映像データを構成する映像フレームごとのサンプリング時間を表すタイムスタンプも共に組み込まれる。このタイムスタンプは、再生する際の表示時間として用いられる。映像受信装置102では、受信したRTPパケットから得られる符号化映像データを復号し、復号された映像データに対応する映像再生をモニタ104で行う。
図2は実施の形態1による映像受信装置102の機能構成を示すブロック図である。図において、映像受信装置102は、映像受信部201、映像復号化部202、映像出力部203および時間管理部204を備えている。なお、時間管理部204は、ここでは機能の説明上、映像出力部203と別に示されているが、映像出力部203内に含まれていてもよく、このことは実施の形態2においても同様である。
図2において、時間管理部204では、映像データを受信開始後から第1映像フレーム目の表示を行うまでの時間に対する最大許容値を表す最大許容遅延時間を予め設定しておく。映像受信部201は、ネットワーク105を通じて映像送信装置101から送信されたRTPパケットを受信する。映像受信部201では、第1パケットを受信すると、時間管理部204に対し第1パケット到着通知を送り、パケットの順序入れ替えを保証するためにバッファリングを行う。バッファリング後、映像受信部201は、第1パケットから順に映像復号化部202にパケットを入力していく。映像復号化部202では、入力されたパケットが1映像フレーム分揃うと、1映像フレーム分の復号した映像データを生成し、表示用のタイムスタンプと共に映像出力部203に渡す。
映像出力部203では、映像復号化部202からの映像データと表示用のタイムスタンプを受信すると、時間管理部204に対して表示開始通知を送り、モニタ104で映像の表示を開始する。ここで、映像の表示は、映像復号化部202から入力された表示用のタイムスタンプが示す表示時間のタイミングに合わせて行われるものとする。現在の表示時間については定期的に映像出力部203が時間管理部204に問い合わせることで知ることができるようになっている。時間管理部204は、第1パケット到着通知を受けてから表示開始通知を受けるまでの間に、設定した最大許容遅延時間が経過した場合、表示開始通知が到着する前であっても表示時間の時間管理を開始する。
次に、第1パケット受信から表示時間管理開始までの時間管理部204の動作を図3のフローチャートで説明する。
映像受信部201から第1パケット到着通知を受信すると(ステップST1)、時間管理部204は内蔵した表示遅延タイマにより時間計測を開始する(ステップST2)。この表示遅延タイマの計測値が予め設定されている最大許容遅延時間を越えたかどうかを監視する(ステップST3)。計測値が最大許容遅延時間に達する前に映像出力部203より表示開始通知を受信した場合(ステップST4)、表示遅延タイマは時間計測を終了し、その時点を起点に内蔵した表示時間タイマを用いて表示時間の計測を行う表示時間管理を開始する(ステップST5)。この場合、表示開始通知を出した映像出力部203は映像の表示を開始する。
一方、ステップST3において、映像出力部203から表示開始通知を未だ受信していない状態で表示遅延タイマが予め設定されている最大許容遅延時間に達した場合、その時点で表示時間タイマによる表示時間を計測する表示時間管理を開始する(ステップST5)。その後、映像出力部203から表示開始通知を受信した場合、時間管理部204は、すでに表示時間管理が開始されている旨と表示時間タイマの現在の表示時間とを映像出力部203へ応答する。これにより映像出力部203は最大許容遅延時間を超えていることを認識し、第1映像フレーム分を受け取った時点で映像の表示を開始する。
映像の表示を開始した後、映像出力部203は、定期的に時間管理部204に問い合わせることにより現在の表示時間を獲得し、復号映像データを映像復号化部202から受け取った時点で、その復号映像データの表示用のタイムスタンプが現在の表示時間よりも以前の値の場合には直ちに映像の表示を実施する。
図4は、映像送信装置101のカメラ103により取り込まれた各映像フレームが映像受信装置102に伝送され、表示されるまでの状況を簡易的に示したタイムチャートである。901は時間軸を表している。一方、図5は、図4に対比させたタイムチャートで、最大許容遅延時間の設定機能を持たない映像受信装置を用いた場合の状況を示したものである。1001は時間軸、1002は最大許容遅延時間の設定機能を有さない映像受信装置である。図4と図5を用いてこの発明の効果について説明する。
両図において、映像送信装置101は、カメラ103から入力された映像をサンプリングし、符号化し、ネットワークを介して映像送信装置に送信する。VOPは映像フレームを表しており、VOP1のサンプリング時間を表すタイムスタンプTSは0、VOP2のタイムスタンプTSはT1、VOP3のタイムスタンプTSはT2、VOP4のタイムスタンプTSはT3である。映像送信装置101において、時間0にサンプリングした映像を符号化し、映像フレームVOP1を取得したとする。この映像フレームVOP1を、映像送信装置101からネットワーク105を介して映像受信装置102に伝送すると、ネットワーク伝送時間としてT1時間費やす。ここでは、映像フレームVOP1は複数のRTPパケットに分割され伝送されているものとする。次の符号化される映像はT1時間後の映像となり、符号化した映像フレームはVOP2である。同様にVOP3、VOP4も符号化されていく。
映像送信装置101から送信された信号が図5に示される最大許容遅延時間の設定機能を持たない映像受信装置1002で受信された場合、映像受信装置1002は、映像フレームVOP1の全てのRTPパケットを受信すると、映像フレームのデータを復号し、表示可能になった時点で表示時間の計測を行う表示時間管理を開始する。そのため、基本的には映像フレームVOP2はVOP1の表示後のT1時間後に表示が行われ、映像フレームVOP3はVOP2表示後のT2時間後に表示が実施される。このため、第1映像フレームVOP1に生じた遅延は、VOP2以降の映像フレームにも影響を与え、VOP2以降の映像フレームもその遅延を有したまま再生を続けることになる。
一方、映像送信装置101から送信された信号が図4に示される最大許容遅延時間の設定を有する映像受信装置102で受信された場合、映像受信装置102は、映像フレームVOP1をペイロードに格納する先頭パケットを受信したところで、表示遅延タイマにより最大遅延時間の計測を開始する。この例では、第1映像フレームVOP1は伝送速度に対して大きなサイズとなっており、VOP1の最初のパケットを受信開始して、VOP1の最終パケットを受信し終える前に最大許容遅延時間を経過してしまうことになる。そのため、映像フレームVOP1を表示する前に表示時間管理を開始する。この場合、映像フレームVOP1が表示可能になった時点では、既に表示時間管理は開始されているため、VOP1は直ちに表示される。続く映像フレームVOP2では、ネットワーク伝送時間に対して大きな映像フレームではなく、その映像フレームに設定されている表示時間より前に復号が可能であるため、設定された表示時間通りに表示される。その後、映像フレームVOP3、VOP4、…と順次それぞれの設定された表示時間通りに表示することが可能である。
以上のように、第1映像フレームVOP1は伝送時間が最大許容遅延時間より長かったため管理している平均的な表示時間より遅れて表示を開始するが、第2映像フレームVOP2以降は表示時間通りに表示することが可能となる。つまり、伝送速度に対してサイズが大きい映像フレームが第1映像フレーム目に存在した場合でも、第1映像フレームの映像表示は最大許容遅延時間分より遅延するが、その後システムで想定している平均的なサイズの映像フレームで構成される映像が送信される場合には、第1映像フレーム目の遅延は後続の映像フレームの表示時間には影響せず、映像ストリームの第1パケットを受信してから最大でも最大許容遅延時間の遅延で時間管理をしながら映像表示を行うことが可能となる。なお、映像出力部203において、表示時間に遅れて復号された映像フレームについては復号のみ行い、表示を実施しないことも可能である。その場合、この発明では、映像フレーム落ちは発生するが、遅れて到着した映像フレームを表示したことにより生じる不自然な速度の動きの発生を防止することも可能となる。
以上のように、この実施の形態1によれば、時間管理部204において、映像データの受信開始後から第1映像フレーム目の表示を行うまでの最大許容遅延時間が予め設定されており、映像受信部201から第1パケット到着通知を受けると時間計測を開始し、当該計測値が最大許容遅延時間に達する前に映像出力部203からの表示開始通知を受信した場合、および第1パケット到着通知を受けてから表示開始通知を受ける前に最大許容遅延時間を経過した場合のいずれか早い方の場合を起点にして表示時間の計測を行う表示時間管理を開始し、また映像出力部203からの問い合わせに対して現在の表示時間を返すようにし、映像出力部203が、計測された表示時間に基づいて次の映像フレームの映像データの表示を開始するようにしている。したがって、第1映像フレームは伝送時間が大きく、最大許容遅延時間を越えて復号化された場合でも、第2映像フレーム以降は表示時間通りに表示することが可能となる。そのため、VBVバッファ容量をネットワーク帯域に対応して制限することなく、低帯域のネットワークを介して映像データを受信する場合でも遅延時間を少なくして再生可能にする。
実施の形態2.
図6は実施の形態2による映像受信装置の機能構成を示すブロック図である。この図に示される映像受信装置102の構成は、実施の形態1の図2と比較すると、表示時間変換部301が追加され、映像出力部203の代わりに映像出力部303が設けられている。この映像出力部303は、上記映像出力部203の機能に加え、映像表示前に表示する映像フレームの表示用のタイムスタンプと現在の表示時間を表示時間変換部301に渡す機能を有している。表示時間変換部301は、表示時間に遅れた映像フレームの当該表示時間を徐々に戻すための予め設定された所定の時間パラメータを用いタイムスタンプと現在の表示時間に遅れによる差がある場合、その後順次受信される映像フレームのタイムスタンプを現在の表示時間と一致するまで徐々に補正していく手段である。以下の説明において、図2に相当する部分に対する重複説明を原則として省略するものとする。
映像出力部303は、映像復号化部202で復号された映像フレームを受信すると、時間管理部204に現在の表示時間を問い合わせる。映像出力部303は、得られた現在の表示時間を、受信した映像フレームの表示用のタイムスタンプと共に表示時間変換部301に渡す。表示時間変換部301は、受け取ったタイムスタンプを現在の表示時間と比較し、そのタイムスタンプが現在の表示時間よりも遅れている場合には、遅延時間ΔTdを求め、その遅延時間ΔTdと現在の表示時間Tmを記憶し、タイムスタンプと現在の表示時間についてはそのまま映像出力部303に対して返す。映像出力部303は、その映像フレームをモニタ104に表示させ、その後、続く次の映像フレームを映像復号化部202より受信すると、時間管理部204に現在の表示時間を問い合わせ、同様に表示時間変換部301にその映像フレームの表示用のタイムスタンプTSpと現在の表示時間Tpを渡す。
ここで、表示時間変換部301には、表示時間に遅れた映像フレームが存在した場合にその表示時間を徐々に戻すための時間パラメータTrが予め設定されているものとする。表示時間変換部301では、記憶していた遅延時間ΔTdを時間パラメータTrで割った値(ΔTd÷Tr)を得る。次に、記憶している表示時間TmとタイムスタンプTSpの差分をこの(ΔTd÷Tr)に乗算した値ΔTを求め、さらにΔTを遅延時間ΔTdから減じた値を計算し、映像出力部303から受け取ったタイムスタンプTSpに(ΔTd−ΔT)を加算した値TSp’を補正後の表示用のタイムスタンプとして返す。この補正動作は、映像出力部303が復号化した映像を受け取る度に一度のみ実行する。
最終的に表示時間変換部301が映像出力部303に返す補正後の表示用のタイムスタンプTSp’の計算式は(1)、(2)式のようになる。
ΔT=(TSp−Tm)×(ΔTd÷Tr) (1)
TSp’=TSp+(ΔTd−ΔT) (2)
ここで、(ΔTd−ΔT)が負の値になった場合には表示時間変換処理は終了し、受信した表示用のタイムスタンプをそのまま返すこととする。また、表示用のタイムスタンプTSpに(ΔTd−ΔT)を加算した値(補正後の表示用タイムスタンプTSp’)が現在の表示時間より小さかった(過去の時間を示している)場合、再度遅延時間ΔTと現在の表示時間Tmを受信した値として記憶し直す。
以上のように、この実施の形態2によれば、表示時間変換部301において、復号された映像フレームを順次受信した際に映像出力部303が時間管理部204から得た現在の表示時間を、対応する映像フレームのタイムスタンプと共に受信し、最初の映像フレームのタイムスタンプが現在の表示時間よりも遅れている場合にはその遅延時間を求めて現在の表示時間と共に記憶しておき、表示時間に遅れた映像フレームの当該表示時間を徐々に戻すための予め設定された所定の時間パラメータと、記憶していた遅延時間および表示時間と、次に受け取った映像フレームに関する現在の表示時間に基づいて、次に受け取ったタイムスタンプを補正し、映像出力部303が、表示時間変換部301から返される元のタイムスタンプまたは補正後のタイムスタンプと、対応した現在の表示時間に基づいて映像の表示を行うようにしている。したがって、管理する表示時間に対し、表示時間に遅延して復号された映像フレームが存在した場合には、次映像フレーム以降の映像の表示時間を一度に正常に戻すと、動きが不自然になる可能性があるが、上記のように一定時間かけて徐々に正常な表示時間に近付けることで、自然に表示時間を元に戻すことが可能となる。
実施の形態3.
この実施の形態3では、上記各実施の形態と同様に、映像としてMPEG−4ビデオを使用し、IPネットワーク上でIETF RFC3550で規定されているRTPを使用して伝送する映像・音声伝送システムを例に説明する。また、MPEG−4の1VOPは複数のRTPパケットに分割されて送信され、MPEG−4ビデオをRTPパケットに格納する方式についてはIETF RFC3016で規定されている形式を使用するものとする。なお、続く実施の形態4および実施の形態5の場合も同じ条件に適用されたものとする。
図7は実施の形態3乃至実施の形態5の映像受信装置が適用される映像・音声伝送システムの基本構成を示すブロック図である。この場合の映像伝送システムは、映像送信装置401、映像受信装置402、マイク403、スピーカ404およびネットワーク105から構成されている。
図において、映像送信装置401は、カメラ103から入力された映像データとマイク403から入力された音声データを符号化し、両者を同期させて別々のポートを使用してRTPでストリーミング送信を行う。映像受信装置402は、別々のポートで受信した映像と音声のストリームから映像データと音声データを復号し、それぞれのタイムスタンプ情報を基に同期してそれぞれモニタ104とスピーカ404に出力し、映像と音声の再生を行う。
図8は実施の形態3による映像受信装置402の機能構成を示すブロック図である。図において、映像受信装置402は、映像受信部501、映像復号化部502、映像出力部503、時間管理部504、音声受信部505、音声復号化部506および音声出力部507を備えている。映像受信部501と映像復号化部502は、図2の映像受信部201と映像復号化部202と機能的に同じである。
図8において、映像受信部501は、映像の第1パケットを受信すると、時間管理部504に対し第1パケット到着通知を送る。映像復号化部502では、バッファリング後、映像受信部501から入力されるパケットが1映像フレーム分揃うと、1映像フレーム分の復号した映像データを生成し、表示用のタイムスタンプと共に映像出力部503に渡す。映像出力部503では、復号された第1映像フレームを映像復号化部502より受け取ると、表示準備完了通知とその第1映像フレームの表示用のタイムスタンプを時間管理部504に対して送る。
一方、音声受信部505は、音声パケットを受信すると、時間管理部504に対して第1パケットの到着通知を送り、映像と同様にバッファリングすることでパケットの順序入れ替わりを保証し、その後、音声復号化部506に音声パケットを出力する。音声復号化部506では、符号化された音声を復号化し、復号データとしてPCM(Pulse Code Modulation)データを音声出力部507に出力する。音声出力部507では、最初のPCMデータを音声復号化部506より受信すると、時間管理部504に対して、表示準備完了通知と先頭のPCMデータのタイムスタンプを送る。
時間管理部504では、映像と音声のタイムスタンプの同期をとる機能を有している。時間管理部504は、あらかじめ同一時刻を示す映像と音声のタイムスタンプの対応付けを知っており、双方の表示準備完了通知を受け取った場合、双方のタイムスタンプの内、時刻として過去を表しているタイムスタンプを起点に時間管理を開始して、その時点で、映像出力部503と音声出力部507に対して表示開始指示を返す。映像出力部503と音声出力部507は、表示開始指示を受信すると、定期的に時間管理部504に対して表示時間の問い合わせを行いながら同期したタイムスタンプに基づいて映像の表示と音声の再生を行う。ここで時間管理部504は各メディアのタイムスタンプの時刻表示に変換した値で時間情報を返すものとする。
また、時間管理部504には、図2の時間管理部204と同様に最大許容遅延時間が設定されている。時間管理部504は、映像または音声のいずれか一方の第1パケット到着通知を受信すると内蔵の表示遅延タイマにより時間計測を開始し、当該第1パケット到着通知を受けてから映像表示準備完了通知を受けるまでの間に、設定した最大許容遅延時間が経過した場合、映像の表示準備完了通知が到着する前であっても、その時点で、内蔵の表示時間タイマを用いて表示時間の計測を行う表示時間管理を開始する。この表示時間管理の開始時点では、既に音声出力部507からの音声の表示準備完了通知を受信しているので、表示開始指示を音声出力部507に送り音声の第1パケットのタイムスタンプを起点に表示時間管理を開始して、映像の表示と音声の再生を行わせる。
以上のように、この実施の形態3によれば、時間管理部504において、最大許容遅延時間の設定に加え、かつ映像と音声のタイムスタンプの同期関係を知っており、映像または音声のいずれか一方の第1パケット到着通知を受けると時間計測を開始し、当該計測値が最大許容遅延時間に達する前に映像側の表示準備完了通知を受けた場合、および第1パケット到着通知を受けてから映像側の表示準備完了通知を受ける前に最大許容遅延時間を経過した場合のいずれか早い方を起点にして表示時間の計測を行う表示時間管理を開始し、当該表示時間管理の開始時点に表示開始指示を映像出力部と前記音声出力部に対して送り、また前記映像出力部と前記音声出力部からの定期的な問い合わせに対して現在の表示時間を返すようにし、映像出力部503と音声出力部507は、前記表示開始指示をそれぞれ受信すると、タイムスタンプと現在の表示時間に基づいて映像の表示および音声の再生を開始するようにしている。
通常、音声の1サンプルはネットワーク帯域と比較してネットワーク伝送時間が問題になるほど大きなサイズになることは無いため、この実施の形態3でも、最大許容遅延時間の処理対象は映像ストリームについて行うことになる。したがって、伝送速度に対してサイズが大きい映像フレームが第1映像フレーム目に存在した場合には、その第1映像フレームの映像表示は最大許容遅延時間分より遅延して行われる。そのため、本来対応している音声と同期しないことになる。しかし、その後、この映像・音声伝送システムで想定している平均的なサイズの映像フレームで構成される映像が送信される場合、第1映像フレーム目の遅延は、この実施の形態3で許容範囲に補正されることにより、後続する映像フレームの表示時間には影響を及ぼさなくなる。その結果、音声は、第1映像フレームを構成する最終のパケットを受信してから最大でも最大許容遅延時間分の遅延で映像表示と同期しながら再生されることが可能となる。
実施の形態4.
図9は実施の形態4による映像受信装置の機能構成を示すブロック図である。この図に示される映像受信装置402の構成は、実施の形態3の図8と比較すると、表示履歴記憶部601が追加され、時間管理部504の代わりに時間管理部604が設けられている。表示履歴記憶部601は映像の表示用のタイムスタンプと対応する表示時間を表示履歴情報として記憶する手段である。また、映像出力部602は、映像を出力した時間とタイムスタンプを時間管理部604に通知する機能を加えたものである。時間管理部604は、図8の時間管理部504の機能に追加して、表示履歴記憶部601の表示履歴情報を監視し、タイムスタンプが表示時間に対して一定以上の時間連続して遅れた場合には一時停止時間を含む再同期通知を行う機能を有している。以下の説明において、図8に相当する部分に対する重複説明は原則として省略するものとする。
時間管理部604は、最大許容遅延時間を経過した場合の表示時間管理を開始したときには、映像フレームの表示用のタイムスタンプと対応する表示時間を表示履歴記憶部601に記録して、表示履歴情報を監視する。表示履歴情報において、タイムスタンプが一定以上の時間連続して対応する表示時間に対して遅れている場合、再同期通知を音声出力部507に送る。この再同期通知は一時停止時間を含むものである。一時停止時間は、表示履歴記憶部601の表示履歴情報に基づいて、映像が表示時間に合わせて十分表示可能となるように設定されている。再同期通知を行った場合、音声出力部507は一時停止時間に合わせて音声の再生を停止し、映像が表示可能となった状態で再開する。再同期通知以降、時間管理部604は一時停止時間分遅れた時間を現在の表示時間として映像出力部602および音声出力部507からの問い合わせに対し返すようにし、音声出力部507は返された一時停止時間分遅れた現在の表示時間に基づいて音声を再生する。
以上のように、この実施の形態4によれば、時間管理部604は、最大許容遅延時間を経過した場合の表示時間管理の開始において該当する映像のタイムスタンプと対応する表示時間を表示履歴情報として表示履歴記憶部601に記憶し、この表示履歴情報におけるタイムスタンプが対応する表示時間に対して一定以上の時間連続して遅れている場合には一時停止時間を含む再同期通知を音声出力部507に通知し、その再同期通知以降、一時停止時間分遅れた時間を現在の表示時間として映像出力部602と音声出力部507からの問い合わせに対し返し、音声出力部507は、時間管理部604から受信した再同期通知の一時停止時間に従って音声の再生を停止し、その後返された一時停止時間分遅れた現在の表示時間に基づいて音声を再生するようにしている。したがって、最大許容遅延時間の設定時に想定していた平均的なサイズ以上の映像フレームが続いた場合には、音声の再生を一時停止し、再同期を行うことで映像の表示と音声の同期を可能にする。
実施の形態5.
図10は実施の形態5による映像受信装置の機能構成を示すブロック図である。この図に示される映像受信装置402の構成は、実施の形態4の図9と比較すると、出力時間変換部701が追加され、音声出力部507の代わりに音声出力部707が設けられている。音声出力部707は、上記音声出力部507のように一時停止通知の受信時に音声再生の一時停止を行うのではなく、出力時間変換部701で変換されたタイムスタンプに合わせて音声を出力する機能を有しているものである。そのため、出力時間変換部701は、後述するように、音声データと映像データ間の遅延時間を算出し、音声のタイムスタンプを当該遅延時間で補正した変換タイムスタンプを生成する手段である。
図10の場合の音声出力部707では、時間管理部604より一時停止時間を含む再同期通知を受信すると、出力時間変換部701に対して、現在の表示時間と一時停止時間を通知する。出力時間変換部701は、受信した一時停止時間Tsを予め設定された再同期処理時間で除算した値ΔTpを求める。その後出力する音声データが音声出力部707に到着した場合、音声出力部707は、時間管理部604に問い合わせて得た音声の表示用のタイムスタンプTSpを出力時間変換部701に渡す。出力時間変換部701では、タイムスタンプTSpから一時停止時間Tsを減算した値Ttを求める。さらに、タイムスタンプTSpと再同期通知が到着した時間Tmの差分を上記値ΔTpに乗算し、その積を上記値Ttに加算した結果TSp’を、出力タイムスタンプとして音声出力部707に返す。最終的に出力時間変換部701が音声出力部707に返す変換タイムスタンプTSp’の計算式は(3)、(4)式のようになる。
Tt=TSp−Ts (3)
TSp’=Tt+(TSp−Tm)×ΔTp (4)
出力時間変換部701は、再同期通知が到着した時刻から、設定されている再同期処理時間が経過した時点で出力時間変換の処理を終了する。音声出力部707は、変換タイムスタンプによる出力時間に合わせて音声を出力することになり、音声が途切れることなく、映像の表示と音声の再生を再同期することが可能となる。但し音声の場合は、サンプリングタイミングと同様のタイミングで再生を行わないと雑音や歪みが発生する可能性があり、サンプルの補正等を行うことも必要となるが、その方法についてはこの実施の形態5では特定せず、一般的な方法を使用することとする。
以上のように、この実施の形態5によれば、出力時間変換部701により、一時停止時間、予め設定された再同期処理時間、音声のタイムスタンプおよび再同期通知が到着した時間に基づいて、音声データと映像データ間の遅延時間を算出し、音声のタイムスタンプに当該遅延時間を加算した変換タイムスタンプを生成して音声出力部707に返し、音声出力部707が、この変換タイムスタンプに合わせて音声の再生を行うようにしたものである。したがって、音声データの再生開始後、一定時間経過後も音声データと映像データ間に遅延時間が存在し、同期再生処理が不可能な場合には、映像データと音声データとの同期再生が正常に戻るまで音声の再生時間に遅延時間を加算して再生することができる。
以上のように、この発明に係る映像受信装置は、受信側でデコード画像の表示時間管理を行うことにより、低帯域のネットワークを介して映像データを受信する場合において遅延時間を少なくして再生可能にすることができるので、リアルタイムな映像を遠隔で扱う監視システムに適している。

Claims (6)

  1. 符号化された映像データとこの映像データの表示タイムスタンプをパケットによりネットワークを介して受信し、第1パケットの受信時に第1パケット到着通知を出力すると共に、各パケットを順次出力する映像受信部と、
    順次入力されるパケットから1映像フレーム分ごとの映像データを復号して該当映像フレームの表示タイムスタンプと共に出力する映像復号化部と、
    復号された映像データと該当映像フレームの表示タイムスタンプを受信した際、入手した現在の表示時間と前記表示タイムスタンプに基づいて映像の表示を開始すると共に、表示開始通知を出力する映像出力部と、
    映像データの受信開始後から第1映像フレーム目の表示を行うまでの最大許容遅延時間が予め設定されており、前記第1パケット到着通知を受けると時間計測を開始し、当該計測値が前記最大許容遅延時間に達する前に前記映像出力部からの表示開始通知を受信した場合、および前記第1パケット到着通知を受けてから前記表示開始通知を受ける前に前記最大許容遅延時間を経過した場合のいずれか早い方の場合を起点にして表示時間の計測を行う表示時間管理を開始し、また前記映像出力部からの問い合わせに対して現在の表示時間を返す時間管理部とを備え、
    前記映像出力部は、計測された表示時間に基づいて次の映像フレームの映像データの表示を開始することを特徴とする映像受信装置。
  2. 復号された映像フレームを順次受信した際に映像出力部が時間管理部から得た現在の表示時間を、対応する映像フレームの表示タイムスタンプと共に受信し、最初の映像フレームの表示タイムスタンプが現在の表示時間よりも遅れている場合にはその遅延時間を求めて現在の表示時間と共に記憶しておき、表示時間に遅れた映像フレームの当該表示時間を徐々に戻すための予め設定された所定の時間パラメータと、前記記憶していた遅延時間および表示時間と、次に受け取った映像フレームに関する現在の表示時間に基づいて、次に受け取った表示タイムスタンプを補正していく表示時間変換部を備え、
    前記映像出力部は、前記表示時間変換部から返される元の表示タイムスタンプまたは補正後の表示タイムスタンプと、対応した現在の表示時間に基づいて映像の表示を行うようにしたことを特徴とする請求の範囲第1項記載の映像表示装置。
  3. 映像データに同期した符号化された音声データのパケットを受信し、音声の第1パケットの受信時に第1パケット到着通知を出力すると共に、音声パケットを順次出力する音声受信部と、
    順次入力される音声パケットから音声データを復号してその表示タイムスタンプと共に出力する音声復号化部と、
    最初の復号音声データを受信した際に表示準備完了通知と、対応する表示タイムスタンプとを出力し、その後入力される表示開始指示に従って音声の再生を開始する音声出力部と、
    時間管理部は、最大許容遅延時間の設定に加え、同一時刻を示す映像と音声の表示タイムスタンプの対応づけをあらかじめ知っており、映像または音声のいずれか一方の第1パケット到着通知を受けると時間計測を開始し、当該計測値が最大許容遅延時間に達する前に映像側の表示準備完了通知を受けた場合、および前記第1パケット到着通知を受けてから映像側の表示準備完了通知を受ける前に前記最大許容遅延時間を経過した場合のいずれか早い方を起点にして表示時間の計測を行う表示時間管理を開始し、当該表示時間管理の開始時点に表示開始指示を映像出力部と前記音声出力部に対して送り、また前記映像出力部と前記音声出力部からの定期的な問い合わせに対して現在の表示時間を返すようにし、
    前記映像出力部と前記音声出力部は、前記表示開始指示をそれぞれ受信すると、表示タイムスタンプと現在の表示時間に基づいて映像の表示および音声の再生を開始することを特徴とする請求の範囲第1項記載の映像受信装置。
  4. 映像の表示タイムスタンプと対応する表示時間を表示履歴情報として記憶する表示履歴記憶部を備え、
    時間管理部は、最大許容遅延時間を経過した場合の表示時間管理の開始において該当する映像の表示タイムスタンプと対応する表示時間を表示履歴情報として前記表示履歴記憶部に記憶し、前記表示履歴情報における表示タイムスタンプが対応する表示時間に対して一定以上の時間連続して遅れている場合には一時停止時間を含む再同期通知を音声出力部に通知し、当該再同期通知以降、一時停止時間分遅れた時間を現在の表示時間として前記映像出力部と前記音声出力部からの問い合わせに対し返し、
    前記音声出力部は、前記時間管理部から受信した再同期通知の一時停止時間に従って音声の再生を停止し、その後返された一時停止時間分遅れた現在の表示時間に基づいて音声を再生することを特徴とする請求の範囲第3項記載の映像受信装置。
  5. 一時停止時間、予め設定された再同期処理時間、音声の表示タイムスタンプおよび再同期通知が到着した時間に基づいて、音声データと映像データ間の遅延時間を算出し、前記音声の表示タイムスタンプに当該遅延時間を加算した変換表示タイムスタンプを生成して音声出力部に返す出力時間変換部を備え、
    前記音声出力部は、前記変換表示タイムスタンプに合わせて音声の再生を行うことを特徴とする請求の範囲第4項記載の映像受信装置。
  6. 復号された映像フレームを順次受信した際に映像出力部が時間管理部から得た現在の表示時間を、対応する映像フレームのタイムスタンプと共に受信し、最初の映像フレームのタイムスタンプが現在の表示時間よりも遅れている場合にはその遅延時間を求めて現在の表示時間と共に記憶しておき、表示時間に遅れた映像フレームの当該表示時間を徐々に戻すための予め設定された所定の時間パラメータと、前記記憶していた遅延時間および表示時間と、次に受け取った映像フレームに関する現在の表示時間に基づいて、次に受け取ったタイムスタンプを補正していく表示時間変換部を備え、
    前記映像出力部は、前記表示時間変換部から返される元のタイムスタンプまたは補正後のタイムスタンプと、対応した現在の表示時間に基づいて映像の表示を行うようにしたことを特徴とする請求の範囲第3項記載の映像受信装置。
JP2006514365A 2004-06-08 2004-06-08 映像受信装置 Expired - Fee Related JP4188402B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2004/007954 WO2005122578A1 (ja) 2004-06-08 2004-06-08 映像受信装置

Publications (2)

Publication Number Publication Date
JPWO2005122578A1 JPWO2005122578A1 (ja) 2008-04-10
JP4188402B2 true JP4188402B2 (ja) 2008-11-26

Family

ID=35503514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006514365A Expired - Fee Related JP4188402B2 (ja) 2004-06-08 2004-06-08 映像受信装置

Country Status (2)

Country Link
JP (1) JP4188402B2 (ja)
WO (1) WO2005122578A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0951515A (ja) * 1995-08-04 1997-02-18 Canon Inc データ伝送システム及び通信装置
JPH09214936A (ja) * 1996-02-06 1997-08-15 Nippon Telegr & Teleph Corp <Ntt> ネットワーク動画像配信システム
JP4616537B2 (ja) * 2002-03-26 2011-01-19 パナソニック電工株式会社 動画像通信システム

Also Published As

Publication number Publication date
WO2005122578A1 (ja) 2005-12-22
JPWO2005122578A1 (ja) 2008-04-10

Similar Documents

Publication Publication Date Title
CN101036389B (zh) 内容接收器、视频/音频输出定时控制方法和内容提供系统
JP5489675B2 (ja) 映像情報再生方法及びシステム、並びに映像情報コンテンツ
US7865928B2 (en) System and method of audio/video streaming
US8745432B2 (en) Delay controller, control method, and communication system
CN1868213B (zh) 内容接收设备、视频/音频输出定时控制方法及内容提供系统
US8526501B2 (en) Decoder and decoding method based on video and audio time information
KR101350754B1 (ko) 채널 변경 시간을 감소시키고 채널 변경 동안 오디오/비디오 콘텐츠를 동기화하는 방법
JP2004507178A (ja) ビデオ信号符号化方法
KR20140104969A (ko) 비동기 네트워크를 통해 멀티미디어 콘텐츠를 동기 전송하는 장치 및 방법
US20080022007A1 (en) System and method of audio/video streaming
JP2004509491A (ja) オーディオおよびビデオ信号の同期化
JP2009512265A (ja) ネットワーク上の動画データ伝送制御システムとその方法
JP2005286749A (ja) 映像復号化装置およびそれを用いた映像伝送システム
JP2004289295A (ja) データ処理システム、データ処理装置及びデータ処理方法
JP4188402B2 (ja) 映像受信装置
US20060161676A1 (en) Apparatus for IP streaming capable of smoothing multimedia stream
JP5186094B2 (ja) 通信端末、マルチメディア再生制御方法、およびプログラム
JP4506222B2 (ja) 通信システム、送信装置および方法、並びにプログラム
CN100544448C (zh) 一种移动多媒体网络的时钟同步系统
JP4882213B2 (ja) コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム
JP2008278323A (ja) ネットワークカメラ
JP4735932B2 (ja) コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム
JP2011015214A (ja) 送信装置、送信方法、及びコンピュータプログラム
JP5720285B2 (ja) ストリーミングシステム
JP2005252515A (ja) データ配信方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080812

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080910

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110919

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110919

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120919

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130919

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees