JP2007535258A - 受信端末において音声パケット・バッファーの連続的適応制御を提供する方法及び装置 - Google Patents

受信端末において音声パケット・バッファーの連続的適応制御を提供する方法及び装置 Download PDF

Info

Publication number
JP2007535258A
JP2007535258A JP2007510146A JP2007510146A JP2007535258A JP 2007535258 A JP2007535258 A JP 2007535258A JP 2007510146 A JP2007510146 A JP 2007510146A JP 2007510146 A JP2007510146 A JP 2007510146A JP 2007535258 A JP2007535258 A JP 2007535258A
Authority
JP
Japan
Prior art keywords
delay time
packet
interruption
time
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007510146A
Other languages
English (en)
Other versions
JP4456633B2 (ja
Inventor
ヤニ マリラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2007535258A publication Critical patent/JP2007535258A/ja
Application granted granted Critical
Publication of JP4456633B2 publication Critical patent/JP4456633B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/253Telephone sets using digital voice transmission
    • H04M1/2535Telephone sets using digital voice transmission adapted for voice communication over an Internet Protocol [IP] network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/062Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
    • H04J3/0632Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

実質的に連続的で且つ実質的に均一な時系列で人に呈示されるべく意図されている、音声信号のような時間順序付けられたコンテンツを表す情報を含むデータパケットを受信してバッファリングし、サンプルを得るべく該情報を復号し、再生信号を生成する前に該サンプルをバッファリングする、装置、コンピュータ・プログラム及び方法が開示される。該サンプルは、データパケットが作成される速度とは異なる速度で該データパケットが受信されるときに実質的に連続的な出力信号を提供するように再生速度を変更し得るように、パケット・ネットワークの状態の関数として時間スケーリングされる。時間スケーリング操作は、データパケットが作成される速度より遅い速度で該データパケットが受信されるときに正の方向に制御されるベース遅延時間と、該ベース遅延時間が負になったならば中断に対する保証を提供するように管理されるリザーブ遅延時間とで動作する。
【選択図】図1

Description

本発明は、遠隔通信装置及び端末に関し、特に、パケット交換ネットワークに接続されてVoIP(Voice over Internet Protocol(ボイス・オーバー・インターネット・プロトコル))コール中などに音声包含データパケットを受け取ることのできる端末に関する。主として音声包含パケットを受信して再生することに関して記述されるけれども、本発明は、ビデオ情報を含むパケットにも関し、また一般的に、実質的に連続的で且つ実質的に均一な時系列で(すなわち、中断及び不連続部が無いように)聴取者又は視聴者に呈示されるべく意図されている時間順序付けられたコンテンツを運ぶパケットに関する。音声コンテンツ及びビデオ・コンテンツは、時間順序付けられたコンテンツの2つの主要な、非限定的な例である。
ジェネラル・パケット・ラジオ・システム(General Packet Radio System(GPRS))無線システムのようなパケット交換システムでは、データパケット到着時間の変動に起因する不確実性がシステム性能に大きな影響を及ぼすことがあり得る。パケット到着時間の変動の理由は、ネットワーク資源の輻輳と、連続するパケット間での経路変動とを含む。VoIPシステムの場合のように、パケットが音声データを含むとき、連続的な音声出力を得るためにデータパケット受信器におけるバッファリング深さ、或いはバッファリング遅延時間は、パケット到着時間の変動に比例するべきである。在来の固定初期遅延時間データ・バッファーは、その様な変動を或る程度除去することができる。しかし、ネットワーク資源の輻輳、受信する端末の位置及びネットワーク・コンポーネントの具体的実現態様に応じてネットワーク状態は変化するであろう。在来の(固定遅延時間)バッファリングでは、変化するネットワーク状態に反応することは不可能である。更に、スループットが一貫して低いときには、受信器・バッファーのアンダーフローを防止することは不可能である。
これらの理由から、バッファリング遅延時間に関して最適の動作が希望され、また音声出力の中断が最小限度であることが希望されるならば、何らかのタイプの適応バッファー制御が導入される必要がある。このバッファー制御は、バッファリング遅延時間をなるべく滑らかに変化させる能力を持つべきである。換言すれば、短期間にわたってバッファリング遅延時間が始めに短縮され、その後に長くされ、その後に再び短縮され、以降同様に行われる場合よりも長い期間にわたってバッファリング遅延時間の変更が同じ比率で行われるのが最も望ましい。
少なくとも2つの従来技術バッファー制御手法は、ネットワークのエンド・ツー・エンド遅延時間についての正確な知識を必要とする。その1つは、コンピュータ通信会議論文集IEEE INFOCOM '94(IEEE INFOCOM '94, The Conference on Computer Communications Proceedings )、カナダ・トロント、6月12−13日、第2巻、pp.680−688のラムジェー・アール(Ramjee R.)著(1994年)、"ワイド・エリア・ネットワークにおけるパケット化オーディオ・アプリケーションのための適応再生メカニズム(Adaptive Playout Mechanisms for Packetized Audio Applications in Wide-Area Networks)"、であり、もう一つは音響学、音声、及び信号処理に関するIEEE国際会議の論文集(IEEE International Conference on Acoustics, Speech, and Signal Processing Proceedings)、ソルトレークシティー、5月7−11日、第3巻、pp.1445-1448のリアン・ワイ・ジェー(Liang Y.J.)著(2001年)、"パケット音声通信における時間スケール修正を用いる適応再生スケジューリング(Adaptive Playout Scheduling Using Time-Scale Modification in Packet Voice Communications)"、である。しかし、エンド・ツー・エンド遅延時間を正確に得るためには送信側端末と受信側端末とに同期化されたクロックを用いる必要があるので、殆どの市販されている端末で正確に得ることは現在は不可能である。
このタイプの情報を必要としない他の手法、すなわちテレフォンアクチエボラゲト・エルエム・エリクソン(Tlefonaktiebolaget LM Ericsson)、"適応ジッター・バッファリング(Adaptive Jitter Buffering)"、WO00/42749、が提案されている。このアプローチは、固定されたサンプリング間隔にわたってネットワークの状態を推定しようと試みる。ポーズ又は遅延時間スパイク(中断は、バッファーが空である期間の長さ、或いは、より正確には、時間スケーリングがなんら導入されなかったならば空だったであろう期間の長さであると考えられる)が割合に短い間隔で発生するときにはこのアプローチは或る程度役に立つであろうけれども、もし連続するポーズ間の間隔がサンプリング間隔より大きければ、サンプリング間隔のうちの1つの間にポーズが発生しない場合があり得る。その結果として、ポーズが発生した場合とは対照的に、制御メカニズムはバッファリング遅延時間を小さくする。もしポーズが次のサンプリング間隔中に発生すれば、それはバッファーのアンダーフローに起因して音声における望ましくないポーズを生じさせる。音声中断後、次のサンプリング間隔中にバッファリング遅延時間は再び大きくされる。理解されるであろうように、このタイプの操作は、制御メカニズムによってバッファリング遅延時間が短縮/増大/短縮され、また以降同様にされ、再生速度の不要な揺らぎを生じさせるという事態を容易に招来することがあり得る。更に、バッファリング遅延時間変更を行う前に或る一定数のパケットが蓄積されなければならない(サンプリング間隔)。これは、パケットが低減された速度で到着するときに反応時間の低下をもたらし、また、バッファリング遅延時間がサンプリング間隔後にのみ増大されるので音声出力の中断の可能性を潜在的に大きくする可能性を有する。WO00/42749のアプローチでは、バッファー遅延時間の変更はパケットを捨てるか又は遅延時間させることにより達成され、より具体的にはこの変更は沈黙を含む音声フレームを付け加え又は除去することによって沈黙時間中に行われる。しかし、沈黙だけを付け加え又は除去することは沈黙時間と音声時間との時間関係の変化をもたらし、それはセンテンス同士の間に、また場合によってはワード同士の間に、不自然に響く非常に長い又は非常に短い沈黙をもたらす可能性を有する。沈黙時間の長さは、センテンスごとに、或いはワードごとに変化することがあり、従って音声に不自然なリズムを生じさせることがある。
一般に、適応バッファー制御は、必要なときにだけ適用されるべきである。パケット交換ネットワークの状態は、パケットがバーストをなして到着し、各バースト間に長い(おそらく数秒間)遅延時間があるような状態であると言える。これは、もし長期間到着間隔平均値がパケットが作成された速度と同じならば、問題ではない。このことは、物理的なバッファーのサイズが受信器の側で変動に対処するのに充分な長さであるべきであるというに過ぎない。しかし、適応バッファー制御の設計においてこれが考慮されるべきである。なぜならば、バッファリング遅延時間が揺らいでも音声の再生速度はうるさく揺らぐべきではないからである。
従って、音声又はビデオ信号を含むデータパケットの到着時間の可変性に対する現在の対策は充分ではなく、VoIP及びその他のタイプのデータパケットに基くネットワーク・システムにおいて自然に響く音声の提供に固有の問題に充分に対処していないことが理解され得る。
上で引用された共通譲渡されている米国特許出願では、バッファー制御アプローチはパケット到着の中断の推定値を使用する。多くのネットワーク環境での使用に良く適してはいるけれども、音声パケットがバースト的に到着する『GSM進化のための高度データ転送速度(Enhanced Data rates for GSM Evolution (EDGE))』環境のような或る高度に動的な環境では、別のタイプのバッファー制御メカニズムの方がもっと良く適する可能性がある。例えば、このタイプのネットワークでは、2秒間の音声を表すパケットが非常に短い間隔の間に到着する可能性があり、その後に、音声を含むパケットの到着に2秒間のポーズがあり得る。
WO00/42749 コンピュータ通信会議論文集IEEE INFOCOM '94(IEEE INFOCOM '94, The Conference on Computer Communications Proceedings )、カナダ・トロント、6月12−13日、第2巻、pp.680−688のラムジェー・アール(Ramjee R.)著(1994年)、"ワイド・エリア・ネットワークにおけるパケット化オーディオ・アプリケーションのための適応再生メカニズム(Adaptive Playout Mechanisms for Packetized Audio Applications in Wide-Area Networks)" 音響学、音声、及び信号処理に関するIEEE国際会議の論文集(IEEE International Conference on Acoustics, Speech, and Signal Processing Proceedings)、ソルトレークシティー、5月7−11日、第3巻、pp.1445-1448のリアン・ワイ・ジェー(Liang Y.J.)著(2001年)、"パケット音声通信における時間スケール修正を用いる適応再生スケジューリング(Adaptive Playout Scheduling Using Time-Scale Modification in Packet Voice Communications)"
好適な実施形態のまとめ
これらの教示に関して現在好ましい実施態様に従うと、上記問題及び他の問題が克服され、他の利点が実現される。
本発明の1つの側面は、長いポーズがあってももしオーディオ信号サンプルの全体的到着速度が該オーディオ信号が作られた速度と同じであれば聴取者は音声などのオーディオ信号中の不連続部を体験しないという認識に基く。従って、本発明により、パケット到着間のポーズを測定する代りに、もしリザーブ遅延時間が導入されなかったならば該オーディオ信号の再生中に発生したはずの中断を測定し、そしてパケット・バッファー制御の基礎を少なくとも或る程度この測定に置くことが選択される。
換言すれば、本発明の目標は、出力音声の中断遅延時間(すなわち聴取者が聞く中断)を測定することではない。なぜならば、この遅延時間はパケット到着におけるポーズの前に存在したリザーブ遅延時間の量に依存するからである。その代わりに、リザーブ遅延時間が導入されなかったならば聞かれたはずの中断遅延時間を測定することが選択され、この様にして、平均中断遅延時間をカバーするためにどの程度のリザーブ遅延時間が必要であるかを判断することができる。
もし遅いパケット到着速度に応じて音声が減速されるならば、この改変はベース遅延時間に影響を及ぼし(なぜならばベース・オフセットが使用されるから)、従ってこの場合には出力音声中の不連続は、もし到着間隔平均値がパケット作成間隔の高々約2倍であるならば、防止される。
実質的に連続的で実質的に均一な時系列をなして人に呈示されるべく意図されている音声信号のような時間順序付けられたコンテンツを表す情報を含むデータパケットを受信してバッファリングし、サンプルを得るべく該情報を復号し、再生信号を生成する前に該サンプルをバッファリングする装置、コンピュータプログラム及び方法が開示される。データパケットが作成された速度とは異なる速度でデータパケットが受信されるときに実質的に連続的な出力信号を提供するように再生速度を変化させることを可能にするために、各フレーム中のサンプルはパケット・ネットワークの状態の関数として時間スケーリングされる。この時間スケーリング操作は、データパケットが作成される速度より遅い速度でデータパケットが受信されるときに正の向きに調節されるベース遅延時間と、該ベース遅延時間がもし負になったならば中断に対する保証を提供するように管理されるリザーブ遅延時間とで働く。
本教示の前記の及びその他の側面は、添付図面と関連させて以下の発明を実施するための最良の形態を読むことからいっそう明らかにされる。
好適な実施形態の詳細な説明
以下に記載される適応バッファー制御メカニズムは、問題の信号が音声、音楽、他の何らかのタイプの可聴信号であっても、或いはビデオ信号であっても、或いは一般に任意の時間順序付けられた信号であっても、使用され得る。従って、本書において音声という用語が使われているけれども、この音声という用語の使用は人の発話のみを意味すると解されるべきではない。
一般に、適応バッファー制御は、必要なときにだけ音声に影響を及ぼすべきである。この思想は、1つ又は複数のエラーが生じた場合に限って働く他のエラー補正方法に関連する。パケット交換ネットワークでは、事情は、パケットがバーストとして到着し、各バースト間に長い(例えば、数秒間)遅延時間があると言い得るような事情である。これは、もし長期間到着間隔平均値が、音声パケットが生成される速度と一致するならば問題とはならず、物理的バッファー・サイズが受信側で変動に配慮するのに充分な大きさを持つべきであることを意味するに過ぎない。しかし、適応制御システムの設計をするときにはこれを考慮するべきである。なぜならば、もしバッファリング遅延時間が変動しても音声の再生速度はうるさく変動するべきではないからである。
ソフトウェアに基く適応制御エンティティーはハードウェア又はソフトウェアに基くクロックを必要とする。なぜならば、パケットの到着時間が必要とされるからである。このクロックを、音声フレーム間隔でインクリメントされるカウンタとして実現するのが最も簡単である。しかし、もっと正確なタイミングが望まれるならば、該クロックは、もっと精密なソフトウェア・カウンタとして、又はハードウェア・クロックとして実現されるべきである。以下の議論においてはソフトウェア・カウンタが検討されるが、それは本発明の実践に関する限定ではない。また、パケットの相対的作成時間をシーケンス番号に従って判断し得る様に、送信側で音声パケットにシーケンス番号が付されるということが仮定される。
図1は、本発明による適応バッファー制御手法の論理流れ図である。図1において、バッファリング遅延時間はパケットの再生時点(該パケット中の第1フレームの再生時点)と該パケットの到着時間との間の差であると考えられる。目標は、2つの別々のパラメータ、すなわち(a)パケットの到着間隔及び(b)中断、に従ってバッファリング遅延時間を調整することである。従って、バッファリング遅延時間は、2つの成分すなわちベース遅延時間及びリザーブ遅延時間、の組み合わせであると考えられる。
ベース遅延時間は、本書では、パケットの到着速度に起因して導入されるバッファリング遅延時間の量であると考えられる。もしパケットが、作成されるよりも速く到着し、作成される速度と同じ速度で再生されるならば、ベース遅延時間は増大する。ベース遅延時間は、パケットの再生をその平均到着間隔に応じて間隔調整することによって制御される。パケットが作成されるより速く再生されない理由は、速い到着に起因して或る時点でネットワーク・バッファーのアンダーフローが発生して、受信端末で見られるパケット到着のポーズを引き起こす可能性が大きいことである。パケットが急速に到着した時間の間に導入されたベース遅延時間はその様なポーズ中に使用され得、音声信号の中断は聴取者には聞こえない。一方、もしパケットが作成される速度より遅い速度でパケットが到着すれば、該パケットの再生間隔は平均到着間隔に関して増大されるので、ベース遅延時間は正のままである。そうでなければ、低い到着速度は音声の不連続部をもたらす。ベース遅延時間は、好ましくは、セッションの最大シーケンス番号を有するパケットの最後のフレームについて数値が求められる。
リザーブ遅延時間は、本書では、中断を見越して、中断に対する保証として用いられる付加的な遅延時間であると考えられる。中断は、ベース遅延時間が負になるときに発生すると考えられ、これはセッションの最大シーケンス番号を有するパケットの最後のフレームについてのベース遅延時間が消費されていることを意味し、従って中断遅延時間はベース遅延時間が負にとどまっている時間の量であると定義される。もしリザーブ遅延時間が中断遅延時間をカバーするのに充分であるならば、中断は聞こえない。
音声フレームの再生は、好ましくは、第2音声パケットが到着した直後に開始される。低速のリンクへの反応に配慮し得るように第2パケットを遅延時間させることができ、従って最初の遅延時間はベース遅延時間に埋め込まれ、リザーブ遅延時間には埋め込まれない。音声セッション中、リザーブ遅延時間は中断の平均持続時間をカバーするように変更される。好ましい実施態様では、これは、音声信号の時間スケーリングを用いることによってパケットの再生間隔を変更することによって達成される。
図1に示されているように、適応制御方法及びシステム10は2つの構成部分、すなわち非同期部分12及び同期部分14、を有する。これらについて次に説明する。
非同期12:
非同期部分12は、パケットが到着するときにだけ働くので、この名が付けられている。パケットが到着したとき、それはパケット・バッファー12Aに置かれ、12Bでそのパケットについて到着間隔が測定される。もし中断が発生すれば、中断遅延時間も測定される。これらの測定値に応じて12Cで推定値(中断遅延時間、到着間隔)が更新される。
同期14:
(ブロック12Cからの)到着間隔及び中断遅延時間の推定値は、バッファリング遅延時間の制御に使用される。バッファリング遅延時間の成分は14Aで更新され、その後に時間カウンタが1だけ高められ(ブロック14B)、従ってそれは1音声フレームの持続時間に対応する。該時間カウンタは、到着間隔、中断遅延時間及びバッファリング遅延時間成分が測定されるときに使用される。ベース遅延時間は、たとえパケットが作成されるよりも遅く到着してもバッファーがアンダーフローしないように、到着間隔平均値に応じて制御される。一方、リザーブ遅延時間は、中断遅延時間をカバーするように充分に大きく保たれる。制御システムは、両方ともパケットの再生速度に影響を及ぼすベース・オフセット及びリザーブ・オフセットを決定することによって時間スケーリングに関わる。該オフセットから時間スケーリング比の数値が求められる:1.00+ベース・オフセット+リザーブ・オフセット。該時間スケーリング比は、スケーリングされた信号長と元の信号長との比である。時間スケーリング比が0.5と2.0との間に制限されたならば、1音声フレームの間隔の間の復号の数は0回、1回又は2回であり得る。ブロック14C,14D,14E,14F及び14Gのループをたどると、各復号後にサンプルは時間スケーリングされてスケーリング・バッファー14Gに格納される。復号及び時間スケーリングのループはスケーリング・バッファー14G内に少なくとも160個のサンプルが存在するようになるまで実行され、その後にスケーリング・バッファー14G内の最旧の160個のサンプルが更に処理されるべくオーディオ・バッファー14Hに転送される。音声信号が8,000Hzでサンプリングされるときには160個のサンプルは1つの20ms音声フレーム(例えば、AMR又はGSM音声フレーム)に対応する(8,000Hz*0.02s=160)ことに注意することができる。従って、適応プロセス全体が、その後に行われる任意のオーディオ処理のためにトランスペアレントである。好ましい実施態様では、スケーリング・バッファー14Gのために取っておかれる最大サイズは480サンプル(すなわち3音声フレーム)であるが、3より多いか又は少ない音声フレームに配慮することもできる。
パケット・バッファー12A内にパケットが無くてシステムが次のパケットの到着を待っているならばバッファーのアンダーフローが生じる。従って、パケット・バッファー12Aのアンダーフローは次のパケットの再生時点を遅延時間させ、それは、信号を時間スケーリングにより長くすること(音声フレームを挿入すること)と考えられ得る。バッファーのオーバーフローはパケット・バッファー12Aが満杯であるときに発生し、最旧のパケットは到着する最新のパケットで上書きされる必要がある。この場合には、パケット同期を維持し得るように幾つかのパケットの再生を飛ばしても良い。パケットのシーケンス番号を飛ばすことは、音声フレームが除去されるので時間スケーリングによる信号の短縮と考えられても良い。
時間スケーリング又はバッファーのアンダーフロー又はオーバーフローの結果は、パケットが不規則な間隔で再生されることである。簡単に言えば、全てのエンド・ツー・エンド遅延時間変化が、仮想再生時点として定義される1つの変数の中に埋め込まれるのが好ましい。本質的に、仮想再生時点は、もし残りのパケットが一様な間隔で再生されたならばセッションの第1パケットのために使用されたはずの再生時点であって、依然として実際の、パケットの不規則な再生と同じエンド・ツー・エンド遅延時間をもたらす。
音声フレームのタイプは、良フレーム、不良フレーム(欠けている)、又は待ちフレーム(読み取られたシーケンス番号は高められない)であり得る。待ちフレームは、パケット・バッファー12A内にフレームが無いとき、又はパケット・バッファー12A内にフレームはあるけれどもパケット・バッファー12A内の第1フレームの再生が遅らされているときに発生し得る。待ちフレームの代りに快適雑音を再生するほうが良い。音声フレームのタイプは、所与のフレームを時間スケーリングし得るか否か判定するときに必要とされる。時間スケーリングは、フレームのタイプが良フレームである場合に限って実行される。不良フレームと待ちフレームとは時間スケーリングしない方が良い。なぜならば、これらのフレームは音声信号中の不連続部を表すからである。
図1に示されているブロックのうちの幾つかのブロックの構成及び動作についてのより詳しい説明。遅延時間測定ブロック12Bに関して、下記の方程式を用いて到着間隔が測定される:

(1)到着間隔=現在の時間−前の到着時間、

ここで前の到着時間は前のパケットの到着時間である。
中断の場合には、中断遅延時間が測定される:

(2)中断遅延時間=現在の時間−前の再生時間、

ここで前の再生時間は、リザーブ遅延時間が導入されなかったならば前のフレームが、従って中断前の最後のフレームが、再生されたはずの時間である。
図1の推定値更新ブロック12Cの構成及び動作を説明するために、ここで図2を参照する。始めに、推定値を更新するときに2つの異なる主要な場合があることを記しておく。第1の場合は、中断が発生していない場合に機能が呼び出されるというときである(ブロック212Aはブロック212Bに移行する)。この場合、もし到着間隔がパケット作成間隔の3倍より小さければ(ブロック212Bで判定される)到着間隔平均値が更新される(ブロック212D)。もしパケット到着間のポーズがパケット作成間隔の少なくとも3倍であるならば、到着間隔平均値が更新されない主な理由が2つある。第1の理由は、好ましい実施態様においてはスケーリング比が最大で2.00に制限されることである。従って、パケット作成間隔の2倍より大きな到着間隔平均値は効果を持たない。第2の理由は、音声パケットはバーストを成して到着することがあるということである。このことに関して、バースト中には到着間隔平均値が低いことは明らかである。しかし、パケット到着間に長いポーズがあるときには、到着間隔平均値は更新されるべきではなく、さもなければ、それは実際の到着間隔平均値より一時的に大きくなり、従って信号の不要なスケーリングをもたらす。
第2の推定値更新の場合は、中断が生じたときである(ブロック212Aはブロック212Cに移行する)。中断遅延時間推定値(ブロック212G,212H)は、好ましくは、指数平均算出を用いることによって更新される。セッションの第1中断(ブロック212Cにより判定される)は、その後の中断とは別に推定される。これはなるべく実行されたほうが良い。なぜならば、第1中断はどのセッションでも最も発生しそうな中断だからである。従って、第1中断に起因する不連続を聞く確立を小さくし得るように第1中断遅延時間の推定値をなるべく正確に知ることが好ましい。
これらの両方の場合に、ベース遅延時間が負であるか否か判定するためにチェックが行われ(ブロック212E)、もし負であれば、ベース遅延時間の値を求めるための出発点(下記の方程式7を参照)をリセットすることができる(ブロック212Eがブロック212Fに移行する)。これは、ベース遅延時間のための第1シーケンス番号を到着したパケットのシーケンス番号にセットし、ベース仮想再生時点を現在の時間にセットし、ベース遅延時間を作成間隔マイナス1に等しくセットすることによって行われる。これは、ベース遅延時間の測定が下記の方程式7によって正しく実行されることを保証する。到着シーケンス番号がブロック212Iでチェックされ、もしそれがベースについての第1シーケンス番号より小さければ、そのパラメータは、到着したパケットのシーケンス番号のそれに更新される。一方、もし到着シーケンス番号が現在最大の到着シーケンス番号より大きければ、そのパラメータも更新される。この様にして、パケットが混乱して到着するときにもベース遅延時間測定が機能することが保証される。ベース遅延時間は、中断の場合に、またベース遅延時間が負であったけれども到着間隔が作成間隔の3倍未満であったならば、負になり得る。この場合、それは中断とは見なされずに低い到着速度と見なされる。
中断及びポーズが考慮されないので到着間隔平均値が実際の到着間隔平均値と一致しないことに注意することは重要である。その結果として、それは中断間の又はポーズ間の到着間隔平均値を表すと見なすことができる。到着間隔平均値がポーズ中に更新されない理由は図2の説明において論じられた。中断が発生しているときにそれが更新されない理由は、バッファリング遅延時間の挙動に影響を及ぼす2つの問題がこの様にして分離されることにあり、その2つの問題とは、リンクがオンであるときのパケットの到着間隔平均値と、パケット・バッファー12Aがアンダーフローするのに充分な期間の間リンクが一時的にダウンするときにリザーブ遅延時間が導入されなかったならば中断によって導入される遅延時間と、である。これは、到着間隔平均値が中断又はポーズが発生する前の到着間隔平均値におそらく近いのが普通であるパケット交換ネットワークの性質に良く対応することが見出されている。
なお図2を、特に到着間隔平均値更新ブロック212Dを参照すると、到着間隔平均値は、好ましくは、中断又はポーズが発生していないときに限って更新される。第1パケットが到着すると、到着間隔平均値は作成間隔に等しくセットされる。その後のパケットについては該平均値は次のように指数平均算出を用いることにより更新される:

(3)到着間隔平均値i+1=0.125*到着間隔+0.875*到着間隔平均値i

方程式(4)及び(5)は、第1の中断及びその後の中断の両方を更新するために使用される(夫々、ブロック212H及び212G)。始めに、中断遅延時間推定値を初期化するべきか否かが判定される。該推定値は、もし中断遅延時間平均値がゼロであれば、初期化される。もし初期化されれば、中断遅延時間平均値は測定された中断遅延時間にセットされ、平均偏差はゼロにセットされる。初期化されなければ、該推定値は、次のように指数平均算出を用いることによって更新される:

(4)中断遅延時間平均値i+1=0.25*中断遅延時間+0.75*中断遅延時間平均値i
(5)中断遅延時間MDi+1=0.25*|中断遅延時間−中断遅延時間平均値|+0.75*中断遅延時間MDi。ここでMDは平均偏差(Mean Deviation)である。
中断が発生し、中断平均値がゼロではないが平均偏差がゼロであるときには、平均偏差は次のように初期化される:

(6)中断遅延時間MD=|中断遅延時間−中断遅延時間平均値|/2
この様にして、もし初期値がゼロであれば平均偏差は有効な値に速やかに収束する。
連続するセッション間に環境が著しく変化することはおそらく無いであろうと考えられるので、次のセッションにおいて中断遅延時間推定値を効果的に使用することができる。しかし、セッション中に中断が生じなければ、平均値は好ましくは最終的にゼロに収束するように半減される。分散は、直ちにゼロにセットされる。この様にして、事情が好転したら推定値がこの挙動に対応するようになることが保証される。セッションは、この2で割る操作が行われるのに充分な長さを持つべきであり、そうすれば、中断が発生しそうも無い短いセッションのために平均値が無意味に2等分されることはない。その後に第1中断遅延時間及びその後の中断遅延時間の両方が2等分され得る有効なセッションの長さは、例えば、約5秒間であり得る。
図1のバッファリング遅延時間更新ブロック14Aの構成及び動作を説明するために、ここで図3を参照する。
始めに、バッファリング遅延時間自体は使用されなくて、その成分(ベース及びリザーブ)が使用されることを記しておく。従って、バッファリング遅延時間を計算する必要は無い。しかし、プロセスの全体としての完全性をチェックすることが望まれるならば、バッファリング遅延時間を計算してその成分の和と比較することができる。
セッション中にそれまでに到着した最大シーケンス番号を有するパケットの最後のフレームについてベース遅延時間の数値が求められる。簡潔性を求めるために、到着間隔平均値に関連する全てのベース遅延時間変更は、ベース仮想再生時点として定義される1つの変数の中に埋め込まれる方が良い。本質的に、ベース仮想再生時点とは、もし残りのパケットが一様な間隔で再生されたならばベース遅延時間の現在の数値を求める期間において最初に到着したパケットのために使用されたはずの再生時点であって、依然としてパケットの実際の不規則な再生と同じベース遅延時間をもたらす。換言すれば、ベース仮想再生時点は、以後に現れるパケットについて遅延時間を計算するために方程式(7)を使用し得るようにベース遅延時間の現在の数値を求める期間についての第1シーケンス番号が再生されたはずの時間である。図2に関して上で論じられたように、ベース遅延時間の数値を求める期間は、ベース遅延時間が負になった後に第1パケットが到着した時点から始まる。
ベース仮想再生時点は始めに単に仮想再生時点変化を現在のベース仮想再生時点値に加えることによって更新される。この更新の後に仮想再生時点変化はゼロにセットされる。
ベース遅延時間は、セッションにおいてこれまでに到着した最大シーケンス番号を有するパケットの最後の音声フレームが、もしリザーブ遅延時間が無いとすれば、再生の前にパケット・バッファー12Aにおいて待っていなければならない時間の量を表す:

(7)ベース遅延時間=ベース仮想再生時点+作成間隔*(最大到着シーケンス番号−ベースのための第1シーケンス番号)+作成間隔−1−現在の時間。
方程式(7)がブロック314Aで解かれた後、ブロック314Bにおいて、ベース遅延時間が負になっているか否かが判定される。もしなっていなければ、コントロールはブロック314Cに移り、ここで前の再生時間が現在の時間と等しくされる。しかし、もしベース遅延時間が負になっていたならば、コントロールはブロック314Dに移り、ここでリザーブ遅延時間が試験されてゼロより大きいか否かが判定され、もしゼロより大きければコントロールはブロック314Eに移ってリザーブ遅延時間がデクリメントとされる。この様に、ベース遅延時間が負の時にはリザーブ遅延時間が消費される。次にコントロールはブロック314Fに移り、ここで現在の時間が前のパケット到着時間とパケット作成間隔の3倍との和以上であるか否かに関して判定が行われる。もしそうならば、ブロック314Gにおいて中断が検出され、さもなければ遅延時間は低い到着速度によるものと見なされ、従ってそれは到着間隔平均推定値に影響を及ぼす。作成間隔の3倍より小さいポーズについては、到着間隔平均値に応じたスケーリングは中断の発生の判定を妨げる。
図1のバッファリング遅延時間制御ブロック14Eの構成及び動作を説明するために、ここで図4を参照する。時間スケーリング比は、3つの成分の和である、すなわち:1.00+ベース・オフセット+リザーブ・オフセット、である。これは、ベース遅延時間を到着間隔平均値に関して制御し、平均中断に関してリザーブ遅延時間を制御するという思想に対応する。もしパケット・ストリームについて最後のパケットが到着したこと(例えば1つ以上の後書きパケットが到着したこと)が分かったならば、音声信号の再生速度を修正する必要は無く、従ってベース・オフセット及びリザーブ・オフセットの両方がゼロにセットされる(ブロック414Aはブロック414Bに移る)。さもなければ、もし最後のパケットが到着していなければ、復号されたフレームのタイプが、次に実行されるべき動作を決定する。
ブロック414Cにおいて、パケット・バッファー12Aからのフレームが正しく受信されたならば、コントロールは414Dに移って、変更時間カウンタを1だけ低めるべきか否かを判定し、もし必要ならばこれはブロック414Eで実行される。次に該時間カウンタがゼロまで下げられたか否かが判定され、そのことは、以下で図5に関して論じられるようにスケーリング・オフセットがブロック414Gで決定されたように変更され得ることを意味し、さもなければベース・オフセット及びリザーブ・オフセットはブロック414Hでゼロにセットされる。ブロック414Cに戻って、バッファー内にフレームがあるけれども次のフレームが見つからないという場合には、そのフレームは不良フレームであると見なされる。バッファー内にフレームが1つもない場合には、フレーム・タイプは待ちフレームであると宣言される。これら両方の場合に、ベース・オフセット及びリザーブ・オフセットはブロック414Iでゼロにセットされ、変更時間カウンタはブロック414Jで値2にセットされる。この場合、システムは最後の不連続の後に2つのフレームを待つ。なぜならば、時間スケーリングは、もし不連続部を含む音声信号のために行われるならば最適に働かないことがあるからである。
図4の時間スケーリング・オフセット決定ブロック414Gの構成及び動作を説明するために、ここで図5を参照する。時間スケーリング・オフセットは、実際の時間スケーリング比がセットされるときに使用される。時間スケーリング比は3つの成分の和である、すなわち:1.00+ベース・オフセット+リザーブ・オフセット、である。再生速度が聴取者に自然に聞こえるように、0.5と2.00との間の時間スケーリング比を許すことが現在好ましい。
次の中断を補正できるように、システムは始めにブロック514Aでリザーブ遅延時間の必要とされる量を決定する。第1中断は他から分離されるので、リザーブ遅延時間の所要の量は、第1中断が発生したか否かにも依存する。より具体的には、もし第1中断が発生していなければ、必要とされる(所要の)リザーブ遅延時間は:

(8)必要とされるリザーブ遅延時間=第1中断遅延時間平均値+B*第1中断遅延時間MD
であり、さもなければ:
(9)必要とされるリザーブ遅延時間=中断遅延時間平均値+C*中断遅延時間MD
である。
方程式(8)及び(9)において定数B及びCの値はガードとエンド・ツー・エンド遅延時間との折衷物である。例えば、Bについての適当な値は2であり得、Cについては適当な値は1であり得る。このようにして、殆どのセッションの間に発生する第1中断に対してより多くのガードがあるであろう。時間スケーリング・オフセットがどの様に決定されるかは、セッションが中断されたか否かに依存する。
もし中断が発生していなければ、コントロールはブロック514Cに移ってベース・オフセットを到着間隔平均値に関してセットし、次にブロック514Dに移ってベース・オフセットに許容範囲(0と1との間)を与え、その後にブロック514Eに移り、ここで所要の再生時点変更が決定される。最後に、コントロールはブロック514Fに移ってリザーブ・オフセットを決定する。
上で論じられたように、ベース遅延時間は、パケットの到着速度に起因して導入されるバッファリング遅延時間の量であると考えられる。ブロック514Cで、ベース遅延時間を制御するベース・オフセットが到着間隔平均値に関してセットされる:

(10)ベース・オフセット=(到着間隔平均値/作成間隔)−1。
上の方程式(10)は、到着間隔平均値が作成間隔より大きい場合に限って使用される。もし到着間隔平均値が作成間隔より小さければ、ベース・オフセットは負になる。しかし、その様な場合には、ネットワーク側でのバッファー・アンダーフローに起因してポーズが生じそうであり、従って、再生速度は高められるべきではない。この理由から、もし到着間隔平均値が作成間隔より小さければベース・オフセットはゼロにセットされる。ベース・オフセットの上限は好ましくは値1とされる(ブロック514D)。方程式(10)により得られたベース・オフセットを用いることによって、バッファーのアンダーフローは(もし中断が無くて到着間隔平均値が作成間隔の約2倍より大きくなければ)防止され得る。なぜならば、パケットは、該パケットが到着する平均速度より速くは再生されないからである。
リザーブ遅延時間を所望の値の方に収束させるために、所要の再生時点変化の量に依存するリザーブ・オフセットの数値が求められる。所要の再生時点変化(A)はブロック514Eにおいて:

(11)所要の再生時点変化=必要とされるリザーブ遅延時間−リザーブ遅延時間

により決定される。
上記方程式(11)は、リザーブ遅延時間がゼロより大きい場合に限って使用され、他の場合には所要の再生時点変化はゼロにセットされる。これが行われる理由は、もしリザーブ遅延時間が負であればバッファーが前にオーバーフローしたことが示され(リザーブ遅延時間はバッファーのオーバーフローに起因して飛ばされたフレームの数だけ低められるので)、リザーブ遅延時間を高めれば更なるオーバーフローの可能性が高まることにある。
所要の再生時点変化を用いることにより、リザーブ・オフセットがブロック514Fでニーズと関連するように調整される。表1は、所要の再生時点変化の量がリザーブ・オフセット調整にどの様に影響を及ぼすかを示す。始めの2行の条件が満たされたときには、リザーブ・オフセットは、それらの下の値に従ってセットされる。第1行は、リザーブ・オフセットを必要とされる量に依存させ、第2行は、リザーブ・オフセット及びベース・オフセットの結合が常に最大で1.00であって、従って時間スケーリング比の上限を2.00とすることを保証する。例えば、もし必要とされる再生時点変化が9フレームであり、ベース・オフセットが0.875であれば、リザーブ・オフセットは0.125にセットされる。

[表1]必要とされる再生時点変化に応じたリザーブ・オフセット

所要の再生時点変化 >= 負 0 1 8 16
ベース・オフセット <= 任意 任意 0.875 0.75 0.5
リザーブ・オフセット −0.125 0 0.125 0.25 0.5
セッションが中断された場合に(判定ブロック514Bからの"はい"経路)スケーリング比がどの様に決定されるかがここで説明される。始めに、ベース・オフセットはブロック514Gでゼロにセットされる。これは中断及び到着間隔平均値が別々に補正されるという思想に対応する。次に、ブロック514Hで、必要とされるリザーブ遅延時間が調整される:

(12)(i+1番目の)必要とされるリザーブ遅延時間=(i番目の)必要とされるリザーブ遅延時間−(現在の時間−前の再生時間)。
方程式(12)を用いることにより、必要とされるリザーブ遅延時間から、中断がそれまでに続いた持続時間が差し引かれる。場合によっては、方程式(12)が解かれた後に、必要とされるリザーブ遅延時間は負であり得る。それ故に値の下限は0に制限される。次に、ブロック514Iにおいて、必要とされるリザーブ遅延時間が現在のリザーブ遅延時間より大きいか否かが判定される。もし大きければ、現在の中断についてリザーブ遅延時間を大きくする必要が依然として存在し、リザーブ・オフセットは次のようにセットされる:

(13)リザーブ・オフセット=(必要されるリザーブ遅延時間/リザーブ遅延時間)−1+D。
定数値Dを用いることにより、必要とされるリザーブ遅延時間をより迅速に達成することが可能である。Dの適切な値は0.25である。方程式(13)は、リザーブ遅延時間がゼロより大きいときにだけ使用され、他の場合にはリザーブ・オフセットは1にセットされる。リザーブ・オフセットの上限は1とされるので、最大時間スケーリング比は2である。
もし現在のリザーブ遅延時間が必要とされるリザーブ遅延時間に等しいか又はこれより大きければ、現在の中断についてリザーブ遅延時間を大きくする必要は無い。しかし、システムは、次の中断のためにリザーブ遅延時間を累算し始めることができる。始めに、次の中断のためにどれほどのリザーブ遅延時間が既に存在するかということについて判定が行われる:

(14)次のためのリザーブ=リザーブ遅延時間−必要とされるリザーブ遅延時間。

その後、次の中断のために必要とされるリザーブ遅延時間の量の数値が求められる:

(15)次の必要とされるリザーブ遅延時間=中断平均値+C*中断MD。

さて、所要の再生時点変化(B)がブロック514Kで:

(16)所要の再生時点変化=次の必要とされるリザーブ遅延時間−次のためのリザーブ

として決定される。
この後、リザーブ・オフセットを決定するために、表1に記載されている手続きが用いられる(ブロック514Fで)。現在の中断が引き続き発生している間にシステムは次の中断のための準備をするので、現在の中断のためにもより良い保護がもたらされる。もし現在の中断の後にリザーブ遅延時間の全部が使用されてはいなければ、残っているリザーブ遅延時間を次の中断のために使用することができる。
図1の時間スケーリング・ブロック14Fの構成及び動作を説明するために、ここで図6を参照する。このプロセスのために適切な時間スケーリング・アルゴリズムが使用され、一般に、時間スケーリングは実施固有の問題である。適切な時間スケーリング・アルゴリズムの非限定的な例は:ウェイマン・ジェイ・エル(Waymann J.L.)著、
"実時間音声圧縮及び雑音フィルタリングに用いられる時間スケール修正の同期−オーバーラップ−加算方法の多少の改良(Some Improvements on the Synchronized-overlap-add Method of Time Scale Modification for Use in Real-time Speech Compression and Nose Filtering"、音響学、音声及び信号処理に関するIEEE報告誌(IEEE Transactions on Acoustics, Speech and Signal Processing)、1月、第36巻,pp.139−140(1988);ブェルヘルスト・ダブリュー(Verhelst W.)著、"音声の高品質時間スケール修正のための波形類似性に基くオーバーラップ−加算手法(WSOLA)(An Overlap−add technique Based on Waveform Similarity (WSOLA) for High Quality Time−scale Modification of Speech)"音響学、音声、及び信号処理に関するIEEE国際会議(IEEE International Conference on Acoustics, Speech, and Signal Processing)、4月27−30日、ミネアポリス、第2巻、pp.554−557、米国(1993);又はステンガー・エイ(Stenger A.)著、"パケット損失のあるオーディオ伝送のための新しいエラーコンシールメント手法(A New Error Concealment Technique for Audio Transmission with Packet Loss)"、欧州信号処理会議(European Signal Processing Conference)、トリエステ、9月10−13日、pp.1965−1968、イタリア(1996)に見出される。
ブロック614Bにおいて時間スケーリング・アルゴリズムを呼び出す前に、ブロック614Aで時間スケーリング比が次のようにセットされる:

(17)時間スケーリング比=1.00+ベース・オフセット+リザーブ・オフセット。
時間スケーリング操作により、ブロック614Cでタイミングが不変に保たれる(図7に関して以下で論じられる)。復号されたフレームのタイプが待ちフレーム又は不良フレームであったならば、それは、比1.00を用いる時間スケーリング・アルゴリズム・ブロック614Bを通して送られる。
ブロック614Bにおける時間スケーリング・アルゴリズムの各々の呼出しの後に、出力されたサンプルはスケーリング・バッファー14Gにコピーされる。時間スケーリングが現在の20ms間隔中に最後に呼び出されるとき、スケーリング・バッファー14G内の最も古い160個のサンプルが更なる処理のためにオーディオ・バッファー14Hに移される(図1、ブロック14Hを参照)。
図6のタイミング不変ブロック614Cの構成及び動作を説明するために、ここで図7を参照する。不変のタイミングを保つために、次の処置が行われる。始めに、ブロック714Aで、復号されたフレームが待ちフレームであるか否かに関して判定が行われる。もし否ならば、ブロック714Bで遅延時間が修正される。ベース遅延時間及びリザーブ遅延時間について導入されるサンプルは下記のとおりである:

(18)ベース・スケールド・サンプルi+1=ベース・スケールド・サンプルi+160*ベース・オフセット;及び

(19)リザーブ・スケールド・サンプルi+1=リザーブ・スケールド・サンプルi+160*リザーブ・オフセット。
次に、リザーブ遅延時間についての変化がフレームの整数個数として考慮され得る:

(20)リザーブ遅延時間変化=int(リザーブ・スケールド・サンプル/160)、
ここでint=整数である。

(21)リザーブ遅延時間i+1=リザーブ遅延時間i+リザーブ遅延時間変化。
使途が説明されないリザーブ・スケールド・サンプルの量は:

(22)リザーブ・スケールド・サンプルi+1=リザーブ・スケールド・サンプルi−リザーブ遅延時間変化*160

である。
ベース遅延時間については、変化はベース仮想再生時点に埋め込まれる:

(23)ベース遅延時間変化=int(ベース・スケールド・サンプル/160);及び

(24)ベース仮想再生時点変化i+1=ベース仮想再生時点変化i+ベース遅延時間変化。
使途が説明されないベース・スケールド・サンプルの量は:

(25)ベース・スケールド・サンプルi+1=ベース・スケールド・サンプルi−ベース遅延時間変化*160

である。
ブロック714Aにおいて、もしフレームが待ちフレームであると判定されたならば、読み出されたシーケンス番号が高められなくて、従って、それは次のシーケンス番号の再生時点を1フレーム先へ移す。
その後、前のバッファーのアンダーフローの後に再生が開始されたのか否かを判定する判定がブロック714Dで行われる。もし再生が前のバッファーのアンダーフローの後に開始されなくて、また次のパケットが到着したのであれば、ベース遅延時間は未だ消費されていないので該待ちフレームはベース遅延時間の仮想再生時点を前へちょうど良いときに移す(ブロック714E)。この場合、ベース仮想再生時点は1高められる。
再生が開始されたならばコントロールは代りにブロック714Fに移り、ここで次の条件:すなわちリザーブ遅延時間が負であること、またはバッファー内に少なくとも1つのフレームが存在すること、のうちの1つが真であるか否かが判定される。もしリザーブ遅延時間が負であれば、それは、バッファーがセッション中にオーバーフローしたことを示す。このオーバーフローから、バッファーがアンダーフローする結果となり、バッファーがアンダーフローしている時間は負のリザーブ遅延時間をゼロの方へ高める。従って、このことは、各待ちフレームについてリザーブ遅延時間を1高めることによって考慮される(ブロック714G)。他方の状況は、バッファー内にフレームがあってもバッファーからフレームが抽出されないという状況である。この状況は、パケット・ストリームが再同期化されるときに発生し得る。この場合にも、リザーブ遅延時間はブロック714Gで1高められる。
図8は、本発明を実施するのに適する無線通信システム50の非限定的実施態様略ブロック図を示す。無線通信システム50は少なくとも1つの移動局(MS)100を含む。図8は、例えば公衆パケットデータ・ネットワーク或いはPDNのような電気通信ネットワークに接続するためのノード30と、少なくとも1つの基地局コントローラ(BSC)40又は同等装置と、所定のエアーインターフェース標準規格に従って物理チャネル及び論理チャネルの両方を順方向すなわちダウンリンク方向に移動局100に送信する、基地局(BS)とも称される複数の基地送受信局(BTS)50とを有する代表的なネットワーク・オペレータ60も示している。移動局100からネットワーク・オペレータへの逆のすなわちアップリンクの通信経路も存在し、それは移動局発のアクセス・リクエスト及びトラフィックを運ぶ。セル3が各BTS50に関連付けられており、1つのセルは何時でもサービング・セルであると考えられ、隣接するセルは近傍のセルと考えられる。より小さなセル(例えば、ピコセル)も利用可能であろう。
エアーインターフェース標準規格は任意の適切な標準規格又はプロトコルに従うことができ、また、音声トラフィックと、インターネット70アクセス及びウェブページ・ダウンロードを可能にするデータトラフィックのようなデータトラフィックとの両方を可能にすることができる。本発明の目下好ましい実施態様では、エアーインターフェース標準規格はVoIP機能をMS100によって実現することを可能にするものであって、従ってインターネット70から到着するIPパケットはMS100で再生されるべき音声信号サンプルを含むと仮定される(すなわち、VoIPパケット55)。しかし、前に記述されたように、到着するIPパケットは、音楽やビデオ情報のような他の情報を含むことができ、或いは、コンテンツの再生速度を修正し得る場合には一般的に任意の時間順序付けられたコンテンツを含むことができる。
移動局100は、通常、ディスプレイ140の入力に接続された出力とキーボード又はキーパッド160の出力に接続された入力とを有するマイクロコントロールユニット(MCU)120のような制御ユニット又は制御論理を含む。移動局100は、セルラー電話機又はパーソナル・コミュニケータのようなハンドヘルド無線電話機であり得る。移動局100は、使用中他の装置に接続されるカード又はモジュールの中に含まれても良い。例えば、移動局10は、ラップトップ・コンピュータ又はノートブック・コンピュータ、或いは身に着けて利用するコンピュータのような携帯可能なデータ・プロセッサの中に使用中組み込まれるPCMCIA又は類似タイプのカード又はモジュールの中に含まれ得る。
MCU120は、オペレーティング・プログラム及び他の情報を格納するための不揮発性メモリー、及び、所要のデータ、スクラッチパッド・メモリー、受信されたパケット・データ、送信されるべきパケット・データ、などを一時的に格納するための揮発性メモリーを含む何らかのタイプのメモリー130を含むか又はこれに接続されると仮定される。該オペレーティング・プログラムは、本発明の目的上、MCU120が本発明による適応音声再生及びバッファリング方法を実施するために必要とされるソフトウェア・ルーチン、層及びプロトコルを実行することを可能にし、またディスプレイ140及びキーパッド160を介してユーザとの適切なユーザ・インターフェース(UI)を提供することを可能にすると仮定される。表示されてはいないけれども、ユーザが普通の仕方で通話をし、また本発明に従って図1のオーディオ・バッファー14Hからの音声信号をMS100のユーザに再生し得るように、通常はマイクロホン及びスピーカーが設けられる。
移動局100は、ディジタル信号プロセッサ(DSP)180又は同等の高速のプロセッサ若しくは論理と、ネットワーク・オペレータとの通信のために両方共にアンテナ240に接続された送信装置200及び受信装置220を含む無線トランシーバとを含む無線セクションも含んでいる。該トランシーバを同調するために、周波数シンセサイザ(SYNTH)260のような少なくとも1つの局部発振器が設けられている。ディジタル化された音声データのようなデータとパケット・データとがアンテナ240を通して送受信される。
図1−7を参照して説明されたいろいろなブロックは、ハードウェアで、ソフトウェアで、又はハードウェア及びソフトウェアの組み合わせで様々に実施され得る。好ましい実施態様では、パケット・バッファー12A、スケーリング・バッファー14G及びオーディオ・バッファー14Hのようないろいろなバッファーが、MCU120の制御及び管理の下で、メモリー130内の記憶場所を用いて実現され、復号、バッファリング遅延制御及び時間スケーリングのブロック(夫々14D,14E及び14F)のようないろいろな機能ブロックは、メモリー130から読み出されたプログラム命令を実行するMCU120により実現される。しかし、実施態様によっては(音声信号修正を含む)適応制御機能全体がDSP180を用いて実施され得ることに留意するべきである。
以上の説明に基いて、本発明の使用の1つの利点が、音声信号における中断の可能性を在来のバッファリング手法と比べて顕著に低下させ得ることであることが理解されるべきである。在来のバッファリングでは、導入されるバッファリング遅延時間は不必要に大きいことがあり、また場合によっては小さすぎることがある。従って、在来のバッファリングでは、知覚される音声品質は、導入されたバッファリング遅延時間と出力音声において実際に経験される中断との折衷物になる。本発明の適応バッファー制御手法を用いることにより、この折衷を避けることができる。本発明の適応バッファー制御では、バッファリング遅延時間がパケットの到着間隔とパケットのコンテンツの再生における中断との関数とされるので、所要量のバッファリング遅延時間だけが導入される。
本発明の使用により可能となる適応音声バッファリング及び再生制御は、必要のあるときにだけ再生信号に影響を及ぼす。この思想は、一般的に、通常はエラーが発生したときにだけ働くエラー補正方法に密接に関連する。到着するパケットの平均スループットが理想的でないときには音声再生はオリジナルより遅かったり速かったりすることがあるが、これは、聴取者にとっては出力音声の絶えず繰り返される中断よりはましである。
本発明の使用により可能となる適応音声バッファリング及び再生制御は、或る従来技術アプローチのようにサンプリング間隔を使用するのとは対照的に、指数関数的推定を用いる。従って、1サンプリング間隔の分解能とは対照的に1音声フレーム(例えば、20ms)の時間分解能で判定を行うことが可能であり、これにより、より緊密で正確な制御を提供する。中断遅延時間の推定は、連続する中断間の間隔が割合に長い環境において連続的な音声出力を維持することを可能にする。
要約すると、上で詳しく説明したように、ベース遅延時間は、パケットの到着速度に起因して導入されるバッファリング遅延時間の成分である。ベース遅延時間は、到着間隔平均値に応じて制御される。パケットが作られるより速くパケットが到着するならば、パケットはパケットが作られるのと同じ速度で再生され、従ってベース遅延時間は徐々に大きくなる。パケットが作られるより速くパケットが再生されないのが好ましい。なぜならば、パケットが作られるより速くパケットが到着しているという事実の故に或る時点でネットワーク・バッファーのアンダーフローが発生して受信端末でパケット到着にポーズがもたらされそうだからである。迅速に到着するパケットの期間中に累積されたバッファー遅延時間をそのポーズ中に使うことができ、もしベース遅延時間の総量がそのポーズをカバーするならば中断は聞かれない。しかし、パケットが作られるより遅い速度でパケットが到着するならば、パケットの再生間隔が大きくされるので、ベース遅延時間は負にならず、それは、結局、再生信号における中断として経験される。
リザーブ遅延時間は、中断に対する保証手段として用いられるバッファリング遅延時間の付加的な成分である。中断は、ベース遅延時間が負になるときに発生すると考えられる。従って、中断遅延時間は、ベース遅延時間が負になっている時間の量であると定義される。しかし、もしリザーブ遅延時間が中断の期間をカバーするならば、中断は聞かれない。音声フレームの再生は好ましくは第2音声パケットが到着した後に直ちに開始される。低速のリンクに対する反応が実行され得るように第2音声パケットの到着が待たれ、従って、初期遅延時間はリザーブ遅延時間ではなくてベース遅延時間に埋め込まれる。音声セッション中、リザーブ遅延時間は、中断の平均持続時間をカバーするように変更される。これは、音声信号の時間スケーリングを用いることによってパケットの再生間隔を変更することによって達成される。
次に、本発明の使用の2つの例が続く。これらの例では、1つのパケットは8個の20ms音声フレームを含み、従って連続するパケット間の作成時間は160ms(8*20ms)であると仮定されている。
ベース遅延制御の例:高速スタートの次に低速リンクが続く(図9)
数個のパケットが時点ゼロに到着するが、それは、ベース遅延時間が始めに1420msに増大するという事実から分かる。この高い到着速度は平均到着間隔を160ms未満にする。この高速開始後、パケットは、パケットが作成される速度より一貫して低い速度で到着し(間隔は平均で240である)、従って、到着間隔平均値は増大し始め(高速リンク状態後に正しい値に収束するには或る程度の時間がかかる)、ベース遅延時間は減少する。到着間隔平均値が作成間隔(すなわち、160ms)を超えると、ベース・オフセットはゼロより大きくなり、1.00より大きな時間スケーリング比をもたらす。従って、パケットは初めに作成されたよりも低い速度で再生されるので、ベース遅延時間は同様に迅速には低減されない。時点5000msにおいて到着間隔平均値は収束して正しい値に近くなっている。固定小数点演算が用いられているので、ベース・オフセット値は到着間隔平均値と正確には一致せず、従ってベース遅延時間はゆっくり減少し続ける。しかし、ベース遅延時間とリザーブ遅延時間との和(リザーブ遅延時間はここではゼロである)は負にならず、従って、中断は聞かれない。この場合、前のセッションからの中断推定値は無く、従ってリザーブ遅延時間は使用されなかった。次の例は、リザーブ遅延時間の使用を記述する。
リザーブ遅延制御の例:長いポーズの間の高い到着速度(図10)
数個のパケットが時点ゼロに到着し、ベース遅延時間は初めに940msに増大する。これに700msのポーズが続き、その間にベース遅延時間は減少する。始めに到着したパケットに含まれる音声サンプルの量は該ポーズ中にベース遅延時間が負になるのを防止するのに充分だったのであり、従って、中断は検出されなかったということが分かる。これは、リザーブ遅延時間が無くても、ベース遅延時間がパケット到着におけるこの第1ポーズをカバーするのに充分な値を有することを意味する。該ポーズ後に、パケットの他のバーストが到着する。到着間隔平均値はポーズ間にだけ更新され(該ポーズはパケット作成間隔の3倍より大きい)、従って160msより低い値を得る。それ故に、ベース・オフセットはゼロである。前のセッションでは中断が検出され、従ってメモリーには中断推定値があり、これから、必要とされるリザーブ遅延時間が決定される。リザーブ・オフセットは必要とされるリザーブ遅延時間に応じてセットされ、従って、時間スケーリング比は1より大きい。見て分かるように、リザーブ遅延時間は、必要とされるリザーブ遅延時間の方へ収束し始める。時点4600msで中断が検出され、ここでベース遅延時間は負になる。その時点から、リザーブ遅延時間は減少し始める。なぜならば、それは今、中断をカバーするために使用されるからである。しかし、同時に次の中断のための準備が始まり、それは現在の中断に対する付加的なガードも提供する。第1中断が終わった後(時点5600で。ここで新しいパケットが到着する)、その後に生じる可能性のある中断をカバーするためになお必要とされるリザーブ遅延時間が決定される。この方法でバッファーのアンダーフローが防止されたが、それは、ベース遅延時間とリザーブ遅延時間との和がセッション全体の間正に保たれているという事実から分かる。もしこの場合に在来の固定遅延時間バッファリングが代わりに使用されていたならば、ベース遅延時間が負になる時点(この例では4600ms)から始まる1秒の中断が聴取者に聞かれたであろう。
以上の記述は、代表的で非限定的な例を通して、本発明を実施するために発明者により現在熟慮されている最善の方法及び装置についての充分で且つ有益な記述を提供している。しかし、添付図面及び添付されている請求項と関連させて以上の記述を読むことから種々の改変及び改造が当業者にとって明らかになるであろう。ほんの数例に過ぎないが、他の同様の又は等価の持続時間、サンプル数、バッファーのサイズ、比などの使用を当業者は試みることができる。更に、本発明の無線実施態様では、リンクは光リンクを含むことができるが、RFリンクを含まなくても良い。また、端末装置はネットワークへの有線接続を持つことができる。しかし、本発明の教示のこの様な改変及び類似の改変は全て依然として本発明の範囲に属するであろう。
更に、上では主としてセルラー電話端末装置又は移動局100のような移動電話と関連して記述されているけれども、本発明は、パケット交換ネットワークに接続され、パケットを受け取って音声(または他の何らかの時間順序付けられたコンテンツ)を再生することのできる任意の端末装置に応用され得るものである。従って、本教示は、例えば、ポケットPC、ラップトップPC及びデスクトップPCに、また音声、或いはより一般的にはオーディオの能力を有する電子手帳及びパーソナル・デジタル・アシスタント(PDA)にも応用可能である。更に、また上でも記されたように、受信されたパケットが実質的に連続的で実質的に一様な時系列を成して(すなわち、実質的に中断及び不連続部の無い仕方で)聴取者又は視聴者に呈示されるように意図されている時間順序付けられたコンテンツを運ぶようになっている少なくとも1つのパケット受信端末又は装置を有するシステムに本発明を応用することができる。音声コンテンツ及びビデオ・コンテンツは、時間順序付けられたコンテンツの2つの非限定的な例である。
更に、本発明の特徴のうちのあるものは、他の特徴の対応使用無しで有利に使用され得る。この様な次第で、以上の記述は単に本発明の原理を例証するものであって限定をするものと解されるべきではない。
本発明による適応バッファー遅延制御の高レベル記述を示すシステム・ブロック及びプロセスフロー図である。 図1の推定値更新ブロックを示すシステム・ブロック及びプロセスフロー図である。 図1のバッファリング遅延更新ブロックを示すシステム・ブロック及びプロセスフロー図である。 図1のバッファリング遅延制御ブロックを示すシステム・ブロック及びプロセスフロー図である。 図4の時間スケーリング・オフセット決定ブロックを示すシステム・ブロック及びプロセスフロー図である。 図1の時間スケーリング・ブロックを示すシステム・ブロック及びプロセスフロー図である。 図6のタイミング不変ブロックを示すシステム・ブロック及びプロセスフロー図である。 図1−7に示されている発明を実施するための1つの適切な実施態様である移動局及び無線ネットワークの略ブロック図である。 本発明の使用の第1の例、具体的には高速スタート後に低速リンクが続くベース遅延制御の例、を説明するのに役立つグラフのセットを示す。 図9(A)の続き。 本発明の使用の第2の例、具体的には長いポーズとポーズの間に高到着速度を伴なう(バースティ・リンク)リザーブ遅延制御の例、を説明するのに役立つグラフのセットを示す。 図10(A)の続き

Claims (51)

  1. パケット・ネットワークに接続された装置を作動させる方法であって、この方法は:
    音声情報を含むデータパケットを受信してバッファリングすることと;
    音声サンプルを得るべく該音声情報を復号することと;
    音声再生信号を生成する前に、該復号された音声サンプルをバッファリングすることと;
    を含み、
    該データパケットが作成される速度とは異なる速度で該データパケットが受信されるときに実質的に連続的な出力音声信号を提供するように該音声再生速度を変更し得るようにバッファリング遅延時間を調整するべく、各フレーム内の該復号された音声サンプルはパケット・ネットワークの状態の関数として時間スケーリングされ、該バッファリング遅延時間は、該データパケットが作成される速度より遅い速度で該データパケットが受信されるときに正の方向に制御されるベース遅延時間と、該ベース遅延時間が負になったならば中断に対する保証を提供するように管理されるリザーブ遅延時間とを含む、方法。
  2. データパケット到着遅延時間を決定する実質的に非同期のコンポーネントと、該非同期コンポーネントの動作に応じて、各フレーム中の前記復号された音声サンプルの時間スケーリングに基き前記バッファリング遅延時間を制御する、実質的に同期するコンポーネントとを含む、請求項1に記載の方法。
  3. パケット・バッファーの前記遅延時間は、前記パケットの第1フレームの再生の前に前記パケットが該パケット・バッファー内に存在する時間である、請求項1に記載の方法。
  4. 平均到着間隔、中断及び前記ベース遅延時間のうちの少なくとも1つの推定値を、中断が生じたか否か、また、もし中断が生じていたならば、それが初めての中断であったのかそれともその後の中断であったのかということの関数として、変更することを更に含む、請求項3に記載の方法。
  5. 音声フレームの再生は第2音声パケットの到着の後に開始される、請求項1に記載の方法。
  6. 音声セッション中、前記リザーブ遅延時間は中断の平均持続時間をカバーするように変更される、請求項1に記載の方法。
  7. 前記リザーブ遅延時間を変更することは、時間スケーリングによって音声パケットの再生間隔を変更することを含む、請求項6に記載の方法。
  8. 受信された音声フレームのタイプが不良フレーム、待ちフレーム及び良フレームのうちの1つであることを見出すことを更に含み、ベース・オフセット値及びリザーブ・オフセット値のリセットの発生のタイミングは少なくとも或る程度は該見出されたフレーム・タイプの関数である、請求項1に記載の方法。
  9. パケット・ネットワークに接続される装置であって、この装置は:
    音声情報を含むデータパケットを受信してバッファリングするための受信器受信器と;
    音声サンプルを得るべく該音声情報を復号するための復号器と;
    音声再生信号を生成する前に該復号された音声サンプルをバッファリングするためのバッファーと、を含んでおり、該装置は更に
    該データパケットが作成される速度とは異なる速度で該データパケットが受信されるときに実質的に連続的な出力音声信号を提供するように音声再生速度を変更し得るようにバッファリング遅延時間を調整するべく、各フレーム内の復号された音声サンプルを時間スケーリングするために該復号器と該バッファーとの間に挿入された時間スケーリング機能を含んでおり、該バッファリング遅延時間は、該データパケットが作成される速度より遅い速度で該データパケットが受信されるときに正の方向に制御されるベース遅延時間と、該ベース遅延時間が負になったならば中断に対する保証を提供するように管理されるリザーブ遅延時間とを含む、装置。
  10. データパケット到着遅延時間を決定する実質的に非同期のコンポーネントと、該非同期コンポーネントの動作に応じて、各フレーム中の前記復号された音声サンプルの時間スケーリングに基き前記バッファリング遅延時間を制御する、実質的に同期するコンポーネントとを含む、請求項9に記載の装置。
  11. 被受信パケット・バッファーのバッファリング遅延時間は、前記パケットの第1フレームの再生の前に前記パケットが該パケット・バッファー内に存在する時間である、請求項9に記載の装置。
  12. 平均到着間隔、中断及び前記ベース遅延時間のうちの少なくとも1つの推定値を、中断が生じたか否か、また、もし中断が生じていたならば、それが第1の中断であるのかそれともその後の中断であるのかということの関数として、変更するユニットを更に含む、請求項11に記載の装置。
  13. 音声フレームの再生は第2音声パケットの到着の後に開始される、請求項9に記載の装置。
  14. 音声セッション中、前記リザーブ遅延時間は中断の平均持続時間をカバーするように変更される、請求項9に記載の装置。
  15. 前記リザーブ遅延時間を変更することは、時間スケーリングによって音声パケットの再生間隔を変更することを含む、請求項14に記載の装置。
  16. 受信された音声フレームのタイプが不良フレーム、待ちフレーム及び良フレームのうちの1つであることを見出すための検出器を更に含み、ベース・オフセット値及びリザーブ・オフセット値のリセットの発生のタイミングは少なくとも或る程度は該見出されたフレーム・タイプの関数である、請求項9に記載の装置。
  17. パケット交換ネットワークに接続された装置を動作せしめるようにデータ・プロセッサに命令するためのコンピュータ可読媒体で具体化されるコンピュータ・プログラムであって、該装置は:
    音声情報を含むデータパケットを受信してバッファリングすることと;
    音声サンプルを得るべく該音声情報を復号することと;
    音声再生信号を生成する前に、該復号された音声サンプルをバッファリングすることと;を含む動作によって動作せしめられ、
    該データパケットが作成される速度とは異なる速度で該データパケットが受信されるときに実質的に連続的な出力音声信号を提供するように該音声再生速度を変更し得るようにバッファリング遅延時間を調整するべく、各フレーム内の該復号された音声サンプルはパケット・ネットワークの状態の関数として時間スケーリングされ、該バッファリング遅延時間は、該データパケットが作成される速度より遅い速度で該データパケットが受信されるときに正の方向に制御されるベース遅延時間と、該ベース遅延時間が負になったならば中断に対する保証を提供するように管理されるリザーブ遅延時間とを含む、コンピュータ・プログラム。
  18. データパケット到着遅延時間を決定する実質的に非同期のコンポーネントと、該非同期コンポーネントの動作に応じて、各フレーム中の前記復号された音声サンプルの時間スケーリングに基き前記バッファリング遅延時間を制御する、実質的に同期するコンポーネントとを含む、請求項17に記載のコンピュータ・プログラム。
  19. パケット・バッファーの前記遅延時間は、前記パケットの第1フレームの再生の前に前記パケットが前記パケット・バッファー内に存在する期間である、請求項17に記載のコンピュータ・プログラム。
  20. 平均到着間隔、中断及び前記ベース遅延時間のうちの少なくとも1つの推定値を、中断が生じたか否か、また、もし中断が生じていたならば、それが第1の中断であるのかそれともその後の中断であるのかということの関数として、変更することを更に含む、請求項19に記載のコンピュータ・プログラム。
  21. 音声フレームの再生は第2音声パケットの到着の後に開始される、請求項17に記載のコンピュータ・プログラム。
  22. 音声セッション中、前記リザーブ遅延時間は中断の平均持続時間をカバーするように変更される、請求項17に記載のコンピュータ・プログラム。
  23. 前記リザーブ遅延時間を変更することは、時間スケーリングによって音声パケットの再生間隔を変更することを含む、請求項22に記載のコンピュータ・プログラム。
  24. 受信された音声フレームのタイプが不良フレーム、待ちフレーム及び良フレームのうちの1つであることを見出すことを更に含み、ベース・オフセット値及びリザーブ・オフセット値のリセットの発生のタイミングは少なくとも或る程度は該見出されたフレーム・タイプの関数である、請求項17に記載のコンピュータ・プログラム。
  25. 前記装置は、無線リンクを通して前記パケット交換ネットワークに接続する受信器を含む、請求項17に記載のコンピュータ・プログラム。
  26. 前記装置は、有線リンクを通して前記パケット交換ネットワークに接続する受信器を含む、請求項17に記載のコンピュータ・プログラム。
  27. 前記装置は、前記パケット交換ネットワークに無線で接続するRF受信器を有するセルラー電話機を含む、請求項17に記載のコンピュータ・プログラム。
  28. パケット交換ネットワークに接続された装置を動作せしめるようにデータ・プロセッサに命令するためのコンピュータ可読媒体で具体化されるコンピュータ・プログラムであって、該装置は:
    実質的に連続的で且つ実質的に均一な時系列で人に呈示されるべく意図されている時間順序付けられたコンテンツを表す情報を含むデータパケットを受信してバッファリングすることと;
    音声サンプルを得るべく該情報を復号することと;
    再生信号を生成する前に、該サンプルをバッファリングすることと;を含む動作によって動作せしめられ、
    該データパケットが作成される速度とは異なる速度で該データパケットが受信されるときに実質的に連続的な出力信号を提供するように再生速度を変更し得るように、各フレーム内の該サンプルはパケット・ネットワークの状態の関数として時間スケーリングされ、該サンプルは、該データパケットが作成される速度より遅い速度で該データパケットが受信されるときに正の方向に制御されるベース遅延時間と、該ベース遅延時間が負になったならば、該時間順序付けられたコンテンツを呈示するときに中断に対する保証を提供するように管理されるリザーブ遅延時間とを調整するように時間スケーリングされる、コンピュータ・プログラム。
  29. データパケット到着遅延時間を決定する実質的に非同期のコンポーネントと、該非同期コンポーネントの動作に応じて、前記ベース遅延時間及び前記リザーブ遅延時間の値を制御する実質的に同期するコンポーネントとを含む、請求項28に記載のコンピュータ・プログラム。
  30. 平均到着間隔、中断及び前記ベース遅延時間のうちの少なくとも1つの推定値を、中断が生じたか否か、また、もし中断が生じていたならば、それが第1の中断であるのかそれともその後の中断であるのかということの関数として、変更することを更に含む、請求項28に記載のコンピュータ・プログラム。
  31. 受信されたフレームのタイプが不良フレーム、待ちフレーム及び良フレームのうちの1つであることを見出すことを更に含み、ベース・オフセット値及びリザーブ・オフセット値のリセットの発生のタイミングは少なくとも或る程度は該見出されたフレーム・タイプの関数である、請求項28に記載のコンピュータ・プログラム。
  32. パケット・ネットワークに接続するためのインターフェースを含む装置であって、該装置は:
    実質的に連続的で且つ実質的に均一な時系列で人に呈示されるべく意図されている時間順序付けられたコンテンツを表す情報を含むデータパケットのための受信器と;
    サンプルを得るべく該情報を復号する復号器と;
    再生信号を生成する前に該サンプルを格納するためのバッファーと;
    該データパケットが作成される速度とは異なる速度で該データパケットが受信されるときに実質的に連続的な出力信号を提供するように再生速度を変更し得るようにパケット・ネットワークの状態の関数として各フレーム内のサンプルを時間スケーリングするためのスケーラーとを含んでおり、該スケーラーは、該データパケットが作成される速度より遅い速度で該データパケットが受信されるときに正の方向に制御されるベース遅延時間と、もし該ベース遅延時間が負になったならば中断に対する保証を提供するように管理されるリザーブ遅延時間とで動作する、装置。
  33. 前記装置は、データパケット到着遅延時間を決定する実質的に非同期のコンポーネントと、該非同期コンポーネントの動作に応じて、前記スケーラーの動作を制御する実質的に同期するコンポーネントとを含む、請求項32に記載の装置。
  34. 平均到着間隔、中断及び前記ベース遅延時間のうちの少なくとも1つの推定値を、中断が生じたか否か、また、もし中断が生じていたならば、それが第1の中断であったのかそれともその後の中断であったのかということの関数として、変更する推定器を更に含む、請求項32に記載の装置。
  35. 受信されたフレームのタイプが不良フレーム、待ちフレーム及び良フレームのうちの1つであることを見出す検出器を更に含み、ベース・オフセット値及びリザーブ・オフセット値のリセットの発生のタイミングは少なくとも或る程度は該見出されたフレーム・タイプの関数である、請求項32に記載の装置。
  36. 前記データパケットはボイス・オーバーIPパケットを含む、請求項32に記載の装置。
  37. 前記装置はボイス・オーバーIP能力を有するセルラー電話機を含む、請求項32に記載の装置。
  38. ネットワークに接続されてそれから信号サンプルを受信し、再生の前に該信号サンプルを適応的にバッファリングする装置を動作せしめるようにデータ・プロセッサに命令するためのコンピュータ可読媒体で具体化されるコンピュータ・プログラムであって、該装置が実行する動作は:
    パケットを含む信号サンプルを該ネットワークから受信することと;
    パケットの到着間隔に応じて、且つ再生中断に応じてバッファリング遅延時間パラメータを調整することとを含み、ここで該バッファリング遅延時間パラメータの値はパケットの再生時点と該パケットの到着時間との差異の関数であって且つベース遅延時間及びリザーブ遅延時間の組み合わせであり;
    該ベース遅延時間は、もしパケットが作成されるよりも速く該パケットが到着し、該パケットが作成される速度と同じ速度で該パケットが再生されるならば該ベース遅延時間が大きくされるようにパケットの該到着速度に起因して導入されるバッファリング遅延時間の量を表し、該パケットが作成されるより速く該パケットが到着する時間の間に導入される該ベース遅延時間は再生中断を避けるようにパケット到着のポーズの間に消費され;
    該リザーブ遅延時間は、該ベース遅延時間が負になるときに発生する再生中断を見越して、且つ該再生中断に対する保証として、用いられる付加的な遅延時間を表す、コンピュータ・プログラム。
  39. 前記ネットワークから受信される前記パケットはボイス・オーバーIPパケットを含む、請求項38に記載のコンピュータ・プログラム。
  40. 前記装置はセルラー電話機を含む、請求項38に記載のコンピュータ・プログラム。
  41. それまでに受信された最大のパケット・シーケンス番号を有するパケットの最後のフレームについて前記ベース遅延時間の数値が求められる、請求項38に記載のコンピュータ・プログラム。
  42. ベース遅延時間変更は、パケット到着間隔平均値に関連付けられ、且つ、該ベース遅延時間変更は、もし残りのパケットが規則的間隔で再生されたならば前記ベース遅延時間の現在の数値を求める期間において最初に到着したパケットのために使用され、なおパケットの実際の不規則的再生と同じ前記ベース遅延時間の値をもたらすものに対応する再生時点を表すベース仮想再生時点変数の中に埋め込まれる、請求項38に記載のコンピュータ・プログラム。
  43. 前記ベース遅延時間の値はベース仮想再生時点+作成間隔*(最大の到着シーケンス番号−前記ベースについての第1シーケンス番号)+作成間隔−1−現在の時間)に等しいと評価される、請求項42に記載のコンピュータ・プログラム。
  44. 前記ベース遅延時間の数値を求める期間は、前記ベース遅延時間が負になった後に第1パケットが到着した時点から始まる、請求項43に記載のコンピュータ・プログラム。
  45. 前記ベース仮想再生時点は、仮想再生時点変化を現在のベース仮想再生時点値に加え、且つ該仮想再生時点変化をゼロにセットすることによって始めに更新される、請求項42に記載のコンピュータ・プログラム。
  46. パケット・ネットワークに接続するための装置であって、該装置は:
    実質的に連続的で且つ実質的に均一な時系列で人に呈示されるべく意図されている時間順序付けられたコンテンツを表す情報を含むデータパケットを受信するための手段と;
    サンプルを得るべく該情報を復号するための手段と;
    再生信号を生成する前に、該サンプルを記憶するための手段と;
    該データパケットが作成される速度とは異なる速度で該データパケットが受信されるときに実質的に連続的な出力信号を提供するように該再生速度を変更し得るように、各フレーム内の該サンプルを該パケット・ネットワークの状態の関数として時間スケーリングするための手段とを含んでおり、該時間スケーリング手段は、該データパケットが作成される速度より遅い速度で該データパケットが受信されるときに正の方向に制御されるベース遅延時間と、該ベース遅延時間が負になったならば中断に対する保証を提供するように管理されるリザーブ遅延時間とで動作する、装置。
  47. 前記装置は、データパケット到着遅延時間を得るための実質的に非同期の手段と、該非同期手段の動作に応じて前記時間スケーリング手段の動作を制御するための実質的に同期する手段とを含む、請求項46に記載の装置。
  48. 平均到着間隔、中断及び前記ベース遅延時間のうちの少なくとも1つの推定値を、中断が生じたか否か、また、もし中断が生じていたならば、該中断が第1の中断であったのかそれともその後の中断であったのかということの関数として変更するための手段を更に含む、請求項46に記載の装置。
  49. 受信された音声フレームのタイプが不良フレーム、待ちフレーム及び良フレームのうちの1つであることを見出すための手段を更に含み、ベース・オフセット値及びリザーブ・オフセット値のリセットの発生のタイミングは少なくとも或る程度は該見出されたフレーム・タイプの関数である、請求項46に記載の装置。
  50. 前記データパケットはボイス・オーバーIPパケットを含む、請求項46に記載の装置。
  51. 前記装置はボイス・オーバーIP能力を有するセルラー電話手段を含む、請求項46に記載の装置。
JP2007510146A 2004-04-28 2005-04-22 受信端末において音声パケット・バッファーの連続的適応制御を提供する方法及び装置 Active JP4456633B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/834,328 US7424026B2 (en) 2004-04-28 2004-04-28 Method and apparatus providing continuous adaptive control of voice packet buffer at receiver terminal
PCT/IB2005/001090 WO2005106854A1 (en) 2004-04-28 2005-04-22 Method and apparatus providing continuous adaptive control of voice packet buffer at receiver terminal

Publications (2)

Publication Number Publication Date
JP2007535258A true JP2007535258A (ja) 2007-11-29
JP4456633B2 JP4456633B2 (ja) 2010-04-28

Family

ID=35187037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007510146A Active JP4456633B2 (ja) 2004-04-28 2005-04-22 受信端末において音声パケット・バッファーの連続的適応制御を提供する方法及び装置

Country Status (7)

Country Link
US (1) US7424026B2 (ja)
EP (1) EP1751744B1 (ja)
JP (1) JP4456633B2 (ja)
CN (1) CN1969321B (ja)
AT (1) ATE483229T1 (ja)
DE (1) DE602005023857D1 (ja)
WO (1) WO2005106854A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016527540A (ja) * 2013-06-21 2016-09-08 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. ジッターバッファ制御、オーディオデコーダ、方法およびコンピュータプログラム

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7650285B2 (en) * 2004-06-25 2010-01-19 Numerex Corporation Method and system for adjusting digital audio playback sampling rate
CA2691762C (en) * 2004-08-30 2012-04-03 Qualcomm Incorporated Method and apparatus for an adaptive de-jitter buffer
US7783482B2 (en) * 2004-09-24 2010-08-24 Alcatel-Lucent Usa Inc. Method and apparatus for enhancing voice intelligibility in voice-over-IP network applications with late arriving packets
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
WO2006057525A1 (en) * 2004-11-25 2006-06-01 Electronics And Telecommunications Research Institute Method and apparatus for constituting transport network based on integrated synch and asynch frame
SE528248C2 (sv) * 2004-12-08 2006-10-03 Ericsson Telefon Ab L M Metod för kompensering av fördröjningar
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US8102878B2 (en) 2005-09-29 2012-01-24 Qualcomm Incorporated Video packet shaping for video telephony
US8406309B2 (en) * 2005-10-21 2013-03-26 Qualcomm Incorporated Video rate adaptation to reverse link conditions
US8514711B2 (en) * 2005-10-21 2013-08-20 Qualcomm Incorporated Reverse link lower layer assisted video error control
US8548048B2 (en) * 2005-10-27 2013-10-01 Qualcomm Incorporated Video source rate control for video telephony
US8842555B2 (en) * 2005-10-21 2014-09-23 Qualcomm Incorporated Methods and systems for adaptive encoding of real-time information in packet-switched wireless communication systems
US7796999B1 (en) 2006-04-03 2010-09-14 Sprint Spectrum L.P. Method and system for network-directed media buffer-size setting based on device features
US8665892B2 (en) * 2006-05-30 2014-03-04 Broadcom Corporation Method and system for adaptive queue and buffer control based on monitoring in a packet network switch
US8483243B2 (en) * 2006-09-15 2013-07-09 Microsoft Corporation Network jitter smoothing with reduced delay
KR20120034084A (ko) 2007-01-10 2012-04-09 콸콤 인코포레이티드 멀티미디어 전화 통신을 위한 컨텐트- 및 링크-의존 코딩 적응 구조
KR100787314B1 (ko) * 2007-02-22 2007-12-21 광주과학기술원 미디어내 동기화를 위한 적응형 미디어 재생 방법 및 장치
US8165224B2 (en) 2007-03-22 2012-04-24 Research In Motion Limited Device and method for improved lost frame concealment
KR101418354B1 (ko) 2007-10-23 2014-07-10 삼성전자주식회사 음성 통신 시스템에서 플레이아웃 스케줄링 방법 및 장치
US8797850B2 (en) * 2008-01-10 2014-08-05 Qualcomm Incorporated System and method to adapt to network congestion
US20100006527A1 (en) * 2008-07-10 2010-01-14 Interstate Container Reading Llc Collapsible merchandising display
US8526306B2 (en) * 2008-12-05 2013-09-03 Cloudshield Technologies, Inc. Identification of patterns in stateful transactions
US8611337B2 (en) * 2009-03-31 2013-12-17 Adobe Systems Incorporated Adaptive subscriber buffering policy with persistent delay detection for live audio streams
US8355338B2 (en) * 2009-07-14 2013-01-15 Hong Kong Applied Science And Technology Research Institute Co. Ltd. Method of processing sequential information in packets streamed over a network
KR101268621B1 (ko) * 2009-12-21 2013-05-29 한국전자통신연구원 동적 플로우 샘플링 장치 및 방법
CN102214464B (zh) 2010-04-02 2015-02-18 飞思卡尔半导体公司 音频信号的瞬态检测方法以及基于该方法的时长调整方法
CN101840703B (zh) * 2010-05-07 2012-07-25 无锡中星微电子有限公司 一种语音变调方法及装置
AU2014283256B2 (en) 2013-06-21 2017-09-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time scaler, audio decoder, method and a computer program using a quality control
US9806967B2 (en) * 2014-05-30 2017-10-31 Sony Corporation Communication device and data processing method
US9948578B2 (en) 2015-04-14 2018-04-17 Qualcomm Incorporated De-jitter buffer update
JP6695069B2 (ja) * 2016-05-31 2020-05-20 パナソニックIpマネジメント株式会社 電話装置
TWI690440B (zh) * 2018-10-17 2020-04-11 財團法人車輛研究測試中心 基於支持向量機之路口智慧駕駛方法及其系統

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6452950B1 (en) 1999-01-14 2002-09-17 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive jitter buffering
US6377931B1 (en) * 1999-09-28 2002-04-23 Mindspeed Technologies Speech manipulation for continuous speech playback over a packet network
SE517156C2 (sv) * 1999-12-28 2002-04-23 Global Ip Sound Ab System för överföring av ljud över paketförmedlade nät
ATE422744T1 (de) 2001-04-24 2009-02-15 Nokia Corp Verfahren zum ändern der grösse eines zitterpuffers und zur zeitausrichtung, kommunikationssystem, empfängerseite und transcoder
JP2002322182A (ja) * 2001-04-25 2002-11-08 Inst Of Physical & Chemical Res 血管新生阻害作用を有するrkb−3564物質
US7496086B2 (en) * 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016527540A (ja) * 2013-06-21 2016-09-08 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. ジッターバッファ制御、オーディオデコーダ、方法およびコンピュータプログラム

Also Published As

Publication number Publication date
EP1751744B1 (en) 2010-09-29
CN1969321B (zh) 2010-12-22
DE602005023857D1 (de) 2010-11-11
WO2005106854A1 (en) 2005-11-10
US20050243846A1 (en) 2005-11-03
JP4456633B2 (ja) 2010-04-28
CN1969321A (zh) 2007-05-23
ATE483229T1 (de) 2010-10-15
EP1751744A1 (en) 2007-02-14
US7424026B2 (en) 2008-09-09

Similar Documents

Publication Publication Date Title
JP4456633B2 (ja) 受信端末において音声パケット・バッファーの連続的適応制御を提供する方法及び装置
US7457282B2 (en) Method and apparatus providing smooth adaptive management of packets containing time-ordered content at a receiving terminal
JP2007511939A5 (ja)
CA2691762C (en) Method and apparatus for an adaptive de-jitter buffer
US7266127B2 (en) Method and system to compensate for the effects of packet delays on speech quality in a Voice-over IP system
US7319703B2 (en) Method and apparatus for reducing synchronization delay in packet-based voice terminals by resynchronizing during talk spurts
US8279884B1 (en) Integrated adaptive jitter buffer
TWI305101B (en) Method and apparatus for dynamically adjusting playout delay
JP2001160826A (ja) 遅延ゆらぎ吸収装置、遅延ゆらぎ吸収方法
EP3742438A1 (en) Signal processing apparatus, signal processing method, and program
WO2016151852A1 (ja) 音声再生装置、画像表示装置及びその音声再生方法
Lee et al. Enabling Wireless VoIP
EP2487920A2 (en) Apparatus, and associated method, by which to play out media data pursuant to a media data service

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4456633

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140212

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250