JP2006238445A

JP2006238445A - 仮想ジッタ・バッファおよび時間スケール修正を使用した、ＶｏｉｃｅｏｖｅｒＩＰ通信ネットワークにおいてネットワーク・ジッタを処理する方法および装置

Info

Publication number: JP2006238445A
Application number: JP2006044971A
Authority: JP
Inventors: Minkyu Lee; リーミンキュー; James W Mcgowan; ウィリアムマックゴワンジェームズ; Michael C Recchione; チャールズレッチオーネマイケル
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 2005-02-22
Filing date: 2006-02-22
Publication date: 2006-09-07
Also published as: US20060187970A1; EP1694029A1

Abstract

【課題】仮想ジッタ・バッファおよび時間スケール修正を使用した、ＶｏｉｃｅｏｖｅｒＩＰ通信ネットワークにおいてネットワーク・ジッタを処理する方法および装置を提供すること。
【解決手段】音声パケットのシーケンスがトーク・スパートを含むことができる、音声パケットのシーケンスが受信され、パケットは、ゼロの初期再生レーテンシを有するジッタ・バファに記憶される。その後、シーケンス内の複数の初期音声パケットが、有利には、時間伸張され、再生出力され、それによって、ジッタ・バッファの深さ（処理されるネットワーク・ジッタ量）を増加させる。その後、ジッタ・バッファの深さをゼロに戻すために、複数の後続の音声パケットが、時間圧縮され、再生出力される。一実施形態では、音声パケットのシーケンスは、トーク・スパートを含み、別の実施形態では、音声パケットのシーケンスは、携帯のハンドオフ中に受信される音声パケットを含む。
【選択図】図２

Description

本発明は、一般に、ＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）通信サービスを提供するパケット・ベースの通信ネットワークの分野に関し、特に、付加的な再生レーテンシを導入することなく、ネットワーク・ジッタを処理する方法および装置に関する。

音声パケットが、ＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）を提供する通信ネットワークを通して伝送される時に、連続するパケットの受信間の間隔の規則性が必然的に乱される。この現象は、「ネットワーク・ジッタ」として知られている。こうしたジッタは、パケットがあまりにも遅く到着する時はいつでも、パケット喪失をもたらす可能性があり、それによって、その再生時間がなくなり、これらのパケット喪失は、最終的には音声品質を低下させる。典型的な最先端のＶｏＩＰシステムでは、受信側エンド上のパケット・バッファは、ジッタを補償するために、一定量の初期再生遅延を付加することによって、この問題を解消するのに使用される。この「ジッタ・バッファ」は、その後、一定遅延後に開始する、音声パケットの安定したストリームを再生メカニズム内に供給する。そのため、一定遅延量までの任意のジッタ量が、音声品質の損失無しで、対処されるであろう。伝送におけるその遅延が、この一定遅延を超えるパケットのみが、「喪失される」ことになる。（こうして「喪失された」パケットについて、ほとんどのシステムは、結果として生じる音声品質の低下を制限しようとして、従来のパケット喪失隠蔽技法を採用する。それでも、過度のパケット喪失は、かなりの音声品質低下を必然的にもたらすであろう。）

したがって、ジッタ・バッファの初期レーテンシが任意に長い場合、任意に大きな量のネットワーク・ジッタが、理論的には吸収されるであろう。しかし、実世界の音声通信システムでは、リアルタイムの制約により、長い遅延は実用的ではない。これらの実世界の制約により、ほとんどの音声パケット通信システムの典型的なジッタ・バッファの初期再生レーテンシは、２０〜６０ミリ秒であり、それによって、２０〜６０ミリ秒の付加的なエンド−エンド遅延をもたらす。ほとんどのジッタ・バッファ設計では、この初期再生レーテンシは、バッファによって与えられるジッタ保護と同じである。そのため、増加したジッタに対処するために、再生レーテンシは、それに応じて、増加しなければならない。ＶｏＩＰ、特に、無線ＶｏＩＰにおいて、この付加的な遅延は、ネットワーク容量、音声品質などの点で、重要な役割を果たすことができる。

ランド−モバイル接続では、ジッタ・バッファが、たとえ２０ミリ秒遅延のみを挿入しても、パケット喪失がほんのわずかである傾向がある。しかし、モバイル−ランドおよびモバイル−モバイル接続では、ジッタは、実質的により顕著であり、パケット喪失を許容可能なレベルにするには、６０ミリ秒以上の遅延が必要とされることが多い。ネットワークの詳細が、観測される正確なジッタ量に影響を与えるが、少なくとも数パケット長のジッタは、適度な音声品質を送出するために対処される必要があるという一般的な傾向が当てはまる。（音声パケットは、通常、２０ミリ秒のスピーチを含む。）さらに、所与のモバイル基地局上のユーザの数が増加すると、ジッタが大幅に増加するため、受信器において増加するジッタ量に対処する能力は、有利には、各基地局上で、より多くの数のユーザが適度の音声品質によってサポートされることをもたらすであろう。

トーカが、音声通信システムの電話を通じて話す時、メッセージは、基礎をなすネットワークを通して他の側に送出される。ＩＴＵ−ＴＧ．１１４という、国際電気通信連合（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ）によって公表され、当業者に熟知されている、よく知られている規格は、この規格に準拠するネットワーク内の２人の人間ユーザの間での通常のテレフォニー会話に許可される最大エンド−エンド遅延を指定する。特に、総エンド−エンド遅延は、１５０ミリ秒より小さいことが推奨される。しかし、たとえば、ＣＤＭＡ２０００ＥＶＤＯｒｅｖ．Ａという、当業者に熟知されている無線通信規格などの無線ＶｏＩＰシステムでは、この遅延要件を一貫して達成することは、非常に難しいことが多い。その理由は、従来のジッタ・バッファを使用すると、高いパケット・ジッタが、大きな一定遅延（高い再生レーテンシから生じる）に直接変換されるためである。

採用されてきた一手法は、「適応」ジッタ・バッファを使用することであり、一定遅延量は、たとえば、トーク・スパートごとにトーク・スパートに関してなどで、調整されてもよい。（「トーク・スパート」は、無音が先行し、かつ、無音が後に続くトーカのスピーチのセグメントである。）こうした手法は、ネットワークの振る舞い（たとえば、前の一定遅延量がジッタ・バッファによって付加されるとした場合のパケット喪失量）を調べ、その後、それに応じて、次のトーク・スパートについてジッタ・バッファを調整する。しかし、この手法は、たとえ、非常に適応的にネットワーク条件に基づいたとしても、ジッタ保護量に等しい再生レーテンシ量をやはり導入する。

したがって、高い再生レーテンシを導入することなく、高いネットワーク・ジッタを処理する方法および装置を提供することが、非常に望ましいであろう。

本発明の原理によれば、仮想ジッタ・バッファおよび時間スケール修正を使用した、通信ネットワークにおいてネットワーク・ジッタを処理する方法および装置が提供される。本発明の１つの説明的な実施形態によれば、音声パケットのシーケンスが好ましくはトーク・スパートを含むことができる、音声パケットのシーケンスが受信され、パケットは、ゼロの初期再生レーテンシを有するジッタ・バファに記憶され、それによって、効果的にジッタ・バッファをスキップし、リスナに対して、遅延無しで即座にパケットを再生出力する。所定の数の初期音声パケット（たとえば、シーケンスの最初の数個の音声パケット）は、有利には、再生出力される時に時間伸張され、それによって、所定の最大有効レーテンシに達するまで、ジッタ・バッファの有効レーテンシ（したがって、処理されるネットワーク・ジッタ）を増加させる。その後、トーク・スパートの終了を指示するパケットの受信が検出されるまで、後続の音声パケットが、その標準的な長さ（すなわち、標準速度）で再生出力され、その時点で、残りの（未再生出力の）音声パケットは、有利には、有効ジッタ・バッファ・レーテンシをゼロに戻すために、再生出力される時に時間圧縮される。

こうして、実質的にゼロの遅延ジッタ・バッファが、有利には、達成され、一方、多くの音声パケットは、それでも、所定の量だけネットワーク・ジッタから保護される。すなわち、本発明のこの説明的な実施形態によれば、仮想ジッタ・バッファは、トーク・スパークの「中央」でネットワーク・ジッタ保護を提供し、それによって、大多数の音声パケットをネットワーク・ジッタから保護し、なおかつ、仮想ジッタ・バッファ長は、各トーク・スパークの開始および終了においてゼロになり、それによって、遅延の付加が知覚されないことになる。

本発明の別の説明的な実施形態によれば、仮想ジッタ・バッファは、有利には、ネットワーク・ジッタが最も問題となる可能性がある、携帯の「ハンドオフ」が起こる時に、モバイル（たとえば、無線）通信ネットワークにおいて付加されたネットワーク・ジッタ保護を提供し、なおかつ、仮想ジッタ・バッファ長は、ネットワーク・ジッタがあまり問題とならない可能性がある、他の時には増加しない。特に、モバイル局が、サービス基地局を、１つの基地局から別の基地局へ切り換える期間は、通常、サービス・ギャップを作成する。本発明のこの説明的な実施形態によれば、このサービス・ギャップは、ハンドオフを予想しての時間伸張およびハンドオフが完了した後の時間圧縮の有利な使用によって埋められる。

［本発明の第１の説明的な実施形態］
本発明の１つの説明的な実施形態によれば、トーカ間の各会話ターンにおいて、トーク・スパートを積極的に管理する方法が採用される。説明的なトーク・スパート管理方法は、有利には、各トーク・スパート内でパケットにジッタ保護を提供しながら、ゼロ初期バッファリング遅延を可能にし、それによって、パケット喪失率の減少、相応して、音声品質の向上をもたらす。図１は、従来技術のジッタ・バッファ技法が採用される時の、２人のスピーカ間の会話ターン、および、結果として得られるスピーカ間の会話遅延のサンプルタイミング図を示す。スピーカは、それぞれ、「東」および「西」として識別される。特に、図は、東による第１の会話ターンと、それに続く、西による第１の会話ターンと、それに続く、東による第２の会話ターンと、その後の、西による第２の会話ターンを示す。（「会話」ターンは、会話に対して、１人の相手のみがその間に話す期間である。）

従来技術の技法によれば、東による第１の会話ターン中に起こるネットワークの振る舞い（たとえば、パケット喪失）の結果として、西の受信器に関連する適応ジッタ・バッファは、東による第２の会話ターンで使用するために、ジッタ・バッファ遅延を付加することが必要であると判断することが、図１で仮定される。そのため、図を見てわかるように、付加されたこのジッタ・バッファ遅延は、東の知覚される遅延の増加をもたらす。

各会話ターンは、１つまたは複数のトーク・スパートからなる。一方向伝送遅延（たとえば、図１において、東から西、または、西から東）は、送信器におけるパケット化および符号化遅延、ならびに受信器におけるネットワーク伝送遅延、ジッタ・バッファ遅延、および復号化遅延を含む。本発明の原理によれば、ジッタ・バッファ遅延は、有利には、減少するか、または、なくなる。ジッタ・バッファ遅延を減少させることによって、各トーカの総合の知覚される遅延もまた、有利には、減少する可能性がある。特に、各会話ターン内での積極的なトーク・スパートの管理によって、ジッタ・バッファ遅延を大幅に減少させることが可能になる。

より詳細には、本発明の１つの説明的な実施形態によれば、積極的なトーク・スパートの管理は、復号化されるスピーチ・サンプルに対して時間スケール修正技法を適用する。図２は、本発明の１つの説明的な実施形態による、仮想ジッタ・バッファの使用によって単一トーク・スパートの積極的なトーク・スパート管理を実施する時間スケール修正技法の動作を示す。図は、時間スケール修正の結果ならびに使用される仮想ジッタ・バッファの対応する有効再生レーテンシの両方を示す。

特に、図は、送信器から受信器に伝送される、数ｎの音声パケット―それぞれがｄ_１に等しい長さ（すなわち、継続時間）を有する―に符号化された、単一トーク・スパートの動作を示す。図に示すように、送信器は、第１音声パケット（すなわち、パケット１）を時間ｔ_１ ^ｓに送信すること、および、そのパケットが、受信器に時間ｔ_１ ^ｒに到着することが仮定される。本発明の説明的な実施形態の動作によれば、伝送遅延ｔ_１ ^ｒ−ｔ_１ ^ｓを減少させるために、トーク・スパートの第１音声パケット（すなわち、パケット１）は、到着するとすぐに復号され、再生バッファに送出される。（ほとんどの従来技術のシステムでは、パケットは、ネットワーク・ジッタに対するある程度の保護を与えるために、ジッタ・バッファに置かれることになることに留意されたい。）本発明の説明的な実施形態の動作によれば、第１パケットは、即座に再生出力されるため、リスナは、ジッタ・バッファの結果としていずれの付加的な遅延にも気づかない。

しかし、本発明の説明的な実施形態の動作によれば、第１パケットからのスピーチ・サンプルの長さは、有利には、ｄ_１のその元の長さ（すなわち、継続時間）からｄ_２（ｄ_２はｄ_１より長い）へ、説明的に、元の長さｄ_１の予め決めたパーセンテージだけ時間伸張される。図に示す例では、ｄ_２は、説明的に、ｄ_１より５０％長い。すなわち、ｄ_１が２０ミリ秒の長さ（音声パケットにとって典型的な長さ）であった場合、ｄ_２は、有利には、３０ミリ秒の長さであることになる。そのため、この説明的な例では、それぞれの時間伸張されたパケットは、後続のパケットに対して付加的な１０ミリ秒に相当するジッタ保護を提供する。

第２パケットが到着すると（付加的なジッタが無い状態で到着すると仮定すると）、第２パケットは、復号されることができる前に、キュー内で１０ミリ秒待たなければならない。次のパケットは（同じ仮定の下で）、２０ミリ秒待つなどである。付加的なサンプルは、「遅い」パケットが関係する限り、送信器と受信器の「クロック」間に時間ラグを生じる。図２に示す説明的な例は、最初の４つのパケットが、５０％の時間スケール伸張によって再生出力される場合を示す。それによって、蓄積された総合の４０ミリ秒の時間ラグは、ネットワーク・ジッタに対する付加的な保護を提供する。そのため、本発明者等は、本明細書で、この時間スケール伸張の有効な結果を、「仮想ジッタ・バッファ」の作成と呼ぶ。時間スケール伸張はまた、有利には、到来する音声パケット・ストリームの予見能力を提供することに留意されたい。

本発明の説明的な実施形態の動作によれば、この時間スケール伸張動作は、有利には、時間ラグが予め決めた最大値に達するまで実施される。図２に示す説明的な例では、この予め決めた最大値は４０ミリ秒である。仮想ジッタ・バッファのサイズがこの最大値に達すると、後続のパケットは、有利には、トーク・スパートの最後のパケットが受信器によって検出されるまで、すなわち、この最後のパケットが、仮想ジッタ・バッファに「入る」まで、元の時間スケールで再生される。図２に示す説明的な例では、仮想ジッタ・バッファは、有利には、２つのパケットに相当する予見能力を提供する。すなわち、受信器がパケットｎ−２を復号しようとしている時、受信器は、既に、パケットｎ（すなわち、最後のパケット）を受信してしまっている。

本発明の説明的な実施形態によれば、受信されたパケット（この説明的な例では、パケットｎ）が、現在のトーク・スパートが終了することを指示すると（こうした判断を行う説明的な技法のために以下を参照されたい）、仮想ジッタ・バッファ内に残っているパケット（すなわち、受信されたが、まだ再生出力されていないパケット）の全て、ならびに、この最後に受信されたパケット（パケットｎ）は、復号され、再生出力されるが、有利には、単一パケットの元の長さｄ_１内に全てが再生出力される。こうして、トーク・スパートの終了は、付加される遅延がゼロに保たれ、したがって、ジッタ・バッファは、会話遅延を増やさない。

本発明の説明的な実施形態によれば、上述した短縮された再生間隔は、有利には、時間スケール圧縮の使用によって達成される。説明的に、各圧縮されたパケットの圧縮長ｄ_３は、有利には、ｄ_１／（仮想ジッタ・バッファ・サイズ＋１）に等しくなるように計算されてもよい。この説明的な例では、ｄ_３は６．６６６７ミリ秒である。こうして、受信器のクロックは、有利には、送信器のクロックに「追い付く」ことになる、または、等価的に、仮想ジッタ・バッファは、ゼロ・サイズに戻ることになる。その結果、全体のトーク・スパート長（図ではＬとして示す）は、有利には、送信器と受信器の両方について同じである。この条件は、有利には、会話遅延を最小にすることをもたらすことに留意されたい。同様に、図に説明的に示した、最初の４つのパケットのそれぞれについての１０ミリ秒の付加的なラグは、いずれの気づかれる音声品質（または、韻律素）の低下ももたらさず、一方、上述した利点の全てをやはり提供することに留意されたい。

図３は、本発明の１つの説明的な実施形態による、仮想ジッタ・バッファの使用によって、会話ターンの積極的なトーク・スパートの管理を実施する時間スケール修正技法の動作を示す。図を見てわかるように、説明的な会話ターンは３つのトーク・スパートからなる。図は、送信器および受信器についてのタイミング・シーケンスならびに使用される仮想ジッタ・バッファの対応する有効深さの両方を示す。（都合のために、送信器および受信器のタイミング・シーケンスは、伝送遅延を無視して、図に示される。）

多くの可変レート・ボコーダ（音声コーダ）は、スピーチの有声の／無声の、および、無音の部分について異なるパケット・タイプを使用する。たとえば、よく知られているＥＶＲＣボコーダという、当業者に熟知されている従来のＣＤＭＡ無線通信システムで使用される標準的な音声コーデック（コーダ／デコーダ）は、可変符号化レート−アクティブ・スピーチ・パケット用のフルレート符号化およびハーフレート符号化、ならびに、無音間隔パケット用の１／８レート符号化−を使用する。図３に示す説明的な例の議論において、本発明者等は、こうしたＥＶＲＣボコーダの使用を仮定するであろう。

本発明の説明的な実施形態によれば、会話ターンの開始および終了は、有利には、先行する１／８レート（すなわち、無音）パケットの数をカウントすることによって検出されてもよい。１／８レート・パケットが、一部のボコーダ実施態様でそうであるように、抑圧される（すなわち、ブランキングされる）場合、内部クロック、または、当業者に熟知されている、リアルタイム・プロトコル（ＲＴＰ）などの通信プロトコルは、代わりに、送出されたと思われるこうしたパケットの数を効果的にカウントするのに使用されることができる。

そのため、具体的に、本発明の説明的な実施形態によれば、フルレートまたはハーフレートのパケットが、その長さが、ある所定の閾値より大きい、一連の１／８レート・パケットに続く場合、この事実は、有利には、新しい会話ターン、したがって、新しいトーク・スパートの開始を指示するのに使用されてもよい。そのため、最初のトーク・スパートの開始部分は、先に述べ、図２に示すように、有利には、時間伸張され、トーク・スパートの終了部分は、有利には、圧縮される。

しかし、本発明の１つの説明的な実施形態によれば、任意の後続のトーク・スパート（すなわち、所与の会話ターンの最初のトーク・スパート以外の任意のトーク・スパート）の開始は、必ずしも時間伸張されない。代わりに、それは、付加的な無音間隔の使用によって、最大仮想ジッタ・バッファまでの時間量だけ単に遅延されてもよい。これは、有利には、これらの後続のトーク・スパートの開始部分をネットワーク・ジッタから最大限保護するために行われ、そうでなければ、それらはジッタ保護をほとんど受けないことになる（会話ターンの最初のトーク・スパートの最初のいくつかのパケットの場合がそうである）。

さらに、本発明のこの説明的な実施形態によれば、受信器は、一般に、所与のトーク・スパートの終了が、実際に、会話ターンの終了であるかどうかを知らないため、送信器と再同期化するために、各トーク・スパートの終了部分は、有利には、圧縮される（図２に関連して先に述べたように）。しかし、無音間隔が比較的短く、かつ、したがって、所与のトーク・スパートの終了が、会話ターンを終了させないと仮定することができる場合、後続のトーク・スパートは、有利には、知覚される遅延に影響を及ぼすことなく、遅延されてもよい。本発明者等は、本明細書でこれを、「プッシング無音」と呼ぶ。

無音間隔が非常に短い場合、無音は、人が、たとえば、「フットボール」という語を普通に言うと思われる言い方などの、単一の語内にあることが、よくあることに留意されたい。この場合、後続のスピーチは、それが、まるで会話ターンの開始であるかのように、伸張される必要がある場合がある。これは、気づくことができる無音ギャップが、語の中央に間違ってプッシュされることを防止する（たとえば、「フット。ボール。」のように聞こえるのではなく、「フットボール」ように聞こえるスピーチをもたらすために）。

本発明の説明的な実施形態に従って使用される、上述した技法は、有利には、たとえ、全てのトーク・スパートが会話ターンを指示するわけではないにしても、各会話ターンの開始と終了が、ゼロ・ジッタ・バッファ遅延を有することを確実にするであろう。仮想ジッタ・バッファ深さを示す図３において、アクティブ・スピーチ・パケットのほとんど（唯一の例外は、最初のトーク・スパートの開始部分のパケットである）は、最大仮想ジッタ・バッファ深さまで、ジッタ保護されることに留意されたい。特に、図で説明的に示すように、少数の例外のパケット以外の全てのパケットについてのジッタ保護は、いずれの付加的な知覚される遅延も導入することなく、４０ミリ秒の再生遅延を有する一定のジッタ・バッファによって与えられる保護に等しい。

上述した本発明の説明的な実施形態によれば、積極的なトーク・スパートの管理は、有利には、時間スケール修正、すなわち、時間スケール伸張および圧縮の使用によって使用可能にされる。音声パケットの時間スケール伸張は、有利には、パケットに含まれるスピーチのピッチ期間を繰り返すことによって達成されてもよく、時間スケール圧縮は、有利には、パケットに含まれるスピーチのピッチ期間を落とすことによって達成されてもよい。こうした動作は、元のスピーチのピッチを変えることなく、パケットからの復号されたスピーチ・サンプルの長さを修正する。

先に指摘したように、多くの可変レート・ボコーダは、スピーチの有声の／無声の、および、無音の部分について、異なるパケット・タイプを使用する。本発明の説明的な実施形態によれば、トーク・スパートおよび会話ターンを検出する方法は、ほとんどの可変レート・ボコーダが提供する符号化レート情報を使用する。先に指摘したように、たとえば、ＥＶＲＣボコーダは、可変レート、すなわち、アクティブ・スピーチについて、フルレートおよびハーフレートのパケット、および、無音間隔について１／８レート・パケットを使用する。

図４は、本発明の説明的な実施形態による、トーク・スパート検出を実施する方法のフロー図を示す。図に示す方法は、上述したＥＶＲＣボコーダのレート符号化特性を仮定する。

特に、図４に示す本発明の説明的な実施形態によれば、新しいトーク・スパートの開始は、有利には、ｎＴｈｒ１（所定の閾値）以上の無音パケット（たとえば、ＥＶＲＣコーデックの１／８レート・パケット）が存在したかどうかが仮定される。スピーチ・パケット（たとえば、ＥＶＲＣコーデックのフルレートまたはハーフレートのパケット）が受信されると、それは、遅延無しで再生され、仮想ジッタ保護を構築するために伸張される。ｎＴｈｒ０（ｎＴｈｒ０＜ｎＴｈｒ１である、別の所定の閾値）より少ない無音パケットが受信された場合、無音は、有利には、トーク間無音として解釈され、同じ伸張戦略が、有利には、使用される。（説明的に、ｎＴｈｒ０は３に等しくてもよく、ｎＴｈｒ１は１５に等しくてもよい。）これは、無音を語の中央にプッシュすることを回避する。（パケット内の）無音間隔の長さが、２つの閾値ｎＴｈｒ０とｎＴｈｒ１の間にある場合、無音は、有利には、次のスピーチ・パケットが再生される前に、ジッタ保護をその最大に構築するために挿入される。

同様に、図４に示す本発明の説明的な実施形態によれば、トーク・スパートは、有利には、ハーフレートが受信される時に終了すると仮定される。（ＥＶＲＣコーデックにおいて、ハーフレート・フレームは、他の状況でも起こる可能性があるが、トーク・スパートは、必ず、こうしたハーフレート・パケットで終了することに留意されたい。）そのため、ハーフレート・パケットが受信されると、全体の仮想ジッタ・バッファ・コンテンツは、パケットの基準再生時間（たとえば、ＥＶＲＣコーデックについて２０ミリ秒）に圧縮される。現在のトーク・スパートの最後の音声パケットが再生される時までに、仮想ジッタ・バッファ・サイズは、有利には、ゼロ・レーテンシに戻り、このことは、エンコーダとデコーダの間の時間ラグが、現在のトーク・スパートが始まった時に時間ラグがそうであったところに戻ることを意味する。これは、有利には、送信器のトーク・スパート長が、受信器のトーク・スパート長に等しいことを確実にする。

特に、図４のフローチャートは、ボックス４０１にて、カウンタｎＳをゼロに設定し、その後、ボックス４０２にて、次のパケットを取得し、決定ボックス４０３にて、パケットがフルレート・パケットであるかどうかを判断するために調べることによって始まる。フルレート・パケットでない場合、決定ボックス４０４は、パケットが１／８レート・パケットかどうかを判断するために調べる。１／８レート・パケットでない場合、フローは、ボックス４０２に戻り、次のパケットを取得するが、１／８レート・パケットである場合、ボックス４０５は、カウンタｎＳをインクリメントし、その後、決定ボックス４０６は、最後のフレームが１／２レート・パケットであったかどうかを判断するために調べる。最後のフレームが１／２レート・パケットであった場合、ボックス４０７は、トーク・スパートの終了を識別し、いずれの場合も（最後のフレームが、１／２レート・パケットであってもなくても）、フローは、ボックス４０２に戻って、次のパケットを取得する。

決定ボックス４０３が、パケットがフルレート・パケットであると判定する場合、決定ボックス４０８は、最後のフレームが１／８レート・パケットであったかどうかを判断するために調べる。最後のフレームが１／８レート・パケットでなかった場合、決定ボックス４０９は、最後のフレームが１／２レート・パケットであったかどうかを判断するために調べ、１／２レート・パケットであった場合、ボックス４１０は、トーク・スパートが続いていることを識別する。その後、最後のフレームが、１／８レート・パケットであったか否かにかかわらず、フローは、ボックス４０１に戻って、カウンタｎＳをゼロにリセットする。

一方、決定ボックス４０８が、最後のフレームが１／８レート・パケットであったと判定する場合、決定ボックス４１１は、カウンタｎＳの値が、閾値ｎＴｈｒ０とｎＴｈｒ１の間にあるかどうかを判断するために調べる。カウンタｎＳの値が、これらの閾値の間にある場合、ボックス４１２は、新しいトーク・スパートの開始を識別する。一方、カウンタｎＳの値が、これらの閾値の間にない場合、ボックス４１３は、新しい会話ターン内の新しいトーク・スパートの開始または語の間の無音を識別する。いずれの場合も（カウンタｎＳの値がこれらの閾値の間にあってもなくても）、フローは、ブロック４０１に戻って、カウンタｎＳをゼロにリセットする。

図５は、本発明の説明的な実施形態による、仮想ジッタ・バッファおよび時間スケール修正を使用した、ＶｏｉｃｅｏｖｅｒＩＰ通信ネットワークにおいてネットワーク・ジッタを処理する方法のフロー図を示す。具体的に、図５に示す説明的な方法は、有利には、図２に示す、単一トーク・スパートの積極的なトーク・スパートの管理を実施する、時間スケール修正技法を実施する。

図に示すように、説明的な方法は、ネットワークからの、対応する受信された音声パケットから音声データのフレームのシーケンスを、ジッタ／バッファに記憶し（ブロック５０１）、トーク・スパートの最初のいくつかのフレームを含む第１サブシーケンスを識別する（ブロック５０２）。説明的に、このフレーム数は、図２に示すように、４に等しくてもよい。その後、これらのフレームについての、記憶された音声データの時間スケールは、連続して再生出力される（ブロック５０３）前に、所定の量（説明的に、図２示すように５０％）だけ時間伸張される。

トーク・スパートの「中央」部分を含む音声データのフレーム（有利には、大多数のパケットを含む）について、これらのフレームについての、記憶された音声データは、連続して再生出力される（ブロック５０４）。そして、最後に、トーク・スパートの最後のいくつかのフレーム（説明的に、この数は、図２に示すように３に等しくてもよいが、トーク・スパート終了パケットが検出される時に、まだ再生出力されていなかったパケット数に基づく可能性がある）を含む第２サブシーケンスが識別され（ブロック５０５）、これらのフレームについての、記憶された音声データの時間スケールは、連続して再生出力される（ブロック５０６）前に、所定の量（具体的は、図２に示すように、３対１の圧縮率）だけ圧縮される。

［本発明の第２の説明的な実施形態］
本発明の説明的な実施形態によれば、仮想ジッタ・バッファは、有利には、ネットワーク・ジッタが最も問題となる可能性がある、携帯の「ハンドオフ」が起こる時に、ネットワーク・ジッタ保護を提供する。特に、モバイル局が、サービス基地局を、１つの基地局から別の基地局へ切り換える期間は、通常、サービス・ギャップを作成する。本発明のこの説明的な実施形態によれば、このサービス・ギャップは、ハンドオフを予想しての時間伸張およびハンドオフが完了した後の時間圧縮の有利な使用によって埋められる。

より具体的には、本発明のこの説明的な実施形態によれば、第１基地局から第２基地局への携帯ハンドオフが起ころうとしていると、判断されると、モバイル局（たとえば、セルフォン）は、有利には、モバイル局は、その再生出力の前に、第１基地局から受信する全ての音声パケット（すなわち、ハンドオフ前に受信されたパケット）の時間伸張を実施し始める。それによって、これが、仮想ジッタ・バッファのレーテンシを増加させ、特に、ハンドオフが起こっている期間（すなわち、第２基地局を通した新しい伝送経路が構成されている期間）中に、ネットワーク・ジッタ保護を提供する。モバイル基地局が、第２基地局から音声パケットを受信すると、モバイル基地局は、有利には、第２基地局から受信した全ての音声パケットの時間圧縮を実施し始め、ジッタ・バッファ・レーテンシが、その元の量（たとえば、ゼロ）に戻るまで、その音声パケットを再生出力する。

本発明の１つの説明的な実施形態によれば、先に述べた本発明の第１の説明的な実施形態のトーク・スパート管理技法、および、ここで述べる本発明の第２の説明的な実施形態の携帯ハンドオフは、有利には、組み合わされる。特に、先に述べたトーク・スパート管理技法は、トーク・スパート（上述した）内の種々の音声パケットの場所に従ってジッタ・バッファ・レーテンシを付加し、一方、ここで述べる携帯ハンドオフは、有利には、ハンドオフが起ころうとする時に付加的なジッタ・バッファ・レーテンシを増す。そのため、ハンドオフが完了することによって（すなわち、パケットが新しい経路から到着する時）、トーク・スパート管理技法に従って決定された量に戻るまで、時間圧縮が実施される。

たとえば、ＣＤＭＡ２０００ＥＶＤＯ、Ｒｅｖ．Ａ（当業者に熟知されている上述した無線通信規格）において、仮想ジッタ・バッファ内の音声パケットは、有利には、ハンドオフ信号が、ＤＳＣ（デジタル選択呼出システム（ＤｉｇｉｔａｌＳｅｌｅｃｔｉｖｅＣａｌｌｉｎｇ））を介してモバイル局によって送出される時に、ハンドオフにわたって伸張される（所与の時間スケール伸張比だけ時間伸張される）。（携帯ハンドオフを実施するためのＤＳＣチャネルの使用は、当業者に熟知されている。）その後、パケットが、新しい経路から到着すると、パケットは、有利には、再生がエンコーダ・クロックと同期するまで、たとえば、ジッタ・バッファ・レーテンシが、ゼロか、または、トーク・スパート管理技法に従って決定されたレーテンシに戻ってしまうまで圧縮される。これは、（付加的な）ジッタ保護量が、ＤＳＣＬＥＮ（ハンドオフが起こるまでの時間量を指示するＤＳＣ長、すなわち、モバイル局が第１基地局からパケットを受信し続けることになる時間、および、モバイル局が、その後、第２基地局からパケットを受信し始めることが予想される時間）に比例し、さらに、採用される時間スケール伸張比に比例することを可能にする。

図６は、本発明の説明的な実施形態による、仮想ジッタ・バッファの使用によって、携帯ハンドオフ中に、サービス・ギャップを埋める、時間スケール修正技法の動作を示す。図は、基地局Ａから基地局Ｂへと起こる携帯ハンドオフを示し、上部に、個々の音声パケットの受信を、下部に、これらのパケットの結果として得られる再生出力を示す。図に示すように、ＤＳＣＬＥＮは、４パケット長（たとえば、８０ミリ秒）であると仮定され、さらに、時間スケール伸張率は５０％であることが仮定される。こうしたパラメータを用いると、４０ミリ秒までのサービス・ギャップが、いずれのパケット喪失も起こすことなく、すなわち、サービスが全く妨げられずに起こることができることが、図を見てわかる。（図が、基地局Ｂからの最初の３つのパケットのほぼ同時の到着を示すことに留意されたい。通常、サービス・ギャップは、新しいネットワーク通信経路を構成するのにかかる時間によって主に、生じるため、こうした発生は一般的である。この経路が構成されてしまうと、伝送されるパケットのいくつかは、ほぼ同時に到着することになる可能性がある。）

図７は、図６に示す本発明の説明的な実施形態による、仮想ジッタ・バッファおよび時間スケール修正を使用した、ＶｏｉｃｅｏｖｅｒＩＰ通信ネットワークにおいてネットワーク・ジッタを処理する方法のフロー図を示す。ハンドオフが始まると判定されると、モバイル局は、ＤＳＣチャネルを介してハンドオフ信号を送出する（ボックス７０１）。その後、各音声パケットからの音声データが、再生出力される準備ができ、パケットが試験されて（決定ボックス７０２）、パケットが、基地局Ａ（モバイル局にサービス提供してきた元の基地局）から受信されたか、または、基地局Ｂ（モバイル局にサービス提供する時に、基地局Ａの代わりをする新しい基地局）から受信されたかが判定される。さらに、音声パケットが全く受信されなかったということがよくあり、その場合、従来のパケット喪失隠蔽技法が、有利には、抜けているパケットを「置き換える」ために採用されてもよい。

再生出力される音声パケットからの音声データが、基地局Ａから受信されたと、判定される場合（決定ボックス７０２によって）、音声データは、本発明の原理に従って時間伸張され（ボックス７０３）、その後、再生出力される。一方、再生出力される音声パケットからの音声データが、基地局Ｂから受信されたと、判定される場合（決定ボックス７０２によって）、音声データは、本発明の原理に従って時間伸圧縮され（ボックス７０４）、その後、再生出力される。そして、パケットが全く受信されない場合、パケットは、従来のパケット喪失隠蔽技法の使用と置き換えられる（ボックス７０５）。最後に、再生出力が、エンコーダと同期した（たとえば、ジッタ・バッファがゼロ・レーテンシを有するか、または、トーク・スパート管理も使用される場合、ジッタ・バッファ・レーテンシが、管理に従って決定された量に戻った）と、決定ボックス７０６が判定する場合、ハンドオフ・プロセスは完了し、本発明の説明的な方法は終了する。その他の場合、フローは、決定ボックス７０２に戻って、再生出力される次のパケットの音声データの発信源を調査する。

［詳細な説明に対する補遺］
先行する議論の全ては、本発明の一般的な原理を単に説明するのみであることに留意されるべきである。当業者は、本明細書には明示的には述べられないし、示されないが、本発明の原理を具体化し、かつ、本発明の精神および範囲内に含まれる、種々の他の構成を考案することができることが理解されるであろう。たとえば、本発明の上述した説明的な実施形態の全てにおいて、ネットワーク・ジッタ保護の一定の「ベースライン」量が、常に設けられてもよく、その場合、本発明の原理に従って設けられるネットワーク・ジッタ保護が付加されることができる。すなわち、ジッタ・バッファの再生レーテンシは、最初に、ゼロでないサイズに設定することができ、それによって、一定の継続的なネットワーク・ジッタ保護が提供され（一定量の再生レーテンシも提供される）、その後、本発明の技法を使用して、付加的なジッタ・バッファ保護が、有利には、付加的な再生レーテンシを付加することなしで提供される。

さらに、本明細書で引用される全ての例および暫定的な言語は、本発明の原理および当技術分野を推進することに対して本発明者によって与えられる概念を読者が理解するのを助けるための、教育的な目的のためだけにあることが特に意図され、こうした具体的に引用される例および条件に限定されることはないと解釈されるべきである。さらに、本発明の原理、態様、および実施形態、ならびに、本発明の特定の例を引用する本明細書の全ての申し立ては、本発明の、構造的等価物と機能的等価物の両方を包含することが意図される。こうした等価物は、現在知られている等価物ならびに将来開発される等価物、すなわち、構造にかかわらず、同じ機能を実施する、任意の被開発要素の両方を含むことも意図される。

２人のスピーカ間の会話ターン、および、結果として得られるスピーカ間の会話遅延のサンプルタイミング図である。本発明の１つの説明的な実施形態による、仮想ジッタ・バッファの使用によって単一トーク・スパートの積極的なトーク・スパート管理を実施する時間スケール修正技法の動作を示す図である。本発明の１つの説明的な実施形態による、仮想ジッタ・バッファの使用によって会話ターンの積極的なトーク・スパートの管理を実施する時間スケール修正技法の動作を示す図である。本発明の説明的な実施形態による、トーク・スパート検出を実施する方法のフロー図である。図２に示す本発明の説明的な実施形態による、仮想ジッタ・バッファおよび時間スケール修正を使用した、ＶｏｉｃｅｏｖｅｒＩＰ通信ネットワークにおいてネットワーク・ジッタを処理する方法のフロー図である。本発明の説明的な実施形態による、仮想ジッタ・バッファの使用によって、携帯ハンドオフ中に、サービス・ギャップを埋める、時間スケール修正技法の動作を示す図である。図６に示す本発明の説明的な実施形態による、仮想ジッタ・バッファおよび時間スケール修正を使用した、ＶｏｉｃｅｏｖｅｒＩＰ通信ネットワークにおいてネットワーク・ジッタを処理する方法のフロー図である。

Claims

通信ネットワーク内の受信器においてネットワーク・ジッタを処理する方法であって、前記受信器は、前記通信ネットワークを通じて受信した、音声パケットの対応するシーケンス内に含まれる音声データのフレームのシーケンスを記憶するジッタ・バッファを有しており、方法は、
前記対応する音声パケットを受信すると、前記ジッタ・バッファ内に前記音声データのフレームのそれぞれを記憶する工程と、
前記音声データのフレームのシーケンスの第１サブシーケンスを識別する工程と、
前記音声データのフレームの前記第１サブシーケンスにおいて、前記音声データの記憶されたフレームのそれぞれに関して時間伸張を実施し、前記音声データの時間伸張されたフレームのそれぞれを、連続して再生出力する工程と、
前記音声データのフレームのシーケンスの第２サブシーケンスを識別する工程と、
前記音声データのフレームの前記第２サブシーケンスにおいて、前記音声データの記憶されたフレームのそれぞれに関して時間圧縮を実施し、前記音声データの時間圧縮されたフレームのそれぞれを連続して再生出力する工程とを含む方法。
前記音声データのフレームのシーケンスはトーク・スパートを含み、前記音声データのフレームのシーケンスの前記第１サブシーケンスは、前記トーク・スパート内に含まれる音声データの１つまたは複数の初期フレームを含み、前記音声データのフレームのシーケンスの前記第２サブシーケンスは、前記トーク・スパート内に含まれる音声データの１つまたは複数の終了フレームを含む請求項１に記載の方法。
前記音声データのフレームのシーケンス内の前記音声データのフレームの第１サブシーケンスに続いて、かつ、前記音声データのフレームのシーケンス内の前記音声データのフレームの第２サブシーケンスの前に、前記音声データの記憶されたフレームの１つまたは複数を、標準速度で再生出力する工程をさらに含む請求項２に記載の方法。
前記音声データのフレームのシーケンスの前記第１サブシーケンスは、一定の所定数のフレームを含み、前記フレームの前記時間伸張は、一定の時間スケール比によって前記フレームを時間伸張することを含む請求項３に記載の方法。
前記一定の所定数のフレームは４に等しく、前記フレームが時間伸張される前記一定の時間スケール比は５０％に等しい請求項４に記載の方法。
前記トーク・スパート内の前記音声データのフレームのシーケンスの最後のフレームに対応する音声パケットの受信を検出する工程をさらに含み、前記音声データのフレームのシーケンスの前記第２サブシーケンスは、
（ｉ）前記ジッタ・バッファに記憶され、前記トーク・スパート内の前記音声データのフレームのシーケンスの前記最後のフレームに対応する前記音声パケットの前記受信の前記検出時点までで、まだ再生出力されていないフレームと、
（ｉｉ）前記トーク・スパート内の前記音声データのフレームのシーケンスの前記最後のフレームとを含む請求項３に記載の方法。
前記トーク・スパート内の前記音声データのフレームのシーケンスの前記最後のフレームに対応する前記音声パケットの前記受信は、半分のレートのフレームが直後に続く、８分の１レート・フレームを含む前記対応する音声パケットに基づいて検出される請求項６に記載の方法。
８分の１レート・フレームが直後に続く、フル・レート・フレームを含む前記対応する音声パケットに基づいて、前記トーク・スパート内の前記音声データのフレームのシーケンスの最初のフレームに対応する音声パケットの受信を検出する工程をさらに含む請求項３に記載の方法。
前記通信ネットワークは無線通信ネットワークを備え、前記受信器はモバイル局を備える請求項１に記載の方法。
前記音声データのフレームのシーケンスの前記第１サブシーケンスは、第１基地局から前記モバイル局によって受信される音声パケットに対応し、前記音声データのフレームのシーケンスの前記第２サブシーケンスは、第２基地局から前記モバイル局によって受信される音声パケットに対応し、前記モバイル局は、前記第１基地局から前記第２基地局へのハンドオフを受ける請求項９に記載の方法。