JP4955243B2

JP4955243B2 - ＶｏＩＰネットワーク・アプリケーションで遅れて到着するパケットに対応する音声了解度を高める方法および装置

Info

Publication number: JP4955243B2
Application number: JP2005271253A
Authority: JP
Inventors: ジョンジャニスゼウスキトーマス; リーミンキュー; ウィリアムマックゴーワンジェームズ; チャールズレッチオーネマイケル
Original assignee: アルカテル−ルーセントユーエスエーインコーポレーテッド
Priority date: 2004-09-24
Filing date: 2005-09-20
Publication date: 2012-06-20
Anticipated expiration: 2025-09-20
Also published as: JP2006094499A; US20060074681A1; US7783482B2

Description

本発明は、一般にパケット・ベースの通信ネットワークに関し、より詳細には一般のＶｏＩＰ（Voice-Over-Internet-Protocol）や詳細にはワイアレスＶｏＩＰなどの電気通信技術向けの、通常再生するには過度に遅れて到着するパケットが存在する場合に音声了解度を高める方法および装置に関する。

北米およびヨーロッパの電気通信産業は、目下ＣＤＭＡおよびＧＳＭの世界から「３Ｇ」（第３世代）のワイアレス技術を発進させる準備をしている。（ＣＤＭＡおよびＧＳＭは当業者には十分に周知のワイアレス通信標準である。）ＣＤＭＡサイドでは、ＣＤＭＡ１ｘＥｖＤＯ（やはり当業者には周知である）によって、標準モデムの１０倍の速さのワイアレス・データ接続が実現できる。しかし、ＥｖＤＯ（Evolution Data OnlyまたはEvolution Data Optimized）という名前が示唆するように、音声トラフィックは依然として３Ｇ（第３世代）１ｘの回線交換チャネルを介して伝送される。当然ながら、次のステップはＩＰ上の音声トラフィックをワイアレス高速パケット・チャネル上で転送することである。

高品質のＶｏＩＰ（Voice over IP）をワイアレス・パケット・チャネル上で実現するのは前途多難である。通常、ＩＰのオーバーヘッドは、音声ペイロード情報に比べて非常に大きい。典型的な通信ネットワークを通過する典型的なエンド・ツー・エンドの遅延を低減させる必要がある。こうしたエンド・ツー・エンドの遅延を低減させる１つの方式は、復号器におけるジッタ・バッファの再生遅延を最小限に抑えることである。残念ながら、ジッタ・バッファの再生遅延を最小限に抑えることの１つの直接的影響は、パケットが遅れて到着することにより、パケット・ロス率が増加することである。

再生時に１つまたは複数のパケットが受信端に遅れて到着するとき、従来の復号器は、この遅れてきたパケットを単に破棄する。というのも、復号器はパケット・ロス隠蔽（ＰＬＣ）方式による置換データをすでに提供しているからである。（当業者には周知の通り、ＰＬＣ方式は、ほとんどの音声復号器により、喪失したパケットに応答して使用されている。こうした方式では、喪失したパケット中で符号化されている音声信号を欠落させることの有害な影響を最小限に抑えようと試みるための様々な技法を使用するが、もっとも一般的には、前のパケットが、場合によっては修正されて、喪失したパケットの代わりに繰り返される、ある種のパケット繰返し方式を使用する。）

しかし、予測ベースの音声符号器とともに使用されるある従来技法では、復号器を再同期させるために遅れてくるパケットを利用することによって、従来型の復号器に比べて何らかの改善が得られてきた。その結果、遅れてくるパケットに起因するエラー（実際にはＰＬＣ方式による置換パケットに起因するエラー）が伝搬してしまうことがなくなる。こうした手法で、従来方式での音声品質を著しく改善することができる。しかし、この再同期方式を使用しても、遅れてきたパケットは実際には決して再生されず、それは音声の一部分が無くなることがあることを意味する。これは潜在的な了解度問題に通じることがある。たとえば、単語「ｓｐｙ」から音素「ｓ」を運んでいるパケットが喪失する場合、結果として音声は「スパイ（ｓｐｙ）」ではなく「パイ（ｐｉｅ）」のような音になることがある。

ＰＬＣ方式だけでは、遅れてくるパケットを使用する復号器の再同期を用いても、こうした問題を是正できそうもない。

本発明の諸原理によれば、通常再生するには過度に遅れて到着するパケットが存在する場合に、たとえば、ＶｏＩＰ（Voice-Over-Internet-Protocol）などの音声のネットワーク通信での音声了解度を高める方法および装置が提供される。具体的には、本発明の原理によれば、遅れてくる音声パケットが音声復号器によって受信されるとき、そのパケット、および必要ならば１つまたは複数の後続の追加パケットは、復号器が符号器に「追いつく」ことができるように標準所要時間よりも短い時間で再生される。さらに、有利にはこれは潜在的に重要などんな音声セグメントをも失うことなく行われる。すなわち、有利には遅れてくるパケットは、音素セグメントが保存され、それによって高い音声品質が維持されるような方式で扱われる。

具体的には、本発明の例示的な諸実施形態では、音声フレームが通常はいくつかのサブ・フレーム（通常は２つまたは３つ）として復号化されることを利用する。したがって、本発明の例示的な一実施形態によれば、有利には連続フレーム間で位相関係を維持しながら、各フレームからの１つのサブ・フレームはスキップされる。たとえば、１つのフレームが２つのサブ・フレームとして復号化される場合、所与の１フレームのうちの１つのサブ・フレームをスキップすると、実際に元の所要時間の半分（たとえば、２０ミリ秒のパケットに対して１０ミリ秒）に等しい時間で音声が再生される。（これは、パケット全体を２倍の速度で再生して、音声の高さを大幅にひずませることと同じではないことに留意されたい。）一方、１つのフレームが３つのサブ・フレームとして復号化される場合、所与の１フレームのうちの１つのサブ・フレームをスキップすると、実際に所要時間のほんの３分の２の時間で音声が再生される。したがって、１つのフレームが遅れてくる場合、復号器は、有利には多くとも３つのフレーム内で（あるいは、後続の無音セグメントにおいて）符号器と同期する。

図１に、本発明の例示的な一実施形態による、ＶｏＩＰネットワーク・アプリケーションにおいて遅れて到着するパケットが存在する場合に音声了解度を高めるための方法のブロック図が示してある。図１の例示的な実施形態の復号器は、ジッタ・バッファを周期的に、たとえば、１パケットが２０ミリ秒の音声データを含むとすると２０ｍｓｅｃ（ミリ秒）毎に検査する。具体的には、判断ボックス１１で、次のパケットが時間内に利用可能かどうかを判断する。利用可能な場合、判断ボックス１２で、時間遅れがパケットの長さにエンド・ツー・エンドの遅延を加えたものより小さいかどうかを判断する。小さい場合、処理の流れは、ブロック１３に進み、そこでパケットが復号化され、さらにブロック１４に進み、そこで復号化されたデータがＤＡＣ（Ｄ／Ａ変換器）に送られ再生される。したがって、パケットが時間内に到着し続けている場合は、図のブロック１３および１４の処理が繰り返される。符号器のタイム・スタンプと復号器のタイム・スタンプの間の時間遅れは、有利にはパケットの長さ（この例では２０ミリ秒）にエンド・ツー・エンドの遅延を加えたものよりも小さくなるように設定することができる。

次に、パケットｎは、喪失したか遅れたために時間内に再生用として利用できない（たとえば、ジッタ・バッファが空である）、と判断ボックス１１で判断されたと仮定する。この場合、図１の例示的なアルゴリズムでは、利用できない音声を置換音声データで置き換えるために、パケット・ロス隠蔽アルゴリズムを走らせる（ブロック１５）。次いで、次のパケット（すなわちパケットｎ＋１）も再生時間を逃した場合、復号器はパケットが到着するまでパケット・ロス隠蔽アルゴリズム（ブロック１５）を使用し続ける。パケット・ロス隠蔽中は、復号器で再生されている音声データのタイム・スタンプは、有利には符号器のタイム・スタンプに比べて先に進まないことに留意されたい。したがって、パケットが喪失するまたは遅れるときは、符号器と復号器の間で時間遅れが生じる。新しいパケットが到着するたびに、復号器はタイム・スタンプを検査し、次いで本発明の原理に従って、エンド・ツー・エンドの遅延を一定に保つために、パケットの再生時間を短縮することによって有利には符号器との再同期を試みる。具体的には、この時間遅れが所定の閾値（下記参照）よりも小さいかどうかを判断ボックス１６で判断し、小さい場合には、本発明の原理に従って（図のブロック１７に示すように）所要時間の修正を実施する。時間遅れが閾値よりも大きい場合には、このパケットは（図のブロック１８に示すように）完全にスキップされる。

より具体的には、復号器が現サイクルの終わりに検査するときにジッタ・バッファ中に利用可能なパケットがある場合は、有利には復号器は１つのパケットを取り出し、この新しいパケットが、遅れて到着したパケットｎなのか、それともパケットｎをスキップしてパケットｎ＋１なのかを判断する。この新しいパケットが実際にパケットｎ＋１である場合には、パケットｎは恐らく喪失したと仮定することができ、したがって復号器はパケットｎ＋１を復号化する。一方、この新しいパケットが遅れてきたパケットｎである場合には、この遅れてきたパケットｎも復号化され、次のパケットｎ＋１に進む前に再生される。（従来技術のシステムにおけるこのシナリオでは、符号器に遅れずについていくために、遅れてきたパケットｎは破棄され、復号器は次のパケットｎ＋１に進む。すなわち、パケットｎは決して再生されない。このように、復号器と符号器は同期したままであるが、パケットｎ中の音声データは破棄される。）

しかし、復号器を符号器と同期させるために、遅れてきたパケットｎは、本発明の原理に従って、有利には元のパケットの長さよりも短い所要時間で再生される。さらに、追加の未来のフレームも（復号器を同期させるのに必要な場合）実際より短い所要時間で再生することができる。具体的には、時間短縮されるこのようなパケットの数は、選択されている所要時間修正率に依存する。たとえば、フレームｎが遅れて到着し、標準の所要時間の３分の２の時間で再生された場合、パケットｎ＋２が再生された後に符号器と同期するために、フレームｎ＋１およびｎ＋２も、有利にはその標準の所要時間の３分の２の時間で再生される。（本発明の他の例示的な実施形態によれば、遅れてくるパケットが続き、遅延バジェットが許容する場合は、このパケットを通常の時間コースで再生することができ、したがって実際により多くのジッタを受け入れることができるように決定することができる。）

明らかに、復号器は無期限にフレームを待つことはできない。したがって、パケットは遅れているのか、それとも実際には喪失していると見なすべきなのかを判断するために有利には所定の制限時間が設けられる。（前記の判断ボックス１６で使用される時間閾値の説明を参照。）たとえば、有利にはこの所定の制限時間を２つまたは３つのパケットの長さ（通常４０〜６０ミリ秒）に等しくなるように設定することができる。次いで、この閾値（すなわち制限時間）より遅く到着するどんなパケットも、本発明の例示的な一実施形態によれば、復号器の内部状態を更新するために使用することができるが、有利には普通ならこれらのパケットは再生されずに（図のブロック１８に示すように）破棄される。（言い換えれば、これらの「過度に遅れてくる」パケットが復号器の内部状態を更新するために実際に使用される場合は、有利にはそこからのどんな復号器出力も破棄される。）
図２には、音声符号器とある音声復号器の間のタイミング・シーケンスの関係の例を示す１組の図が示してある。図中の矢印はパケットが復号器に到着する時点を示している。また矢印の上の番号はフレーム・シーケンスを表している。ネットワークのジッタが原因で、矢印間の時間間隔は通常は等しくないことに留意されたい。

図２（ａ）には、すべてのパケットが時間内に到着する場合の、符号器および復号器のタイミング・シーケンス図が示してある。具体的には、この図では５つのパケットを示しており、そのすべてが時間内に到着し、ジッタは小さい。すべてのパケットが復号化され、正常に再生される。このタイミング・シーケンス図は、従来技術の復号器および本発明の例示的な一実施形態による復号器の両方に適用される。

図２（ｂ）には、パケットが行方不明になり遅れて受信されない場合の、符号器および復号器のタイミング・シーケンス図が示してある。具体的には、図では、パケットが喪失したとき（パケット２）、パケット・ロス隠蔽アルゴリズムが、その前のパケット（すなわちパケット１）に基づいて置換パケットを生成することによってギャップを埋め（図では１’で表してある）、パケット２をスキップし、次いで（時間内に受信された）パケット３に移る様子を示している。この場合も、このタイミング・シーケンス図は、従来技術の復号器および本発明の例示的な一実施形態による復号器の両方に適用される。
図２（ｃ）には、パケットが遅れて受信される場合の、符号器および従来技術の復号器のタイミング・シーケンス図が示してある。具体的には、従来技術の復号器では、（図中のパケット２の場合のように）パケットが過大なジッタを経験し、その同期を喪失するとき、パケット・ロス隠蔽アルゴリズムは、（図２（ｂ）と同様に）この場合もギャップを埋める。しかし、遅れてきたパケット２は完全に脱落し、あるいは復号器の内部状態を更新するためだけに使用される。次いで、従来技術の復号器は（時間内に受信された）パケット３に移る。しかし、いずれの場合でも、パケット２は決して再生されない。

図２（ｄ）には、パケットが遅れて受信される場合の、符号器および本発明の例示的な一実施形態による例示的な復号器のタイミング・シーケンス図が示してある。すなわち、本発明の例示的な復号器によれば、音声の了解度にとって重要になることがあるどんな音も失わずに（この場合ではパケット４において）復号器が符号器と同期するために、有利には遅れてきたパケット２および（間に合って到着した）パケット３は再生されるが、所要時間は標準よりも短くなる。具体的には、図２（ｄ）において、所要時間が修正されたパケット（すなわちパケット２および３）は例示的に半分の所要時間で再生され、その結果パケット４で同期が達成される。

図２（ｅ）には、いくつかの連続するパケットが遅れて受信され、その遅れてきたパケットのすべてではないがいくつかが再生される場合の、符号器および本発明の例示的な一実施形態による例示的な復号器のタイミング・シーケンス図が示してある。前述の通り、復号器が遅れてくるパケットを無期限に待たないように、有利には最大タイムアウトの閾値が設定される。図２（ｅ）には、この閾値が３つのパケットの長さに等しい時間に設定されている例が示してある。図では、遅れてきたパケット２が、時刻の閾値を過ぎてしまうまで到着しなかったために、最終的には到着したのにスキップされることに留意されたい。さらに、復号器が使用すべきパケットを受信する前に、３つの連続する置換パケット（パケット１’、１’’、および１’’’）が生成されることに留意されたい。具体的には、図にはパケット３、４、５、および６が示してあり、各々の所要時間は、この場合も例示的にその標準所要時間の半分に修正される。

最後に、図２（ｆ）には、２つの連続するパケットが遅れてきて、その次のパケットが行方不明になる場合の、符号器および本発明の例示的な一実施形態による例示的な復号器のタイミング・シーケンス図が示してある。（具体的には、パケット２および３が遅れ、パケット４が行方不明になる。）パケット４が喪失しても、遅れてきたパケットによって、復号器はパケット５においてすでに符号器と同期していることに留意されたい。したがって、パケット４にはパケット・ロス隠蔽の必要はなく、有利には本発明の例示的な復号器はパケット５の再生を続ける。

音声信号の所要時間を修正する方法はいくつかあり、本発明の様々な例示的な実施形態に従って使用することができる。本発明の例示的な一実施形態によれば、周知のピッチ同期波形重畳合成（ＰＳＯＬＡ）法を使用することができる。この方法によって、高い音声品質をもたらす技法が得られ、この方法は、所要時間の修正を利用するテキスト音声合成の用途で使用される、もっとも普及している信号処理方法である。

本発明の他の例示的な実施形態によれば、（ＰＳＯＬＡ法の使用と比較して）より簡単な代替方法は、復号器で復号され再生されるサブ・フレームの数を単に制御することである。典型的な音声コーデック（符号器／復号器システム）では、音声フレームは復号化されて、（たとえば、周知のＧ．７２９音声符号化規格では）２つのサブ・フレームか、または（たとえば、周知のＥＶＲＣ符号化規格では）３つのサブ・フレームになる。フレームが復号化されて２つのサブ・フレームになる場合、１つのサブ・フレームをスキップすることは、実際には半分の時間間隔で音声を再生することと同じである。この場合、単一のフレームが遅れてくるときは、復号器は、最後のフレームを含む２つのフレームを復号化した後に符号器と同期する。一方、１つのフレームが復号化されて３つのサブ・フレームになる場合、（３つのサブ・フレームから）１つのサブ・フレームをスキップすることは、標準所要時間の３分の２でフレームを再生することと同等である。この場合、単一フレームが遅れてくるときは、復号器は、最後のフレームを含む３つのフレームを復号化した後に符号器と同期する。

前述の説明はすべて、本発明の一般的な原理を単に例示したものに過ぎないことに留意されたい。当業者なら、本明細書ではっきりと説明または図示しなくても、本発明の趣旨および範囲内に含まれ、本発明の原理を実施した他の様々な構成を考案できることが理解されよう。さらに、本明細書で説明したすべての例および条件付きの表現は、主として、本発明の原理および当技術を前進させるために発明者が与えたコンセプトを理解する際に読者の助けとなるような、教育目的のためだけのものであることは明らかであり、具体的に説明されたこうした例および条件への限定がないと解釈すべきである。さらに、本発明の原理、態様、および実施形態、ならびに本発明の具体的な例を説明する本明細書でのすべての記述は、本発明の構造的および機能的な均等物を包含するものである。また、こうした均等物は、現在知られている均等物ならびに将来開発される均等物、すなわち、構造に関係なく同じ機能を実施するどんな開発要素をも含むものである。

したがって、たとえば、どんな流れ図（フロー・チャート、フロー・ダイアグラム）、状態遷移図、擬似コードなども、コンピュータで読取り可能な媒体において実質上表される様々なプロセスであって、コンピュータまたはプロセッサが明示されていてもいなくても、そうしたコンピュータまたはプロセッサによって実行することができる様々なプロセスを表すことが、当業者には理解されよう。したがって、たとえばこうした流れ図で示される各ブロックは、たとえば流れ図のブロックで説明されているような具体的な機能を指定するための手段として特許請求の範囲で明示されることもある物理的な要素を潜在的に表していると理解することができる。さらに、こうした流れ図のブロックは、たとえば、ディスクや半導体記憶装置など前記のコンピュータで読取り可能な媒体中に含まれることがある物理的信号または記憶された物理的データを表していると理解することもできる。

本発明の例示的な一実施形態による、ＶｏＩＰネットワーク・アプリケーションにおいて遅れて到着するパケットが存在する場合に音声了解度を高めるための方法のブロック図である。音声符号器とある音声復号器の間のタイミング・シーケンスの関係の例を示す１組の図である。図２（ａ）は、すべてのパケットが時間内に到着する場合の符号器と復号器のタイミング・シーケンス図である。図２（ｂ）は、１つのパケットが行方不明で、遅れて受信されない場合の符号器と復号器のタイミング・シーケンス図である。図２（ｃ）は、１つのパケットが遅れて受信される場合の符号器と従来技術の復号器のタイミング・シーケンス図である。図２（ｄ）は、１つのパケットが遅れて受信される場合の、符号器と本発明の例示的な一実施形態による例示的な復号器のタイミング・シーケンス図である。図２（ｅ）は、いくつかの連続するパケットが遅れて受信され、この遅れてきたパケットのすべてではないがそのいくつかが再生される場合の、符号器と本発明の例示的な一実施形態による例示的な復号器のタイミング・シーケンス図である。図２（ｆ）は、２つの連続するパケットが遅れ、その次のパケットが行方不明になる場合の、符号器と本発明の例示的な一実施形態による例示的な復号器のタイミング・シーケンス図である。

Claims

パケット・ベースの通信ネットワークを介して、一連の符号化された音声パケットとして受信される音声を再生する方法であって、
所与の音声パケットが再生のために復号化されなければならない時点より前に、該所与の音声パケットが受信されていないと判断するステップと、
パケット・ロス隠蔽技法を使用して、該所与の音声パケットを置換音声データで置き換えるステップと、
該所与の音声パケットの代わりに該置換音声データを再生するステップと、
該置換音声データの該再生後の時点で、該所与の音声パケットを受信するステップと、
所要時間修正バージョンを生成するために受信されて置き換えられた該所与の音声パケットを修正するステップであって、該所与の音声パケットの該所要時間修正バージョンが該所与の音声パケットに比べて時間の長さが短縮された音声を含むステップと、
該所与の音声パケットを置き換えた該置換音声データが再生された後に、該所与の音声パケットの該所要時間修正バージョンを再生するステップとを含む方法。
請求項１に記載の方法において、
該所与の音声パケットが再生のために復号化されなければならない時点より前に、該所与の音声パケットが受信されていないと判断する該ステップが、該所与の音声パケットが再生のために復号化されなければならない該時点にジッタ・バッファが空であると判断するステップを含む方法。
請求項１に記載の方法において、
該置換音声データが、該一連の符号化された音声パケット中の前の音声パケットに基づいて生成される方法。
請求項１に記載の方法において、
該所与の音声パケットの該所要時間修正バージョンが、ピッチ同期波形重畳合成（ＰＳＯＬＡ）技法を使用して該所与の音声パケットから生成される方法。
請求項１に記載の方法において、
該所与の音声パケットが、複数のサブ・フレームからなる音声フレームを含み、該所与の音声パケットの該所要時間修正バージョンが、該複数のサブ・フレームから、そのうちの１つ又は複数のサブ・フレームを除去することによって、該所与の音声パケットから生成される方法。
請求項１に記載の方法において、
該置換音声データの該再生後の時点で受信されている該所与の音声パケットも、該所与の音声パケットが再生のために復号化されなければならない該時点の後、所定の制限時間より前の時点で受信されている、と判断するステップをさらに含む方法。
請求項１に記載の方法において、
該一連の音声パケット中の該所与の音声パケットに続く１つ又は複数の音声パケットを受信するステップと、
対応する所要時間修正バージョンを生成するためにある数の該後続音声パケットを修正するステップであって、該ある数の後続音声パケットの各々の該所要時間修正バージョンが、該対応する後続音声パケットに比べて時間の長さが短縮された音声を含むステップと、
該所与の音声パケットの該所要時間修正バージョンが再生された後に、該後続音声パケットの該ある数の該所要時間修正バージョンの各々を再生するステップとをさらに含む、請求項１に記載の方法。
請求項１に記載の方法において、
パケット・ベースの通信ネットワークを介して、一連の符号化された音声パケットとして受信される音声がＶｏＩＰを含む方法。
パケット・ベースの通信ネットワークを介して、一連の符号化された音声パケットとして受信される音声を再生する装置であって、
所与の音声パケットが再生のために復号化されなければならない時点より前に、該所与の音声パケットが受信されていない、と判断する処理と、
パケット・ロス隠蔽技法を使用して、該所与の音声パケットを置換音声データで置換する処理と、
該所与の音声パケットの代わりに該置換音声データを再生する処理と、
該置換音声データの該再生後の時点で、該所与の音声パケットを受信する処理と、
該所与の音声パケットの所要時間修正バージョンが該所与の音声パケットに比べて時間の長さが短縮された音声を含む該所要時間修正バージョンが生成されるように、受信され置き換えられた該所与の音声パケットを修正する処理と、
該所与の音声パケットを置換した該置換音声データが再生された後に、該所与の音声パケットの該所要時間修正バージョンを再生する処理とを実行するように適合されたプロセッサを含む装置。
請求項９に記載の装置において、
該所与の音声パケットが再生のために復号化されなければならない時点より前に、該所与の音声パケットが受信されていない、と判断する処理が、該所与の音声パケットが再生のために復号化されなければならない該時点にジッタ・バッファが空であると判断する処理を含む装置。