JP4071631B2

JP4071631B2 - 音声の非活動中に音声伝送システム間の相互運用性のための方法および装置

Info

Publication number: JP4071631B2
Application number: JP2002565303A
Authority: JP
Inventors: エル−マレー、カレッド・エイチ; アナンサパドマナバン、アラサニパライ・ケー; デジャコ、アンドリュー・ピー
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2001-01-31
Filing date: 2002-01-30
Publication date: 2008-04-02
Anticipated expiration: 2022-01-30
Also published as: US20040133419A1; EP1356459B1; ES2322129T3; KR100923891B1; ATE428166T1; US7061934B2; WO2002065458A3; DE60231859D1; EP1895513A1; TW580691B; CN1239894C; WO2002065458A2; CN1514998A; US20020101844A1; KR20030076646A; BRPI0206835B1; BR0206835A; HK1064492A1; US6631139B2; EP1356459A2

Description

開示されている実施形態は、無線通信に関する。とくに、開示されている実施形態は、音声の非活動中の、異なる音声伝送システム間の相互運用性のための新規で向上した方法および装置に関する。

ディジタル技術による音声の伝送は、とくに長距離のディジタル無線電話の応用において普及してきた。ディジタル技術による音声の伝送の次の目的は、再構成された音声の知覚品質を維持する一方で、チャンネル上で送ることができる最少情報量を判断することであった。音声を、単に標本化してディジタル化することによって伝送するとき、従来のアナログ電話の音声品質を実現するには、毎秒６４キロビット秒（kilobits per second, kbps）のオーダのデータレートが必要である。しかしながら、音声解析を使用し、次に、受信機において適切な符号化、伝送、および再合成をすることによって、データレートを相当に低減することができる。異なる伝送システム間の通信には、種々のタイプの音声に対するこのような符号化方式の相互運用性が必要である。生成される信号の基本的なタイプには、活動音声（active speech）と非活動音声(inactive speech)とがある。活動音声は、有声音（vocalization）を表わし、一方で音声の非活動状態、すなわち非活動音声(non-active speech)には、一般に無音(silence)と背景雑音(background noise)とが含まれる。

人間の音声発声モデルに関係するパラメータを抽出することによって音声を圧縮する技術を用いる装置は、音声符号化器と呼ばれる。音声符号化器は、到来音声信号を、時間ブロック、すなわち解析フレームへ分割する。以下、“フレーム”と“パケット”という用語は、同義である。音声符号化器には、一般に、符号化器と復号化器、すなわちコーデックが構成されている。符号化器は、到来音声フレームを解析して、一定の関連する利得およびスペクトルのパラメータを抽出して、次に、パラメータを二値表示、すなわち１組のビットまたは二値データパケットへ量子化する。データパケットは、通信チャンネル上を受信機および復号化器へ送られる。復号化器は、データパケットを処理し、それらを逆量子化して、パラメータを生成し、次に逆量子化されたパラメータを使用して、フレームを再合成する。

音声符号化器は、音声に固有の自然冗長の全てを取り除くことによって、ディジタル形式の音声信号を低ビットレートの信号へ圧縮する機能を有する。ディジタル圧縮は、入力音声フレームを１組のパラメータで表示し、量子化を用いて、パラメータを１組のビットで表現することによって達成される。入力音声フレームに、多数のビットＮ_ｉが構成されていて、音声符号化器によって生成されたデータパケットに、多数のビットＮ_oが構成されているとき、音声符号化器によって実現される圧縮係数は、Ｃ_ｒ＝Ｎ_ｉ／Ｎ_oである。課題は、目標の圧縮係数を達成する一方で、復号化された音声の高音声品質を維持することである。音声符号化器の性能は、（１）音声モデル、すなわち上述の解析および合成プロセスの組合せが、どのくらい適切に実行されるか、または（２）パラメータ量子化プロセスが、１フレーム当りＮ_oビットの目標ビットレートでどのくらい適切に実行されるかに依存する。したがって、音声モデルは、各フレームごとに、小さい組のパラメータで、音声信号の本質、すなわち目標の音声品質の本質を捕らえることを目的とする。

音声符号化器は、時間領域の符号化器として構成され、これは、高時間解像度の処理を用いて、小さい音声セグメント（通常は、５ミリ秒のサブフレーム）を一度に符号化することによって、時間領域の音声波形を捕捉することを試みる。この技術において知られている種々のサーチアルゴリズムによって、各サブフレームごとに、コードブック空間からの高精度の表示が求められる。その代りに、音声符号化器は、周波数領域符号化器として構成されてもよく、これは、入力音声フレームの短期間の音声スペクトルを１組のパラメータで捕捉し（解析）、対応する合成処理を用いて、スペクトルパラメータから音声波形を再生成することを試みる。パラメータ量子化器は、文献（A. Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992)）に記載されている既知の量子化技術にしたがって、符号ベクトルの記憶表示を使用して、それらを表現することによって、パラメータを保全する。所与の伝送システム内の異なるタイプの音声は、異なる構成の音声符号化器を使用して、符号化され、異なる伝送システムは、所与の音声タイプの符号化をそれぞれ実行する。

より低いビットレートで符号化するために、音声をスペクトル、すなわち周波数領域で符号化する種々の方法が展開され、ここでは音声信号は、時間にしたがって変化するスペクトルとして解析される。例えば、文献（R.J. McAulay & T.F. Quatieri, Sinusoidal Coding, in Speech Coding and Synthesis ch.4 (W.B. Kleijin & K.K. Paliwal eds., 1995)）を参照すべきである。スペクトル符号化器は、時間にしたがって変化する音声波形を精密に模倣するのではなく、各入力音声フレームの短期間の音声スペクトルを、１組のスペクトルパラメータでモデル化、すなわち予測することを目的とする。次に、スペクトルパラメータをコード化して、復号化されたパラメータを使用して、出力音声フレームを生成する。生成された合成音声は、元の入力音声波形と整合していないが、ほぼ同等の知覚品質を示す。この技術においてよく知られている周波数領域符号化器の例には、マルチバンド励起符号化器（multiband excitation coder, MBE）、シヌソイド変形符号化器（sinusoidal transform coder, STC）、および高調波符号化器（harmonic coder, HC）が含まれる。このような周波数領域符号化器は、小さい組のパラメータを有する高品質のパラメータモデルを与える。小さい組のパラメータは、低ビットレートで使用可能な少数のビットで正確に量子化することができる。

無線音声通信システムでは、より低いビットレートが望ましいときは、一般に、伝送電力レベルを低減し、したがって共通チャンネルの干渉を低減して、可搬形ユニットのバッテリ寿命を延ばすことも望ましい。全体的な伝送データレートの低減は、伝送データの電力レベルを低減するのにも役立つ。通常の電話による会話では、約４０パーセントの音声バーストと、６０パーセントの無音および背景音響雑音とが構成されている。知覚情報は、背景雑音よりも音声に、より多く含まれる。無音および背景雑音を最低可能ビットレートで伝送することが望ましいので、音声の非活動期間中に、活動音声の符号化レートを使用するのは、非効率である。

会話の音声における低音声活動を利用する一般的なやり方では、音声活動検出器（Voice Activity Detector, VAD）ユニットを使用し、ＶＡＤユニットは、音声信号と非音声信号とを区別して、データレートを下げて、無音または背景雑音を伝送する。しかしながら、無音または背景雑音の伝送中は、種々のタイプの伝送システム、例えば連続伝送（Continuous Transmission, CTX）システムおよび非連続伝送（Discontinuous Transmission, DTX）システムによって使用される符号化方式は互換性がない。ＣＴＸシステムでは、音声が非活動の期間中でも、データフレームが連続的に伝送される。ＤＴＸシステムでは、音声が存在しないときは、伝送を中断して、全体的な伝送電力を低減する。ＧＳＭ（Global System for Mobile Communications）システムの非連続伝送は、国際電気通信連合（International Telecommunications Union, ITU）への欧州電気通信標準化協会（European Telecommunications Standard Institute）の提案（“Digital Cellular Telecommunication System (Phase 2+); Discontinuous Transmission (DTX) for Enhanced Full Rate (EFR) Speech Traffic Channels”、および“Digital Cellular Telecommunication System (Phase 2+); Discontinuous Transmission (DTX) for Adaptive Multi-Rate (AMR) Speech Traffic Channels”）において標準化されている。

ＣＴＸシステムには、システムを同期化して、チャンネル品質を監視するための連続伝送モードが必要である。したがって、音声が存在しないときは、より低いレートのコード化モードを使用して、背景ノイズを連続的に符号化する。符号分割多重アクセス（Code Division Multiple Access, CDMA）応用システムでは、このアプローチを使用して、音声呼の可変レートで伝送する。ＣＤＭＡシステムでは、非活動期間中に、８分の１レートのフレームを伝送する。８００ビット／秒（bit per second, bps）、すなわち２０ミリ秒（millisecond, ms）のフレーム時間ごとに１６ビットを使用して、非活動音声を伝送する。ＣＤＭＡのような、ＣＴＸシステムでは、聞き手を聞き易くするための音声非活動中の雑音情報と、同期化およびチャンネル品質測定値を伝送する。ＣＴＸ通信システムの受信機側では、音声の非活動期間中に、周囲の背景雑音が常に存在する。

ＤＴＸシステムでは、非活動中に、２０ミリ秒のフレームごとにビットを伝送する必要はない。ＧＳＭ、広帯域ＣＤＭＡ、ボイスオーバーＩＰシステム（Voice Over IP system）、およびある特定の衛星システムは、ＤＴＸシステムである。このようなＤＴＸシステムでは、送信機は、音声の非活動期間中は、オフに切換えられる。しかしながら、ＤＴＸシステムの受信機側では、音声の非活動期間中は、連続信号は受信されず、したがって背景雑音は、活動音声の期間中は存在するが、無音期間中は存在しない。背景雑音が、交互に、存在したり、存在しなくなったりすると、聞き手にはうるさくて、不快であると感じられる。音声バースト間のギャップを埋めるために、伝送された雑音情報を使用して、受信機側において、“快適雑音”として知られている合成雑音を生成する。雑音統計の周期的な更新は、無音挿入記述子（Silence Insertion Descriptor, SID）フレームとして知られているものを使用して送られる。ＧＳＭシステムの快適雑音は、国際電気通信連合（International Telecommunications Union, ITU）への欧州電気通信標準化協会（European Telecommunications Standard Institute）の提案（“Digital Cellular Telecommunication System (Phase 2+); Comfort Noise Aspects for Enhanced Full Rate (EFR) Speech Traffic Channels”、および“Digital Cellular Telecommunication System (Phase 2+); Comfort Noise Aspects for Adaptive Multi-Rate (AMR) Speech Traffic Channels”において標準化されている。送信機が、雑音を含む環境、例えば街路、ショッピングモール、または車両、などの中に位置するときは、快適雑音により、とくに、受信機における聞き取り品質が向上する。

ＤＴＸシステムは、非活動音声の期間中に、受信機において、雑音合成モデルを使用して、合成快適雑音を生成することによって、連続的に送られた雑音が存在しないことを補償する。ＤＴＸシステムにおいて合成快適雑音を生成するために、雑音情報を保持している１つのＳＩＤフレームを周期的に送る。ＶＡＤが無音を示すとき、雑音フレーム、すなわちＳＩＤフレームを表わす周期性のＤＴＸは、一般に、２０フレーム期間に１回伝送される。

復号化器において快適雑音を生成するためのＣＴＸおよびＤＴＸのシステムの両者に共通のモデルは、スペクトル成形フィルタを使用する。ランダム（ホワイト）励起を利得によって多重化し、受信した利得およびスペクトルのパラメータを使用して、スペクトル成形フィルタによって成形して、合成快適雑音を生成する。励起利得、およびスペクトル成形を表わすスペクトル情報は、伝送パラメータである。ＣＴＸシステムでは、利得およびスペクトルパラメータは、８分の１レートで符号化され、フレームごとに伝送される。ＤＴＸシステムでは、各期間において、平均／量子化利得を含んでいるＳＩＤフレームを伝送する。快適雑音の符号化および伝送方式におけるこれらの相違のために、非活動音声の期間中に、ＣＴＸおよびＤＴＸの伝送システム間に互換性がなくなる。したがって、非音声の情報を送るＣＴＸおよびＤＴＸの音声通信システム間に、相互運用性が必要となる。

本明細書に開示されている実施形態は、ＣＴＸとＤＴＸの通信システム間で非音声の情報を伝送する音声通信システム間の相互運用性を促進することによって、上述の必要に対処している。したがって、本発明の１つの態様では、非活動音声の伝送中に、連続伝送通信システムと非連続伝送通信システムとの間に相互運用性を与える方法には、連続伝送システムによって生成された連続非活動音声フレームを、非連続伝送システムによって復号化できる周期性の無音挿入記述子フレームへ変換することと、非連続伝送システムによて生成された周期性の無音挿入記述子フレームを、連続伝送システムによって復号化できる連続非活動音声フレームへ変換することとが含まれる。別の態様では、非活動音声の伝送中に、連続伝送通信システムと非連続伝送通信システムとの間に相互運用性を与えるための連続から非連続へのインターフェイス装置には、連続伝送システムによって生成された連続非活動音声フレームを、非連続伝送システムによって復号化できる周期性の無音挿入記述子フレームへ変換するための連続から非連続への変換ユニットと、非連続伝送システムによって生成された周期性の無音挿入記述子フレームを、連続伝送システムによって復号化できる連続非活動音声フレームへ変換するための非連続から連続への変換ユニットとが構成されている。

開示されている実施形態は、無音または背景雑音の伝送中の、ＣＴＸとＤＴＸの通信システム間の相互運用性のための方法および装置を与える。連続の８分の１レートで符号化される雑音フレームは、非連続のＳＩＤフレームへ変換され、ＤＴＸシステムへ伝送される。非連続のＳＩＤフレームは、連続の８分の１レートで符号化される雑音フレームへ変換され、ＣＴＸシステムがそれを復号化する。ＣＴＸからＤＴＸへ相互運用性の適用には、ＣＤＭＡとＧＳＭの相互運用性（狭帯域幅の音声伝送システム）；ＣＤＭＡ次世代ボコーダ（選択可能モードボコーダ）と、ボイスオーバーＩＰアプリケーションにおいてＤＴＸモードで動作する新しいＩＴＵ−Ｔの４キロビット秒のボコーダとの相互運用性；共通の音声符号化器／復号化器を有するが、非活動音声中に異なるＣＴＸまたはＤＴＸモードで動作する将来の音声伝送システム；およびＣＤＭＡの広帯域音声伝送システムと、共通の広帯域ボコーダを有するが、音声の非活動中に異なる動作モード（ＤＴＸまたはＣＴＸ）で動作する他の広帯域音声伝送システムとの相互運用性が含まれる。

したがって、開示されている実施形態では、連続の音声伝送システムのボコーダと、非連続の音声伝送システムのボコーダとの間のインターフェイスの方法および装置を与えている。ＣＴＸシステムの情報ビット流は、ＤＴＸビット流へマップされ、ＤＴＸビット流は、ＤＴＸチャンネルにおいて移送され、ＤＴＸシステムの受信端において復号化器によって復号化される。同様に、インターフェイスは、ビット流をＤＴＸチャンネルからＣＴＸチャンネルへ変換する。

図１において、第１の符号化器10は、ディジタル化された音声サンプルｓ（ｎ）を受信し、サンプルｓ（ｎ）を符号化し、伝送媒体12または通信チャンネル12上で第１の復号化器14へ伝送する。復号化器14は、符号化された音声サンプルを復号化し、出力音声信号Ｓ_{ＳＹＮＴＨ}（ｎ）を合成する。反対方向へ伝送するときは、第２の符号化器16をディジタル化された音声サンプルｓ（ｎ）へ符号化し、これを通信チャンネル18上で伝送する。第２の復号化器20は、符号化された音声サンプルを受信して復号化し、合成出力音声信号Ｓ_{ＳＹＮＴＨ}（ｎ）を生成する。

音声サンプルｓ（ｎ）は、この技術において知られている種々の方法（例えば、パルス符号変調（pulse code modulation, PCM）、コンパンデッドμ法、またはＡ法）にしたがって、ディジタル化され、量子化される音声信号を表わす。この技術において知られているように、音声サンプルｓ（ｎ）は入力データフレームへ構成され、各フレームには、所定数のディジタル化された音声サンプルｓ（ｎ）が構成されている。例示的な実施形態では、各２０ミリ秒のフレームに１６０サンプルが構成された、８キロヘルツのサンプリングレートが用いられる。別途記載する実施形態では、データ伝送レートは、フレームごとに、フルレートから２分の１レート、４分の１レート、ないし８分の１レートへ変化する。その代りに、他のデータレートを使用してもよい。本明細書で使用されているように、“フルレート”または“ハイレート”という用語は、一般に、８キロビット秒以上のデータレートを指し、“ハーフレート”または“低レート”という用語は、４キロビット秒以下のデータレートを指す。比較的に少ない音声情報を収めているフレームに対しては、より低いビットレートが選択的に用いられるので、データ伝送レートを変更することは有益である。当業者には分かるように、他のサンプリングレート、フレームサイズ、およびデータ伝送レートを使用してもよい。

第１の符号化器10と第２の復号化器20には共に、第１の音声符号化器、すなわち音声コーデックが構成されている。同様に、第２の符号化器16および第１の復号化器14には共に、第２の音声符号化器が構成されている。当業者には、音声符号化器が、ディジタル信号プロセッサ（digital signal processor, DSP）、特定用途向け集積回路（application-specific integrated circuit, ASIC）、ディスクリートなゲート論理、ファームウエア、または従来のプログラマブルソフトウエアモジュール、およびマイクロプロセッサで構成されることが分かるであろう。ソフトウエアモジュールは、ＲＡＭメモリ、フラッシュメモリ、レジスタ、またはこの技術において知られている他の形式の書込み可能な記憶媒体の中にあってもよい。その代りに、従来のプロセッサ、制御装置、または状態機械は、マイクロプロセッサに置換してもよい。音声の符号化用にとくに設計されたＡＳＩＣの例は、米国特許第5,926,786号（APPLICATION SPECIFIC INTEGRATED CIRCUIT (ASIC) FOR PERFORMING RAPID SPEECH COMPRESSION IN A MOBILE TELEPHONE SYSTEM）および米国特許第5,784,532号（APPLICATION SPECIFIC INTEGRATED CIRCUIT (ASIC) FOR PERFORMING RAPID SPEECH COMPRESSION IN A MOBILE TELEPHONE SYSTEM）に記載されており、これらの両文献は、ここで開示されている実施形態の譲受人に譲渡され、本明細書において参考文献として全体的に取入れられる。

図２は、無線ＣＴＸ音声伝送システム200についての例示的な実施形態を示しており、無線ＣＴＸ音声伝送システム200には、加入者ユニット202、基地局208、および移動交換局（Mobile Switching Center, MSC）214が構成されていて、ＭＳＣ214は、無音または背景雑音の伝送中にＤＴＸシステムへのインターフェイスになることができる。加入者ユニット202は、移動加入者のためのセルラ電話、コードレス電話、ページング装置、無線ローカルループ装置、パーソナルディジタルアシスタント（personal digital assistant, PDA）、インターネット電話装置、衛星通信システムの構成要素、または通信システムの他のユーザ端末装置が構成されている。図２の例示的な実施形態では、連続音声伝送システム200のボコーダ218と非連続音声伝送システムのボコーダ（図示されていない）との間のＣＴＸからＤＴＸへのインターフェイス216が示されている。両システムのボコーダには、図１に示されている符号化器10と復号化器20とが構成されている。図２には、無線音声伝送システム200の基地局208内に構成されているＣＴＸ−ＤＴＸのインターフェイスの例示的な実施形態が示されている。代わりの実施形態では、ＣＴＸ−ＤＴＸのインターフェイス216は、ＤＴＸモードで動作している他の音声伝送システムへのゲートウエイユニット（図示されていない）内に配置することができる。しかしながら、ＣＴＸ−ＤＴＸのインターフェイス構成要素、またはその機能は、開示されている実施形態の技術的範囲から逸脱することなく、システム全体に物理的に交互に配置してもよいことが分かるであろう。例示的なＣＴＸからＤＴＸへのインターフェイス216には、加入者ユニット202の符号化器10から出力された８分の１レートのパケットを、ＤＴＸの互換性のあるＳＩＤパケットへ変換するためのＣＴＸからＤＴＸへの変換ユニット210と、ＤＴＸシステムから受信したＳＩＤパケットを、加入者ユニット202の復号化器20によって復号化できる８分の１レートのパケットへ変換するためのＤＴＸからＣＴＸへの変換ユニット212とが構成されている。例示的な変換ユニット210、212には、インターフェイシング音声システムの符号化器／復号化器ユニットが装備されている。ＣＴＸからＤＴＸへの変換ユニットは、図４に詳しく記述式に示されている。ＤＴＸからＣＴＸへの変換ユニットは、図６に詳しく記述的に示されている。例示的な加入者ユニット202の復号化器20は、ＤＴＸからＣＴＸへの変換ユニット212によって出力される８分の1レートのパケットから快適雑音を生成するための合成雑音生成器（図示されていない）を装備している。合成雑音生成器は、図３に詳しく記述的に示されている。

図３は、伝送された雑音情報を使用して、受信機において快適雑音を生成するための、図１および２に示されている復号化器10、20によって使用される合成雑音生成器についての例示的な実施形態を示している。ＣＴＸおよびＤＴＸの音声システムの両者において背景雑音を生成するための共通方式では、簡単なフィルタ−励起合成モデルを使用する。各フレームごとに使用可能な制限された低ビットレートを割り当てて、背景雑音を特徴付けるスペクトルパラメータおよびエネルギー利得値を伝送する。ＤＴＸシステムでは、伝送された雑音パラメータの補間を使用して、快適雑音を生成する。

ランダム励起信号306は、乗算器302において受信利得によって乗算され、中間信号ｘ（ｎ）、すなわち基準化されたランダム励起が生成される。基準化されたランダム励起ｘ（ｎ）は、受信したスペクトルパラメータを使用して、スペクトル整形フィルタ304によって整形され、合成された背景雑音信号308、ｙ（ｎ）が生成される。スペクトル整形フィルタ304の構成は、当業者には容易に分かるであろう。

図４は、図２に示されているＣＴＸからＤＴＸへのインターフェイス216のＣＴＸからＤＴＸへの変換ユニット210についての例示的な実施形態を示している。背景雑音は、伝送システムのＶＡＤが０を出力するとき、すなわち音声が非活動であるときに伝送される。背景雑音が、２つのＣＴＸのシステム間で伝送されるとき、可変レートの符号化器は、利得およびスペクトル情報が構成されている連続の８分の１レートのデータパケットを生成し、同じシステムのＣＴＸの復号化器は、８分の１レートのパケットを受信し、それらを復号化して、快適雑音を生成する。無音または背景雑音が、ＣＴＸシステムからＤＴＸシステムへ伝送されるとき、ＣＴＸシステムによって生成された連続の８分の１レートのパケットを、ＤＴＸシステムによって復号化できる周期性のＳＩＤフレームへ変換することによって、相互運用性を与えなければならない。１つの例示的な実施形態では、ＣＴＸとＤＴＸのシステム間に与えなければならない相互運用性は、通信中は、２つのボコーダ間であり、２つのボコーダは、ＣＤＭＡ用の新しい提案されたボコーダ、すなわち選択可能モードボコーダ（Selectable Mode Vocoder, SMV）と、ＤＴＸ動作モードを使用する新しい提案された４キロビット秒の国際電気通信連合（International Telecommunications Union, ITU）のボコーダである。ＳＭＶボコーダは、活動音声に対しては３つの符号化レート（８５００、４０００、および２０００ｂｐｓ）、無音および背景雑音を符号化するときは８００ｂｐｓを使用する。ＳＭＶボコーダとＩＴＵ−Ｔボコーダとの両者は、相互運用可能な４０００ｂｐｓの活動音声の符号化ビット流を有する。音声活動中の相互運用性について、ＳＭＶボコーダは、４０００ｂｐｓの符号化レートのみを使用する。しかしながら、ＩＴＵのボコーダは、音声がないときは、伝送を中断し、背景雑音のスペクトルおよびエネルギーのパラメータが構成されているＳＩＤフレームであって、ＤＴＸ受信機においてのみ復号化できるＳＩＤフレームを周期的に生成するので、音声の非活動中は、ボコーダは相互運用できない。Ｎ個の雑音フレームを含む１サイクルにおいて、ＩＴＵ−Ｔのボコーダは、雑音統計を更新するための１つのＳＩＤパケットを伝送する。パラメータ、Ｎは、受信ＤＴＸシステムのＳＩＤフレームのサイクルによって判断される。

ＣＴＸシステムからＤＴＸシステムへの非活動音声の伝送中の相互運用性は、図４に示されているＣＴＸからＤＴＸへの変換ユニット400によって与えられる。８分の1レートで符号化された雑音フレームは、ＣＴＸシステム（図示されていない）の符号化器（図示されていない）から、８分の１レートの復号化器402へ入力される。１つの実施形態では、８分の１レートの復号化器402は、十分に機能的な可変レートの復号化器である。別の実施形態では、８分の１レートの復号化器402は、８分の１レートのパケットから利得およびスペクトル情報のみを抽出できる部分復号化器である。部分復号化器に必要なことは、平均化するのに必要な各フレームのスペクトルパラメータおよび利得パラメータのみを復号化することである。部分デコーダは、必ずしも全信号を再構成できなくてもよい。８分の１レートのデコーダ402は、フレーム緩衝器404内に記憶されているＮ個の８分の1レートのパケットから、利得およびスペクトル情報を抽出する。パラメータ、Ｎは、受信ＤＴＸシステム（図示されていない）のＳＩＤのフレームサイクルによって判断される。ＤＴＸ平均化ユニット406は、ＳＩＤ符号化器408へ入力するためのＮ個の８分の１レートのフレームの利得およびスペクトル情報を平均化する。ＳＩＤフレームは、ＤＴＸスケジューラ410へ入力され、ＤＴＸスケジューラ410は、ＤＴＸ受信機のＳＩＤフレームサイクル内の適切な時間にパケットを伝送する。ＣＴＸシステムからＤＴＸシステムへの非活動音声の伝送中の相互運用性は、このやり方で設定される。

図５は、例示的な実施形態にしたがってＣＴＸからＤＴＸの雑音変換のステップを示すフローチャートである。変換するための８分の１レートのパケットを生成するＣＴＸ符号化器は、基地局によってパケットの宛先がＤＴＸシステムであることを知らされる。１つの実施形態では、ＭＳＣ（図２の214）は、接続の宛先システムに関する情報を保持している。ＭＳＣシステムに登録することにより、接続の宛先を識別し、基地局（図２の208）において、８分の１レートのパケットから周期性のＳＩＤフレームへの変換が可能になる。周期性のＳＩＤフレームは、宛先のＤＴＸシステムのＳＩＤフレームサイクルに対応する周期的な伝送に対して適切にスケジュールされている。

ＣＴＸからＤＴＸへの変換により、ＤＴＸシステムへ移送できるＳＩＤパケットを生成する。音声の非活動中は、ＣＴＸシステムの符号化器は、８分の１レートのパケットを、ＣＴＸからＤＴＸへの変換ユニット210の復号化器402へ伝送する。
先ず、ステップ502では、Ｎ個の連続の８分の１レートの雑音フレームを復号化して、受信パケットのスペクトルおよびエネルギー利得のパラメータを生成する。Ｎ個の連続の８分の１レートの雑音フレームのスペクトルおよびエネルギー利得のパラメータを緩衝し、制御フローはステップ504へ進む。

ステップ504では、Ｎ個のフレームの雑音を表わすものとして、平均スペクトルパラメータおよび平均エネルギー利得パラメータを、周知の平均化技術を使用して計算する。制御フローは、ステップ506へ進む。
ステップ506では、平均スペクトルおよびエネルギー利得のパラメータを量子化して、量子化されたスペクトルおよびエネルギー利得のパラメータから、ＳＩＤフレームを生成する。制御フローは、ステップ508へ進む。

ステップ508では、ＳＩＤフレームは、ＤＴＸスケジューラによって伝送される。
ステップ502ないし508は、無音または背景雑音のＮ個の８分の１フレームごとに反復される。当業者は、図５に示されているステップの順序が限定的でないことが分かるであろう。この方法は、開示されている実施形態の技術的範囲から逸脱することなく、記載されているステップを削除または順序変更することによって、容易に変えられる。

図６は、図２に示されているＣＴＸからＤＴＸへのインターフェイス216のＤＴＸからＣＴＸへの変換ユニット212についての1つの実施形態を示している。背景雑音が、２つのＤＴＸシステム間で伝送されるとき、ＤＴＸ符号化器は、平均利得およびスペクトル情報が収められている周期性のＳＩＤデータパケットを生成し、同じシステムのＤＴＸ復号化器は、ＳＩＤパケットを周期的に受信し、それらを復号化して、快適雑音を生成する。背景雑音がＤＴＸシステムからＣＴＸシステムへ送られるときは、ＤＴＸシステムによって生成された周期性のＳＩＤフレームを、ＣＴＸシステムによって復号化できる連続の８分の１レートのパケットへ変換することによって、相互運用性を与えることができる。ＤＴＸシステムからＣＴＸシステムへの非活動音声の伝送中は、図６に示されている例示的なＤＴＸからＣＴＸへの変換ユニット600によって、相互運用性が与えられる。

ＳＩＤの符号化された雑音フレームは、ＤＴＸシステム（図示されていない）の符号化器から、ＤＴＸ復号化器602へ入力される。ＤＴＸ復号化器602は、ＳＩＤパケットを逆量子化して、ＳＩＤの雑音フレームのスペクトルおよびエネルギー情報を生成する。１つの実施形態では、ＤＴＸ復号化器602は、十分に機能的なＤＴＸ復号化器である。別の実施形態では、ＤＴＸ復号化器602は、ＳＩＤパケットから、平均スペクトルベクトルおよび平均利得のみを抽出できる部分復号化器であってもよい。部分ＤＴＸ復号化器に必要なことは、ＳＩＤパケットから、平均スペクトルベクトルおよび平均利得を復号化することである。部分ＤＴＸ復号化器は、全信号を必ずしも再構成できなくてもよい。平均利得およびスペクトル値は、平均スペクトルおよび利得ベクトル生成器604へ入力される。

平均スペクトルおよび利得ベクトル生成器604は、受信したＳＩＤパケットから抽出した１つの平均スペクトル値および１つの平均利得値から、Ｎ個のスペクトル値およびＮ個の利得値を生成する。Ｎ個の伝送されていない雑音フレームに対するスペクトルパラメータおよびエネルギー利得値は、補間技術、補外技術、反復、および置換を使用して計算される。補間技術、補外技術、反復、および置換を使用して、複数のスペクトル値および利得値を生成することにより、固定ベクトル方式で生成される合成雑音よりも、元の背景雑音をより適切に表わす合成雑音を生成する。伝送されたＳＩＤパケットが、実際の無音を表わすとき、スペクトルベクトルは一定であるが、車両の雑音、モールの雑音、などが加わると、固定ベクトルでは不十分になる。Ｎ個の生成されたスペクトルおよび利得値は、ＣＴＸの８分の１レートの符号化器608へ入力され、ＣＴＸの８分の１レートの符号化器608では、Ｎ個の８分の１レートのパケットを生成する。ＣＴＸの符号化器は、各ＳＩＤフレームサイクルごとに、Ｎ個の連続の８分の1レートの雑音フレームを出力する。

図７は、例示的な実施形態にしたがって、ＤＴＸからＣＴＸの変換のステップを示すフローチャートである。ＤＴＸからＣＴＸへの変換では、各受信したＳＩＤパケットごとに、Ｎ個の８分の１レートの雑音パケットを生成する。音声の非活動中は、ＤＴＸシステムの符号化器は、周期性のＳＩＤフレームを、ＤＴＸからＣＴＸへの変換ユニット212のＳＩＤの復号化器602へ伝送する。

先ず、ステップ702では、周期性のＳＩＤフレームを受信する。制御フローはステップ704へ進む。
ステップ704では、平均利得値および平均スペクトル値を、受信したＳＩＤパケットから抽出する。制御フローは、ステップ706へ進む。
ステップ706では、補間技術、補外技術、反復、および置換の順序の並び替えを使用して、1つの平均スペクトル値から、Ｎ個のスペクトル値およびＮ個の利得値を生成し、受信したＳＩＤパケット（１つの実施形態では、２つ前のＳＩＤパケット）から、1つの平均利得値を抽出する。Ｎ個の雑音フレームの１サイクルにおいて、Ｎ個のスペクトル値およびＮ個の利得値を生成するのに使用される補間式の１つの実施形態を示す；
ｐ（ｎ＋ｉ）＝（１−ｉ／Ｎ）ｐ（ｎ−Ｎ）＋ｉ／Ｎ^＊ｐ（ｎ）
なお、ｐ（ｎ＋ｉ）は、フレームｎ＋ｉ（ｉ＝０，１，．．．，Ｎ−１）のパラメータであり、ｐ（ｎ）は、現在のサイクル内の第１のフレームのパラメータであり、ｐ（ｎ−Ｎ）は、現在のサイクルより１つ前のサイクル内の第１のフレームのためのパラメータである。制御フローは、ステップ708へ進む。

ステップ708では、Ｎ個の８分の１レートの雑音パケットを、生成されたＮ個のスペクトル値およびＮ個の利得値を使用して生成する。ステップ702ないし708は、各受信したＳＩＤフレームのために反復される。
当業者には、図７に示されているステップの順序は制限的ではないことが分かるであろう。この方法は、開示されている実施形態の技術的範囲から逸脱することなく、示されているステップを省略したり、またはステップの順序を変えたりすることによって、容易に変更できる。

以上では、音声が非活動である間の音声伝送システム間の相互運用性のための新規で向上した方法および装置について記載した。当業者には、種々の異なる技術および技法を使用して、情報および信号が表現されることが分かるであろう。例えば、上述で参照したデータ、命令、コマンド、情報、信号、ビット、符号、およびチップは、電圧、電流、電磁波、磁界または磁流、光の界または粒子、あるいはこれらの組み合わせによって表現されることができる。

当業者には、さらに、本明細書において開示されている実施形態と関係して記載されている、種々の例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウエア、コンピュータソフトウエア、または両者の組合せとして構成されることが分かるであろう。ハードウエアおよびソフトウエアのこの互換性を明らかに示すために、種々の例示的な構成要素、ブロック、モジュール、回路、およびステップは、機能に関連して上述で概ね記載した。このような機能がハードウエアまたはソフトウエアとして構成されているかどうかは、特定の応用と、システム全体に課されている設計上の制約に依存する。熟練した技能をもつ者は、それぞれの特定の応用のやり方を変更して、記載されている機能を実行するが、このような実行の決定は、本発明の技術的範囲から逸脱しないと解釈すべきである。

本明細書に開示されている実施形態に関連して記載した種々の例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、ディジタル信号プロセッサ（digital signal processor, DSP）；特定用途向け集積回路（application specific integrated circuit, ASIC）；フィールドプログラマブルゲートアレイ（field programmable gate array, FPGA）または他のプログラマブル論理デバイス；ディスクリートなゲートまたはトランジスタ論理；ディスクリートなハードウエア構成要素、；あるいは本明細書に記載した機能を実行するように設計された組み合わせで構成または実行される。汎用プロセッサは、マイクロプロセッサであってもよいが、その代わりに、プロセッサは従来のプロセッサ、制御装置、マイクロ制御装置、または状態機械であってもよい。プロセッサは、計算装置の組合せ、例えばＤＳＰと１つのマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、またはＤＳＰコアと関連するマイクロプロセッサ、あるいはこのような他の構成としても構成される。

本明細書に開示されている実施形態と関係して記載されている方法またはアルゴリズムのステップは、ハードウエア、プロセッサによって実行されるソフトウエアモジュール、またはこの２つの組合せで直接に取入れることができる。ソフトウエアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、取り外し可能ディスク、ＣＤ−ＲＯＭ、またはこの技術において知られている記憶媒体の他の形態の中に存在する。例示的な記憶媒体は、プロセッサに連結され、プロセッサは記憶媒体から情報を読み出し、かつ記憶媒体へ情報を書込むことができる。その代りに、記憶媒体は、プロセッサと一体構成であってもよい。プロセッサおよび記憶媒体は、ＡＳＩＣ内に存在していてもよい。ＡＳＩＣは加入者ユニット内に存在していてもよい。その代りに、プロセッサおよび記憶媒体は、ユーザ端末内のディスクリートな構成要素として存在していてもよい。

開示されている実施形態についてのこれまでの記述は、当業者が本発明を生成または使用できるように与えられている。これらの実施形態の種々の変形は、当業者には容易に明らかであり、本明細書で定義されている全体的な原理は、本発明の技術的範囲から逸脱せずに、他の実施形態に応用できる。したがって、本発明は、本明細書に示した実施形態に制限されることを意図されていないが、本明細書で開示した原理および新規な特徴にしたがう最も幅広い技術的範囲に一致することを意図されている。

音声符号化器によって、各端部において終端する通信チャンネルのブロック図。図１に示されている符号化器を取入れて、非音声を伝送するＣＴＸ／ＤＴＸの相互運用性を支援する無線通信システムのブロック図。伝送される雑音情報を使用して、受信機において快適雑音を生成するための合成雑音生成器のブロック図。

ＣＴＸからＤＴＸへの変換ユニットのブロック図。ＣＴＸからＤＴＸへの変換の変換ステップを示すフローチャート。ＤＴＸからＣＴＸへの変換ユニットのブロック図。ＤＴＸからＣＴＸへの変換の変換ステップを示すフローチャート。

符号の説明

１０、１６符号化器、
１２、１８通信チャンネル、
１４、２０復号化器、
２００無線ＣＴＸ音声伝送システム
２０２加入者ユニット、
２０８基地局、
２１０ＣＴＸ−ＤＴＸの変換ユニット、
２１２ＤＴＸ−ＣＴＸの変換ユニット、
２１４移動交換局、
２１６インターフェイス、
２１８ボコーダ、
３０２乗算器、
３０４スペクトル整形フィルタ、
３０６ランダム励起信号、
３０８背景雑音信号、
４００ＣＴＸからＤＴＸへの変換ユニット、
４０２１／８レート復号化器、
４０４緩衝器、
４０６ＤＴＸ平均化ユニット、
４０８ＳＩＤ符号化器、
４１０ＤＴＸスケジューラ、
６００ＤＴＸからＣＴＸへの変換ユニット、
６０２ＤＴＸ復号化器、
６０４平均スペクトル値および平均利得値生成器、
６０８ＣＴＸの１／８レートの符号化器。

Claims

連続非活動音声フレームを非連続非活動音声フレームに変換する方法であって、連続非活動音声フレームが連続伝送システムのために符号化され、非連続非活動音声フレームが非連続伝送システムのために符号化され、
複数の連続非活動音声フレームから利得およびスペクトル情報を抽出し、
平均利得パラメータおよび平均スペクトルパラメータを得るために、利得およびスペクトル情報を平均化し、
平均利得パラメータおよび平均スペクトルパラメータを使用して少なくとも１つの非連続非活動音声フレームを生成することを含む方法。
非連続非活動音声フレームを連続非活動音声フレームに変換する方法であって、連続非活動音声フレームが連続伝送システムのために符号化され、非連続非活動音声フレームが非連続伝送システムのために符号化され、
非連続非活動音声フレームから快適雑音情報を抽出し、
抽出された快適雑音情報から複数のスペクトル値および複数の利得値を生成し、
複数のスペクトル値の１つおよび複数の利得値の１つから各々生成される、複数の連続非活動音声フレームを生成することを含む方法。
連続伝送システムは、ＣＤＭＡシステムである請求項１または２記載の方法。
ＣＤＭＡシステムは、選択可能モードボコーダを含む請求項２記載の方法。
非連続伝送システムは、ＧＳＭシステムである請求項１または２記載の方法。
非連続伝送システムは、狭帯域幅の音声伝送システムである請求項１または２記載の方法。
非連続伝送システムは、ボイスオーバーインターネットプロトコルアプリケーションに対する非連続モードにおいて動作する４キロビット／秒のボコーダを含む請求項１または２記載の方法。
相互運用性は、連続モードで動作する少なくとも１つの音声伝送システムと、非連続モードで動作する少なくとも1つの音声伝送システムとの間に与えられている請求項１または２記載の方法。
相互運用性は、第１のＣＤＭＡ広帯域音声伝送システムと、異なる伝送モードにおいて動作する共通の広帯域ボコーダを有する第２の広帯域音声伝送システムとの間に与えられている請求項１または２記載の方法。
連続非活動音声フレームは、８分の１レートで符号化される請求項１または２記載の方法。
連続伝送システムによって生成された前記連続非活動音声フレームを、非連続伝送システムによって復号化できる周期性の無音挿入記述子フレームへ変換するための請求項１の方法であって、
スペクトルパラメータおよび利得パラメータのグループを生成するため連続非活動音声フレームのグループを復号化し、
平均スペクトル値を生成するためにスペクトルパラメータのグループを平均化し、
平均利得値を生成するために利得パラメータのグループを平均化し、
平均スペクトル値を量子化し、
平均利得値を量子化し、
量子化された利得値および量子化されたスペクトル値から無音挿入記述子フレームを生成し、
受信非連続伝送システムの無音挿入記述子フレームサイクル中の適切な時間に、無音挿入記述子フレームを伝送することを含む方法。
連続非活動音声フレームが、８分の１レートで符号化される請求項１１記載の方法。
非連続伝送システムによって生成された周期性の無音挿入記述子フレームを連続伝送システムによって復号化できる前記連続非活動音声フレームに変換する請求項２記載の方法であって、
無音挿入記述子フレームを受信し、
量子化された平均利得値および量子化された平均スペクトル値を生成するため無音挿入記述子フレーム復号化し、かつ平均利得値および平均スペクトル値を生成するため量子化された平均利得値および量子化された平均スペクトル値を逆量子化し、
平均利得値および平均スペクトル値から、スペクトル値のグループおよび利得値のグループを生成し、
スペクトル値のグループおよび利得値のグループから連続非活動音声フレームのグループを符号化することを含む方法。
補間技術を使用して、スペクトル値のグループと利得値のグループとを生成する請求項１３記載の方法。
ｐ（ｎ＋ｉ）を、フレームｎ＋ｉ（ｉ＝０，１，．．．，Ｎ−１）のパラメータとし、ｐ（ｎ）を、現在のサイクル内の第１のフレームのパラメータとし、ｐ（ｎ−Ｎ）を、現在のサイクルの１つ前のサイクル内の第１のフレームのためのパラメータとし、Ｎを、受信した非連続伝送システムの無音挿入記述子フレームサイクルによって判断するとき、補間技術は、式、ｐ（ｎ＋ｉ）＝（１−ｉ／Ｎ）ｐ（ｎ−Ｎ）＋ｉ／Ｎ^＊ｐ（ｎ）を用いる請求項１４記載の方法。
補外技術を使用して、スペクトル値のグループと利得値のグループとを生成する請求項１３記載の方法。
反復技術を使用して、スペクトル値のグループと利得値のグループとを生成する請求項１３記載の方法。
置換技術を使用して、スペクトル値のグループと利得値のグループとを生成する請求項１３記載の方法。
２つ前の無音挿入記述子フレームを使用して、スペクトル値のグループと利得値のグループとを生成する請求項１３記載の方法。
連続非活動音声フレームが、８分の１レートで符号化される請求項１３記載の方法。
連続非活動音声フレームを非連続非活動音声フレームに変換する装置であって、
複数の連続非活動音声フレームから利得およびスペクトル情報を抽出する手段と、
平均利得パラメータおよび平均スペクトルパラメータを得るために利得およびスペクトル情報を平均化する手段と、
平均利得パラメータおよび平均スペクトルパラメータを使用して少なくとも１つの非連続非活動音声フレームを生成する手段とを含む装置。
装置が、連続伝送システムによって生成された前記連続非活動音声フレームを非連続伝送システムによって復号化できる周期性の無音挿入記述子フレームに変換する連続から非連続への変換ユニットであり、
前記抽出する手段が非活動音声フレームのスペクトルおよび利得パラメータを復号化する復号器を含み、
前記平均化する手段が平均利得値および平均スペクトル値を生成するため非活動音声フレームのグループを平均化する平均化ユニットを含み、
前記生成する手段が平均利得値および平均スペクトル値を量子化し、かつ平均化された利得値および平均化されたスペクトル値を使用して無音挿入記述子フレームを生成する無音挿入記述子符号化器を含み、前記ユニットが、
受信非連続伝送システムの無音挿入記述子フレームサイクル中の適切な時間に、無音挿入記述子フレームを伝送する非連続伝送スケジューラをさらに含む、請求項２１記載の装置。
連続非活動音声フレームが、８分の１レートで符号化される請求項２２記載の連続から非連続への変換ユニット。
スペクトルおよび利得パラメータを記憶するメモリバッファをさらに含む、請求項２２記載の連続から非連続への変換ユニット。
復号器が完全な可変レート復号器である請求項２２記載の連続から非連続への変換ユニット。
復号器が、８分の１レート符号化フレームから利得およびスペクトルパラメータを抽出することができる、一部８分の１レート復号器である請求項２２記載の連続から非連続への変換ユニット。
非連続非活動音声フレームを連続非活動音声フレームへ変換する装置であって、
非連続非活動音声フレームから快適雑音情報を抽出する手段と、
抽出された快適雑音情報から複数のスペクトル値および複数の利得値を生成する手段と、
複数のスペクトル値の１つおよび複数の利得値の１つから各々生成される、複数の連続非活動音声フレームを生成する手段とを含む装置。
装置が、非連続伝送システムによって生成された周期性の無音挿入記述子フレームを連続伝送システムによって復号化できる連続非活動音声フレームに変換する非連続から連続への変換ユニットであり、
前記抽出する手段が量子化された平均利得値および量子化された平均スペクトル値を生成するため無音挿入記述子フレームを復号化し、かつ平均利得値および平均スペクトル値を生成するために平均利得値および平均スペクトル値を逆量子化する復号器を含み、
前記生成する手段（６０４）が平均利得値および平均スペクトル値からスペクトル値のグループおよび利得値のグループを生成する平均化されたスペクトルおよび利得値生成器を含み、
前記生成する手段（６０８）がスペクトル値のグループおよび利得値のグループから連続非活動音声フレームのグループを生成する符号化器を含む、請求項２７記載の装置。
符号化器が連続の８分の１レートのフレームを生成する、請求項２８記載の非連続から連続への変換ユニット。
平均化されたスペクトルおよび利得値生成器がさらに補間器を含む請求項２８記載の非連続から連続への変換ユニット。
平均化されたスペクトルおよび利得値生成器がさらに補外器を含む請求項２８記載の非連続から連続への変換ユニット。