JP2007532963A5

JP2007532963A5 -

Info

Publication number: JP2007532963A5
Application number: JP2007507809A
Authority: JP
Filing date: 2005-04-14
Publication date: 2010-09-16
Anticipated expiration: 2025-04-14

Description

音声信号の符号化

本発明は、復号のためのパラメータを含むビットストリームを処理するモジュールに関する。このモジュールにおいて、ビットストリームは少なくとも低周波数帯域および高周波数帯域に分割された周波数帯域において音声信号のフレームから符号化されたものであり、音声信号には少なくとも第1のモードおよび第2のモードが定義されており、第1のモードでは前記低周波数帯域のみの信号が符号化され、第2のモードでは前記高低両周波数帯域の信号が符合化される。
本発明はまた、該モジュールを備える装置に関する。
本発明はさらに、周波数帯域内の音声信号を処理するための方法に関し、この方法では、周波数帯域が少なくとも低周波数帯域および高周波数帯域に分割され、低周波数帯域の音声信号は低周波帯域に関する信号のパラメータを生成すべく符号化され、高周波数帯域の前記音声信号は高周波帯域に関する信号のパラメータを生成すべく符号化され、音声信号を符号化するために少なくとも第1のモードおよび第2のモードの中から符号化するためのモードが選択される。
本発明は、機械で実行可能なステップである、少なくとも低周波数帯域および高周波数帯域に分割された周波数帯域において音声信号を圧縮するステップと、低周波数帯域の音声信号を符号化するステップと、高周波数帯域の音声信号を符号化するステップと、少なくとも第1のモードおよび第2のモードの中から符号化するためのモードを選択するステップであって、第1のモードでは、低周波数帯域のみの信号が符号化され、第2のモードでは、高低の両周波数帯域の信号が符合化されるステップと、を有するコンピュータプログラムに関する。
本発明は、ビットストリームを有する信号に関し、ここでビットストリームは、当該ビットストリームを復号化するために復号器によって使用されるパラメータを含み、少なくとも低周波数帯域および高周波数帯域に分割される周波数帯域の音声信号のフレームから符号化され、また、信号に対して少なくとも第1のモードおよび第2のモードが定義される。ここで、第1のモードでは、低周波数帯域のみの信号が符号化され、第2のモードでは、高低の両周波数帯域の信号が符合化される。

多くの音声信号処理アプリケーションでは、音声信号を処理するときの所要電力を減じるために音声信号を圧縮する。例えば、デジタル通信システムでは、音声信号は、一般的にアナログ信号として取り込まれ、アナログ-デジタル(A/D)変換器でデジタル化され、次いで移動局および通信局などのユーザー機器間の無線エアインターフェースを通じて送信される前に符号化される。符号化の目的は、デジタル化された信号を圧縮し、許容可能な信号品質のレベルを維持しながら最小量のデータとともにその信号をエアインタフェースを通じて送信することである。携帯電話通信ネットワークでは、無線エアインターフェースを通じた無線チャネル容量が限定されるので、符号化は特に重要である。また、後に音声信号を再生するために、デジタル化した音声信号を記憶媒体に格納するアプリケーションもある。

圧縮には、非可逆または可逆がある。非可逆圧縮では、圧縮中にいくつかの情報が失われるので、圧縮された信号から原信号を完全に再構成することは不可能である。一方、可逆圧縮では、通常情報は失われない。したがって、通常は、圧縮された信号から原信号を完全に再構成することができる。

電話サービスでは、音声が約200Hz乃至3,400Hzの帯域幅に制限されることが多い。アナログ音声をデジタル信号に変換するA/D変換器によって使用される代表的なサンプリングレートは、8kHzまたは16kHzである。音楽または非音声信号は、通常の音声帯域幅よりもさらに高い周波数成分を含む場合がある。いくつかのアプリケーションでは、音声システムは、約20Hz乃至20,000kHzの周波数帯域を処理できなければならない。そのような種類の信号のサンプリングレートは、エイリアシングを回避するために少なくとも40,000kHzでなければならない。ただし、上述の値は単なる例であり、これに限定されないことに留意されたい。例えば、いくつかのシステムでは、音楽信号に対する上限を上述の20,000kHzよりもさらに低くすることが可能である。

サンプリングされたデジタル信号は次に、通常フレームごとに符号化され、符号化に使用されるコーデックによって決まるビットレートを有するデジタルデータストリームが生じる。ビットレートが高くなるほど符号化されるデータが多くなり、その結果、入力フレームがより正確に表現される。符号化音声信号は、次いで復号化され、可能な限り原信号に近い信号を再構成するために、デジタル-アナログ(D/A)変換器を通過させることができる。

理想的なコーデックは、可能な限り少ないビットで音声信号を符号化し、チャネル容量を最適化するとともに、可能な限り原信号に近い復号化音声信号を生成することになる。実用上、コーデックのビットレートと復号化音声の品質とは、通常、両得できるものではなく、一方を取るならば他方を犠牲にすることになる。

音声信号の圧縮および符号化のために開発されたコーデックには、AMR(Adaptive Multi-Rate;適応マルチレート)コーデック、AMR-WB(Adaptive Multi-Rate Wideband;適応マルチレート広域帯)コーデック、およびAMR-WB+(extended Adaptive Multi-Rate Wideband;拡張適応マルチレート広域帯)コーデックなど、現在多くの種類がある。AMRは、GSM(Global System for Mobile Communications;移動体通信用グローバルシステム)/EDGE(Enhanced Data Rates for GSM Evolution; GSM進化型高速データレート)およびWCDMA(Wideband Code Division Multiple Access;高帯域符号分割多元接続)通信ネットワークに対する3GPP(3rd Generation Partnership Project;第三世代標準化団体)によって開発された。さらに、AMRは、パケット交換ネットワークでの使用も想定されている。AMRは、ACELP(Algebraic Code Excited Linear Prediction;代数的コード励起線形予測)コーディングに基づいている。AMR、AMR-WB、およびAMR-WB+コーデックは、それぞれ8つ、9つ、および12の動的ビットレートから構成され、さらに、VAD(Voice Activity Detection;音声アクティビティ検出)およびDTX(Discontinuous Transmission;不連続送信)機能を備える。現在、AMRコーデックにおけるサンプリングレートは8kHzであり、AMR-WBコーデックにおけるサンプリングレートは16kHzである。上述のコーデック、コーデックモード、およびサンプリングレートは単なる例であり、これらに限定されないことは明らかである。

音声コーデック帯域幅拡張アルゴリズムは、一般的にコアコーデックからの符号化パラメータとともに、コーディング機能を適用する。すなわち、符号化音声帯域幅は、2つに分割され、それら以外の低帯域がコアコーデックによって処理され、次いでコーディングパラメータおよびコア帯域(すなわち、低帯域)からの信号に関する情報を使用して高帯域が符号化される。ほとんどの場合、高低の両帯域は互いに相関するので、低帯域パラメータはまた、ある程度高帯域にも利用することができる。低帯域符号器からのパラメータを使用することは、高帯域コーディングが高帯域符号化のビットレートを著しく減じるのに助力する。

分割帯域コーディングアルゴリズムの一例には、拡張AMR-WB(AMR-WB+)コーデックが挙げられる。コア符号器は、全ソース信号符合化アルゴリズムを含み、高帯域符号器のLPC励起信号は、コア符号器からコピーされるか、または局所的に生成されるランダムな信号である。

低帯域コーディングは、ACELP(Algebraic Code Excited Linear Prediction;代数的コード励起線形予測)コーディングタイプ、または変換ベースのアルゴリズムを利用する。アルゴリズム間の選択は、入力信号特性に基づいて行われる。ACELPアルゴリズムは、通常、音声信号およびトランジエントのために使用されるが、トーンのような信号は、通常、周波数分解能をより適切に取り扱うために変換コーディングを使用して符号化される。

高帯域符号化は、高帯域信号のスペクトル包絡線をモデル化するために線形予測コーディングを利用する。ビットレートを保存するために、高帯域に対して低帯域をアップサンプリングすることによって励起信号が生成される。すなわち、低帯域励起は、高帯域へ置き換えることによって再利用される。別の方法は、高帯域のためのランダムな励起信号を生成するものである。合成高帯域信号は、高帯域LPCモデルを介してスケールされた励起信号をフィルタ処理することによって再構成される。

拡張AMR-WB(AMR-WB+)コーデックは、符号化処理の前に音声帯域幅が2つの部分に分割される、分割帯域構造を適用する。両帯域は、単独で符合化される。しかし、ビットレートを最小にするために、上述の帯域幅拡張技術を使用して高帯域を符号化し、そこでは高帯域符号化の一部が低帯域符号化に依存する。この場合、LPC(linear prediction coding;線形予測コーディング)合成のための高帯域励起信号は、低帯域符号器からコピーされる。AMR-WB+コーデックでは、低帯域の範囲が0乃至6.4kHzであるが、高帯域の範囲は16kHzのサンプリング周波数の場合は6.4乃至8kHzであり、24kHzのサンプリング周波数の場合は6.4乃至12kHzである。

AMR-WB+コーデックは、サンプリング周波数が変化しないならば、音声ストリーム中でもモードを切り替えることができる。したがって、AMR-WBモードと16kHzのサンプリング周波数を用いた拡張モードとを切り替えることが可能である。この機能は、例えば、ネットワーク内の混雑を減じるために、送信条件を高ビットレート(拡張モード)から低ビットレートモード(AMR-WBモード)に変更する必要がある場合に使用することができる。同様に、より良好な音声品質を可能にするために、ネットワーク状態の変化によって低ビットレートモードから高ビットレートモードへの変更ができる場合、AMR-WB+は、AMR-WBモードから拡張モードのうちの1つへ変更することができる。高帯域拡張コーディングを使用したコーディングモードから、コア帯域コーディングのみを使用したモードへの変更は、そのようなモードの変更が生じたときに高帯域拡張のスイッチを即座に切ることによって簡単に達成することができる。同様に、コア帯域のみのモードから高帯域拡張を使用したモードへ変更する場合、高帯域は、高帯域拡張のスイッチを入れることによって最大音量で即座に導かれる。帯域幅拡張コーディングにより、AMR-WB+拡張モードによって提供される音声帯域幅は、AMR-WBモードのものよりも広くなるが、切り替えが早く起こりすぎると、不快な音響効果を生じる場合がある。ユーザーは、広域音声帯域から狭域音声帯域、すなわち、拡張モードからAMR-WBモードに変更された場合、この可聴音声帯域幅の変化を特に不快と感じるかも知れない。

発明のまとめ

本発明の1つの目的は、符号器の音声信号を符号化するための、より優れた方法を提供し、異なる帯域幅を有するモード間で切り替えを行った時の不快な音響効果を減じることである。

本発明は、狭帯域(AMR-WBモード)から高帯域(AMR-WB+モード)への変更が生じた時に、高帯域拡張が即座に有効化されるのではなく、振幅を最大音量まで段階的にしか増加させないようにして、過度に急速な変化がおこるのをを避ける、という案に基づくものである。同様に、高帯域モードから狭帯域モードに切り替える時は、高帯域拡張コントリビューションは即座に無効にされるのではなく、段階的にスケールを減じることで、不快にさせる影響を避ける。

本発明によれば、このような高帯域拡張信号の段階的導入は、高帯域合成に使用される励起ゲインに、選択された時間窓内にゼロから1までの細かいステップで増加されるスケールファクタを乗じることによって、パラメータレベルで実現される。例えば、AMR-WB+コーデックでは、十分に遅いランプアップ(ramp-up)の高帯域音声のコントリビューションの提供には、320ms(4つの80msのAMR-WB+フレーム)の窓長さが見込まれる。高帯域音声のコントリビューションのランプアップと同様に、高帯域の段階的なターミネーションも、この場合は、高帯域合成に使用される励起ゲインに、選択された期間中にゼロから1までの細かいステップで減じられるスケールファクタを乗じることによって、パラメータレベルで実現することができる。しかし、この場合、コア帯域のみのモードへ実際に切り替えられた時に利用可能な高帯域拡張のための更新されたパラメータを持たない。それでも、コアのみのモードへ切り替えて、フレームから導出される励起信号をコアのみのモードで受信する前に、最後のフレームに対して受信した高帯域拡張パラメータを使用することによって、高帯域合成を行うことができる。これに幾分変更を加えた方法は、LPCフィルタの周波数応答がよりフラットなスペクトラムへ段階的に移行されるような切り替えの後、高帯域の合成に使用されるLPCパラメータを変更するためのものである。これは、例えば、実際に受信したLPCフィルタおよびISPドメインにおいてフラットなスペクトラムを提供するLPCフィルタの加重平均を計算することによって実現することができる。この方法は、高帯域拡張パラメータを有する最後のフレームが明瞭なスペクトルピークを含む場合において、改善された音声品質を提供することが可能である。

本発明による方法は、時間ドメインにおける直接的なスケーリングと同様の効果を提供するが、パラメータレベルでスケーリングを行うことは、計算効率面でより優れたソリューションである。

本発明によるモジュールは、主に、高周波帯域に関する信号に属するパラメータのうち少なくとも１つを、符号器の動作モードの変化に応じて段階的に変化させるための計数器をさらに備えることを特徴とする。

本発明による方法は、主に、高周波帯域に関する信号のパラメータのうち少なくとも１つが動作モードの変化に応じて段階的に変化せしめられることを特徴とする。

本発明のコンピュータプログラムは、主に、動作モードの変化に応じて符号化特性を段階的に変化させるために、機械で実行可能なステップをさらに備えることを特徴とする。

本発明による信号は、主に、前記第1のモードと前記第2のモードとの間のモードの変更において、前記高周波数帯域に関連する信号のパラメータのうちの少なくとも1つを段階的に変化させることを特徴とする。

上述の従来技術の方法と比較して、本発明は、帯域幅モードを切り替えることによって、発生し得る可聴影響を減じるためのソリューションを提供する。つまり、音声信号の品質を向上させることができる。本発明は、時間ドメインにおける直接的なスケーリングと同様の機能を提供するが、パラメータレベルでスケーリングを行うことは、計算効率面でより優れたソリューションである。

発明の詳細な説明

図1は、各音声帯域に対して2つの帯域フィルタバンクおよび別々の符号化および復号化ブロックを使用した、本発明の実施態様の一例による分割帯域の符号化および復号化の概念を示す。信号源1.2からの入力信号は、最初に、分析フィルタ1.3を介して処理されるが、ここでは、音声帯域が少なくとも2つの音声帯域に分割、すなわち、高周波数音声帯域および低周波数音声帯域に分割され、クリティカルダウンサンプリングされる。次いで、低周波数音声帯域は第1の符号化ブロック1.4.1に符号化され、高周波数音声帯域は第2の符号化ブロック1.4.2に符号化される。音声帯域は、実質的に単独で互いに符合化される。多重化ビットストリームは、通信チャネル2を介して送信装置1から受信装置3に送信されるが、ここでは低帯域および高帯域がそれぞれ第1の復号化ブロック3.3.1および第2の復号化ブロック3.3.2に復号化される。復号化信号は、合成フィルタバンク3.4が復号化音声信号を結合して合成音声信号3.5を形成した後に、元のサンプリング周波数にアップサンプリングされる。

16kHzでサンプリングされた音声信号で動作するAMR-WB+の場合、8kHzの音声帯域が、0乃至6.4、および6.4乃至8kHzの帯域に分割される。分析フィルタ1.3の後には、クリティカルなダウンサンプリングが利用される。すなわち、低帯域は12.8kHz(=2*(0 - 6.4))にダウンサンプリングされ、高帯域は3.2kHz (=2*(8 - 6.4))に再サンプリングされる。

第1の符号化ブロック1.4.1(低帯域符号器)および第1の復号化ブロック3.3.1(低帯域復号器)は、例えば、AMR-WB規格の符号器および復号器とすることができる。一方、第2の符号化ブロック1.4.2(高帯域符号器)および第2の復号化ブロック3.3.2(高帯域復号器)は、独立したコーディングアルゴリズムとして、帯域幅拡張アルゴリズムとして、またはそれらを組み合わせたものとして使用することができる。

以下、本発明の実施態様の一例による符号化装置1を、図2を参照して詳述する。符号化装置1は、入力ブロック1.2を備え、必要に応じて入力信号のデジタル化、フィルター処理、およびフレーミングを行う。入力信号のデジタル化は、入力サンプリング周波数で入力サンプラ1.2.1によって行われる。入力サンプラの周波数は、実施態様の一例では16kHzまたは24kHzであるが、他のサンプリング周波数も使用できることは明らかである。入力信号は、すでに符号化処理に好適な形態とすることが可能であることに留意されたい。例えば、入力信号は、より早い段階でデジタル化して記憶媒体(図示せず)に格納しておくことが可能である。入力信号のフレームは、分析フィルタ1.3に入力される。分析フィルタ1.3は、音声信号が2つ以上の音声帯域に分割されるフィルタバンクを備える。本実施態様では、フィルタバンクは、第1のフィルタ1.3.1および第2のフィルタ1.3.2を備える。第1のフィルタ1.3.1は、例えば、低音声帯域の上限でのカットオフ周波数を有する低域通過フィルタである。カットオフ周波数は、例えば、約6.4kHzである。第2のフィルタ1.3.2は、例えば、最大で音声帯域の上限の、第1のフィルタ1.3.1のカットオフ周波数からの帯域幅を有する帯域通過フィルタである。この帯域幅は、例えば、16kHzのサンプリング周波数に対して6.4乃至8kHzであり、24kHzのサンプリング周波数に対して6.4乃至12kHzである。また、符号器1.4の入力での音声信号の周波数帯域が、サンプリング周波数の半分以下を上限とする、すなわち、上限より低い周波数だけを分析フィルタ1.3へ通過させる場合、第2のフィルタ1.3.2を高域通過フィルタとすることも可能である。また、音声信号を2つ以上の音声帯域に分割することも可能であるので、分析フィルタは、各音声帯域のためのフィルタを備えることが可能である。しかし、以下では、2つの音声帯域だけが使用されるものと仮定する。

フィルタバンクの出力は、音声信号の送信に必要なビットレートを減じるために、クリティカルダウンサンプリングされる。第1のフィルタ1.3.1の出力は第1のサンプラ1.3.3でサンプリングされ、第2のフィルタ1.3.2の出力は第2のサンプラ1.3.4でサンプリングされる。第1のサンプラ1.3.3のサンプリング周波数は、例えば、第1のフィルタ1.3.1の半分である。また、第2のサンプラ1.3.4のサンプリング周波数は、例えば、第2のフィルタ1.3.2の半分である。この実施態様の例では、第1のサンプラ1.3.3のサンプリング周波数は12.8kHzであり、第2のサンプラ1.3.4のサンプリング周波数は、16kHzの入力音声信号のサンプリング周波数に対して6.4kHzであり、24kHzの入力音声信号のサンプリング周波数に対して11.2kHzである。

第1のサンプラ1.3.3からのサンプルは、第1の符号化ブロック1.4.1に入力されて符号化される。また、第2のサンプラ1.3.4からのサンプルは、第2の符号化ブロック1.4.2に入力されて符号化される。第1の符号化ブロック1.4.1は、どの励起方法が入力信号の符号化に最も適切であるのかを判断するために、そのサンプルを分析する。その中から2つ以上の励起方法を選択することが可能である。例えば、第1の励起方法を非音声(または非音声のような)信号(例、音楽)のために選択し、第2の励起方法を音声(または音声のような)信号のために選択する。第1の励起方法は、例えばTCX励起信号を生成し、第2の励起方法は例えば、ACELP励起信号を生成する。

励起方法を選択した後、第1の符号化ブロック1.4.1においてフレームごとのサンプルにLPC分析を行い、入力信号に最適なパラメータセットを見つける。LPC分析を行うためのいくつかの別法があり、これらの方法は当業者によく知られているため、本出願では詳細は説明しない。

選択した励起方法およびLPCパラメータに関する情報は、第2の符号化ブロック1.4.2に転送される。第2の符号化ブロック1.4.2では、第1の符号化ブロック1.4.1で生成されたものと同じ励起を使用する。この実施態様の例では、第2の符号化ブロック1.4.2に対する励起信号は、高周波数音声帯域への低周波数音声帯域の励起をアップサンプリングすることによって生成される。すなわち、低帯域の励起は、これを高周波数音声帯域に置き換えることによって再利用される。AMR-WB+コーデックにおいて高周波数音声信号の記述に使用されるパラメータは、合成信号のスペクトル特性を定義するLPC合成フィルタ、および合成音声の振幅を制御する励起信号に対する一組のゲインパラメータである。

第1の符号化ブロック1.4.1および第2の符号化ブロック1.4.2によって生成されたLPCパラメータおよび励起パラメータは、例えば、量子化およびチャネル符号化ブロック1.5において量子化およびチャネル符号化され、通信ネットワーク604(図6)などの送信チャネルへの送信前に、ストリーム生成ブロック1.6によって同じ送信ストリームに結合(多重化)される。しかし、これらのパラメータは、送信する必要はないが、例えば、記憶媒体に格納し、後の段階で取り出して送信および/または復号化することができる。

以下、第1の符号化モードと第2の符号化モードとの間の切り替えを行う場合の、本発明の実施態様の一例による方法を詳述する。第1の符号化モードは、例えば、狭帯域符合化モードであり、第2の符号化モードは、例えば、広帯域符号化モードである。

モードの変化が持続する時間の長さを示す時間パラメータTが定義される。時間パラメータTは、符号化モードを段階的に変化させるために使用される。時間パラメータの値は、例えば320msであるが、これはフレーム長F(AMR-WB+の符号器において80ms)の4倍に等しい。他の時間パラメータTの値も使用できることは明らかである。乗数Mおよびステップ値Sもまた、モード変更中に第2の符号化ブロックによって使用されるように定義される。ステップ値は、モード変更で使用されるステップの大きさを示すように定義される。例えば、時間パラメータTが4つのフレーム(4xFL)に等しい場合、ステップ値は、0.25 (=1/4)に等しくなる。すなわち、このステップ値は、フレーム長を時間パラメータで割る(=F/T)ことによって計算することができる。

まず、符号器1は、第1の符号化モードを使用して第2の符号化モードへの変更を行うものと仮定する。低周波数音声信号の符号化は、上述のように第1の符号化ブロック1.4.1において継続される。モードインジケータ(図示せず)は、第2の符号化モードが選択されたことを示す状態に設定される。それに加えて、符号化モードおよびLPCパラメータの情報、ならびに、必要に応じて第1の符号化ブロック1.4.1からの他のパラメータの情報は、第2の符号化ブロック1.4.2に転送される。第2の符号化ブロックでは、受信したLPCパラメータはそのままでは使用されず、そのうちの少なくともいくつかは変更される。乗数Mは、ゼロに設定される。その後、一組のLPCゲインパラメータは、一組のLPCゲインパラメータに乗数Mを乗じることによって変更される。変更されたLPCパラメータは、現フレーム(一組のサンプル)の符号化処理において、第2の符号化ブロック1.4.2によって使用される。次いで、次のフレームに対して、ステップ値Sが乗数Mに加えられ、LPCゲインパラメータは、上述のように変更される。上述の手順は、乗数Mの値が1に達するまで連続する各フレームに対して反復され、その後、値1が使用され、第2の符号化モード(広帯域モード)の符号器1の動作が継続される。

次に、符号器1は、第2の符号化モードを使用して第1の符号化モードへの変を行うものと仮定する。低周波数音声信号の符号化は、上述のように第1の符号化ブロック1.4.1において継続される。モードインジケータは、第1の符号化モードが選択されたことを示す状態に設定される。現代階では、符号化モードおよびLPCパラメータの情報は、通常第1の符号化ブロック1.4.1から第2の符号化ブロック1.4.2へは転送されない。したがって、動作させる符号化モードの段階的な変更のために、いくつかの処理が必要である。第1の別法では、第2の符号化ブロック1.4.2は、モード変更前に最後のフレームの符号化に使用されるLPCパラメータを格納している。次いで、乗数Mの値を1に設定し、一組のLPCゲインパラメータに乗数Mが乗じられ、変更された一組のLPCゲインパラメータは、モード変更後に第1のフレームの符号化に使用される。次に続くフレームに対して、乗数Mの値がステップ値S分減じられ、一組のLPCパラメータに乗数Mが乗じられ、そのフレームに対する符号化が行われる。上述のステップ(乗数の値の変更、一組のLOPCパラメータの変更、およびフレームに対する符号化の実行)は、乗数の値がゼロに達するまで反復される。その後、第1の符号化ブロック1.4.1だけが符号化処理を継続する。

アップスケーリングおよびダウンスケーリングに使用されるベクトルの例には、以下のようなものが考えられる。このベクトルは64の要素を含み、1つの要素が5msのサブフレームに使用される。これは、スケーリングのアップ/ダウンが320msの間に行われることを意味する。

gain_hf_ramp[64] =
{0.01538461538462, 0.03076923076923,
0.04615384615385, 0.06153846153846,
0.07692307692308, 0.09230769230769,
0.10769230769231, 0.12307692307692,
0.13846153846154, 0.15384615384615,
0.16923076923077, 0.18461538461538,
0.20000000000000, 0.21538461538462,
0.23076923076923, 0.24615384615385,
0.26153846153846, 0.27692307692308,
0.29230769230769, 0.30769230769231,
0.32307692307692, 0.33846153846154,
0.35384615384615, 0.36923076923077,
0.38461538461538, 0.40000000000000,
0.41538461538462, 0.43076923076923,
0.44615384615385, 0.46153846153846,
0.47692307692308, 0.49230769230769,
0.50769230769231, 0.52307692307692,
0.53846153846154, 0.55384615384615,
0.56923076923077, 0.58461538461538,
0.60000000000000, 0.61538461538462,
0.63076923076923, 0.64615384615385,
0.66153846153846, 0.67692307692308,
0.69230769230769, 0.70769230769231,
0.72307692307692, 0.73846153846154,
0.75384615384615, 0.76923076923077,
0.78461538461538, 0.80000000000000,
0.81538461538462, 0.83076923076923,
0.84615384615385, 0.86153846153846,
0.87692307692308, 0.89230769230769,
0.90769230769231, 0.92307692307692,
0.93846153846154, 0.95384615384615,
0.96923076923077, 0.98461538461538}

第2の符号化ブロック1.4.2の高周波数帯域をスケーリングアップする場合、第2の符号化ブロック1.4.2の励起ゲインに、そのインデックスがスケーリングベクトルのポインティングである値のうちの1つを乗じる。インデックス値は、5ms符合化されたサブフレーム数である。したがって、モード切り替え後、第1のサブフレーム(5ms)では、第2の符号化ブロック1.4.2の励起ゲインに、スケーリングベクトルの第1の要素が乗じられる。また、第2のサブフレーム(5ms)では、第2の符号化ブロック1.4.2の励起ゲインに、スケーリングベクトルの第2の要素が乗じられる。

第2の符号化ブロック1.4.2の高周波数帯域をスケーリングダウンする場合、同様に、第2の符号化ブロック1.4.2の励起ゲインに、そのインデックスがスケーリングベクトルでポインティングしている値のうちの1つを乗じる。インデックス値は、5msの符合化されたサブフレームの数であるが、インデックスポインタは逆にされる。したがって、モード切り替え後、第1のサブフレーム(5ms)では、第2の符号化ブロック1.4.2の励起ゲインに、スケーリングベクトルの最後の要素が乗じられる。また、第2のサブフレーム(5ms)では、第2の符号化ブロック1.4.2の励起ゲインに、スケーリングベクトルの第2の最後の要素が乗じられる。

高周波数帯域をスケーリングダウン(例えば、AMR-WB+からAMR-WBへのモードの切り替え)する場合、第2の符号化ブロック1.4.2以外の動作モードを使用するときには、第2の符号化ブロック1.4.2の最後の符号化音声パラメータ(LPCパラメータ、励起、および励起ゲイン)を使用して、320msの間に高周波数帯域を生成する。

疑似コードの一例としては、以下が考えられる。

ExcGain2 = ExcGain2 * gain_hf_ramp(ind)
Exc_hf(1:n) = ExcGain2 * Exc_lf(1:n)
Output_hf = synth(LPC_hf,exc_hf,mem),
ここで、
ExcGain2 = Excitation_gain_in_the_second_encoding_block(第2の符号化ブロックの励起ゲイン)
gain_hf_ramp = スケーリングベクトル
Exc_lf = 第1の符号化ブロック(帯域幅:0-6.4kHz)からの励起ベクトル
Exc_hf = 第2の符号化ブロック(帯域幅:6.4-8.0kHz)からの励起ベクトル
Output_hf = 高周波数帯域のための合成信号
Synth = 合成信号を構築する機能
LPC = LPフィルタ係数
Mem = LPフィルタのメモリ

これに幾分変更を加えた方法は、LPCフィルタの周波数応答がよりフラットなスペクトラムへ段階的に移動されるような切り替えの後、高周波数音声帯域の合成に使用されるLPCパラメータを変更するためのものである。これは、例えば、実際に受信したLPCフィルタおよびISPドメインにおいてフラットなスペクトラムを提供するLPCフィルタの加重平均を計算することによって実現することができる。この方法は、広帯域幅拡張パラメータを有する最後のフレームが明瞭なスペクトルピークを含む場合において、改善された音声品質を提供することが可能である。

アップ/ダウンスケーリングはまた、例えばLPCまたは他のパラメータに基づく音声信号特性に基づいて適宜行うこともできる。線形スケーリングベクトルの代わりに、スケーリングベクトルも非線形とすることができる。スケーリングベクトルはまた、アップおよびダウンスケーリングで異なってよい。

以下、本発明による復号化装置3を、図3を参照して詳述する。符号化音声信号は、送信チャネル2から受信する。デマルチプレクサ3.1は、第1のビットストリームへの低周波数音声帯域に属するパラメータ情報、および第2のビットストリームへの高周波数音声帯域に属するパラメータ情報を非多重化する。ビットストリームは、次いでチャネル復号化され、チャネル復号化および必要に応じて逆量子化ブロック3.2において逆量子化される。

第1のチャネル復号化ビットストリームは、第1の符号化ブロック1.4.1によって生成されるLPCパラメータおよび励起パラメータを含み、広帯域モードが使用された場合、第2のチャネル復号化ビットストリームは、第2の符号化ブロック1.4.2によって生成される一組のLPCゲインおよび他のLPCパラメータ(LPCフィルタの特性を記述するパラメータ)を含む。

第1のビットストリームは、第1の復号化ブロック3.3に入力されるが、合成低周波数音声帯域信号を形成するために、受信したLPCゲインに従って、LPCフィルタリング(低帯域LPC合成フィルタリング)を行う。フィルタ3.3.1の後には、元のサンプリング周波数に対してサンプリングおよび復号化した信号をサンプリングするための第1のアップサンプラ3.3.2がある。

第2のビットストリームは、ビットストリーム内に存在する場合に、第2の復号化ブロック3.4に入力されるが、合成高周波数音声帯域信号を形成するために、受信したLPCゲインおよび他のパラメータに従って、LPCフィルタリング(高帯域LPC合成フィルタリング)を行う。第1のビットストリームの励起パラメータは、乗数3.4.1の一組のLPCゲインパラメータに乗じられる。乗算された励起パラメータは、フィルタ3.4.2に入力され、そこにはまた、第2のビットストリームのLPCパラメータが入力される。フィルタ3.4.2は、フィルタ3.4.2に入力されたパラメータに基づいて高周波数音声帯域信号を再構成する。フィルタ3.4.2の後には、元のサンプリング周波数に対してサンプリングおよび復号化した信号をサンプリングするための第2のアップサンプラ3.4.3がある。

第1のアップサンプラ3.3.2の出力は、合成フィルタバンク3.5の第1のフィルタ3.5.1に接続される。また、第2のアップサンプラ3.4.3の出力は、合成フィルタバンク3.5の第2のフィルタ3.5.2に接続される。第1のフィルタ3.5.1および第2のフィルタ3.5.2の出力は、合成フィルタバンク3.5の出力として接続されるが、出力信号は再構成された音声信号であり、音声信号の符号化に使用されモードに基づいた広帯域または狭帯域である。

復号化音声信号は、図1に示されるように、必ずしも通信チャネル2から受信するわけではなく、記憶媒体に予め格納された符号化ビットストリームとすることもできる。

上述のように、本発明は、高帯域拡張コーディングを使用したコーディングモードからコア帯域コーディングを使用したモードへ変更する場合に、高帯域拡張コントリビューションを段階的に無効にするための方法を提供する。比較的短い時間、例えば200乃至300ミリ秒で、高帯域コントリビューションの振幅を最大音量からゼロまで段階的に変化させることで、ユーザーには音声帯域幅の変化がよりスムーズで目立たなくなり、改善された音声品質が提供される。同様に、コア帯域のみのモードから高帯域拡張コーディングを用いたモードへの変化が生じた場合、高帯域コントリビューションは即座に導入されるのではなく、その振幅が、改善された音声品質にスムーズに切り替わるように、比較的短い時間窓で、ゼロから最大音量まで細かいステップで増加される。

本発明では、主に16kHzでサンプリングした音声に使用されているが、図4a乃至5cの切り替え例では24kHzでサンプリングした音声を使用した。したがって、AMR-WB+は、24kHzでサンプリングされた音声信号で動作する。12kHzの音声帯域は、0乃至6.4kHzおよび6.4乃至12kHzの帯域に分割される。クリティカルダウンサンプリングは、フィルタバンクの後で利用される。すなわち、低帯域は12.8kHzにダウンサンプリングされ、高帯域は11.2kHz(=2*(12 - 6.4))に再サンプリングされる。

図4aは、従来技術で狭帯域から広帯域への切り替えを行った場合を示し、図4bは、本発明により切り換えを行った場合を示す。図4cは、従来技術の場合、および本発明による切り替えにおける符号化高帯域信号の総エネルギーを示す。

図5aは、従来技術で広帯域から狭帯域への切り替えを行った場合を示し、図5bは、本発明により切り換えを行った場合を示す。図5cは、従来技術の場合、および本発明による切り替えにおける符号化高帯域信号の総エネルギーを示す。

図6は、本発明によるシステムを示し、システムには分割帯域の符号化および復号化処理を適用することができる。システムは、音声および/または非音声信号を生成する1つ以上のオーディオ源601を備える。音声信号は、必要に応じてA/D変換器602によってデジタル信号に変換される。デジタル化された信号には、送信装置600の符号器603に入力され、本発明による符号化が行われる。符号化信号にはまた、必要に応じて符号器603において送信のための定量化および符号化も行われる。送信機604、例えばモバイル通信装置600の送信機は、圧縮および符号化された信号を通信ネットワーク605へ送信する。信号は、受信装置606の受信機607によって通信ネットワーク605から受信される。受信した信号は、受信機607から復号器608に転送され、復号化、逆量子化、および解凍が行われる。復号器608は、合成音声信号を形成するために、受信したビットストリームの解凍を行う。合成音声信号は、次いで、例えばスピーカ609において、音声に変換することができる。

本発明は、異なる種類のシステム、特に従来技術のシステムよりも効率的な圧縮を達成するための低レート送信において使用することができる。本発明による符号器1は、通信システムの異なる部分において使用することができる。例えば、符号器1は、信号処理機能が制限されているモバイル通信装置において使用することができる。

本発明は、本発明の方法の少なくともいくつかの部分を行うための機械で実行可能なステップを有する、コンピュータプログラムとして少なくとも部分的に使用することができる。符号器1および復号化装置3は、制御ブロック、例えばデジタル信号処理器および/またはマイクロプロセッサを備え、コンピュータプログラムを利用することができる。

本発明は上述の実施態様のみに限定されるものではなく、添付の特許請求の範囲内で変更できることは明らかである。

各音声帯域に対して２つの帯域フィルタバンクおよび別々の符号化および復号化ブロックを使用した、本発明による分割帯域の符号化および復号化の概念の略図を示す。本発明による符号化装置の実施態様の一例を示す。本発明による復号化装置の実施態様の一例を示す。従来技術の符号器における狭帯域から広帯域への帯域の切り換えのスペクトログラムを示す。本発明の一実施態様の符号器における狭帯域から広帯域への帯域の切り換えのスペクトログラムを示す。従来技術の符号器および本発明の一実施態様の復号器それぞれにおいて狭帯域から広帯域へ帯域が切り替えられた時の、時間軸に沿った符号化高帯域信号のエネルギーを示す。従来技術の符号器における広帯域から狭帯域への帯域の切り換えのスペクトログラムを示す。本発明の一実施態様の符号器における広帯域から狭帯域への帯域の切り換えのスペクトログラムを示す。従来技術の符号器および本発明の一実施態様の復号器それぞれにおいて広帯域から狭帯域へ帯域が切り替えられた時の、時間軸に沿った符号化高帯域信号のエネルギーの変化を示す。本発明によるシステムの一例を示す。