JP2007523372A

JP2007523372A - エンコーダ、エンコーダを有するデバイス、エンコーダを有するシステム、周波数バンドのオーディオ信号を圧縮する方法、モジュール、およびコンピュータプログラム製品

Info

Publication number: JP2007523372A
Application number: JP2006553606A
Authority: JP
Inventors: バイニオ，ヤンネ; ミッコラ，ハンヌ; オヤラ，パシ; マキネン，ヤリ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2004-02-23
Filing date: 2005-02-16
Publication date: 2007-08-16
Also published as: AU2005215744A1; CN1922658A; RU2006129870A; BRPI0508328A; FI20045051A0; DE602005019138D1; ES2337270T3; TW200532646A; KR100962681B1; CN103177726A; CA2555352A1; ATE456847T1; US8438019B2; WO2005081230A1; EP1719119B1; KR20070088276A; US20050192798A1; EP1719119A1; ZA200606713B; KR20080093074A

Abstract

本発明は、周波数バンドのオーディオ信号のフレームを入力する入力（２０１）、通話類オーディオ信号の第１の励起を行う少なくとも第１の励起ブロック（２０６）、および非通話類オーディオ信号の第２の励起を行う第２の励起ブロック（２０７）を有するエンコーダ（２００）に関する。エンコーダ（２００）は、周波数バンドを、それぞれが上記周波数バンドより狭いバンド幅を持つ複数のサブバンドに分割するフィルタ（３００）をさらに含む。エンコーダ（２００）はまた、少なくとも１つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第１の励起ブロック（２０６）と上記第２の励起ブロック（２０７）の中から１つの励起ブロックを選択する励起選択ブロック（２０３）を含む。本発明はまた、デバイス、システム、方法およびコンピュータプログラムの記憶媒体に関する。

Description

本発明は、入力信号が通話類または楽音類信号によって符号化モードが変化する通話およびオーディオの符号化（コーディング）に関する。本発明はまた、周波数バンドのオーディオ信号のフレームを入力する入力を含み、通話類オーディオ信号の第１の励起を行う第１の励起ブロック、および非通話類オーディオ信号の第２の励起を行う第２の励起ブロックを少なくとも有するエンコーダに関する。本発明はまた、周波数バンドのオーディオ信号のフレームを入力する入力を含み、通話類オーディオ信号の第１の励起を行う第１の励起ブロック、および非通話類オーディオ信号の第２の励起を行う第２の励起ブロックを少なくとも含むエンコーダを有するデバイスに関する。本発明はまた、周波数バンドのオーディオ信号のフレームを入力する入力を含み、通話類オーディオ信号の第１の励起を行う第１の励起ブロック、および非通話類オーディオ信号の第２の励起を行う第２の励起ブロックを少なくとも含むエンコーダを有するシステムに関する。

さらに、本発明は、周波数バンドのオーディオ信号を圧縮する方法に関し、第１の励起は通話類オーディオ信号に使用され、第２の励起は非通話類オーディオ信号に使用される。本発明はまた、通話類オーディオ信号の第１の励起と非通話類オーディオ信号の第２の励起の少なくとも２つの励起の中から励起を選択するために周波数バンドのオーディオ信号のフレームを分類するモジュールに関する。本発明はまた、周波数バンドのオーディオ信号を圧縮するマシン実行可能なステップを含むコンピュータプログラム製品に関し、本発明に係るコンピュータプログラム製品では、第１の励起は通話類オーディオ信号に使用され、第２の励起は非通話類オーディオ信号に使用される。

多くのオーディオ信号を処理するアプリケーションでは、オーディオ信号は圧縮され、オーディオ信号を処理する際の必要処理能力は低減されている。例えばディジタル通信システムでは、オーディオ信号は代表的にアナログ信号として捕らえられ、アナログからディジタル（Ａ／Ｄ）へのコンバータにおいてディジタル化され、次いで符号化された後、移動局等のユーザ装置と基地局との間の無線空中線インタフェースを介して送信される。符号化の目的は、ディジタル信号を圧縮し、空中線インタフェースを介して最小のデータ量によりディジタル信号を送信し、同時に受容可能な信号品質レベルを維持することである。これは、無線空中線インタフェースを介する無線チャネル容量がセル通信ネットワークでは限られるので、特に重要である。ディジタル化オーディオ信号が後にオーディオ信号を再生するために記憶媒体に格納されるアプリケーションも存在する。

圧縮には非可逆圧縮、または可逆圧縮がある。非可逆圧縮では、幾らかの情報が圧縮中に失われ、圧縮信号からもとの信号を完全に再構築することはできない。可逆圧縮では、情報は常態では失われない。したがって、もとの信号は、圧縮信号から通常完全に再構築されることが可能である。

「オーディオ信号」の用語は、普通通話、楽音（非通話）あるいは両方を含む信号として理解される。通話と楽音の異なる性質により通話と楽音の双方に十分良好に動作する１つの圧縮アルゴリズムを設計することはむしろ困難になる。それゆえに、通話と楽音の双方に異なるアルゴリズムを設計し、オーディオ信号が通話類であるのか、楽音類であるのかを識別するある種の識別方法を使用し、識別に従い適切なアルゴリズムを選択することにより、問題の解決を図ることが多い。

全体として、通話と楽音、すなわち非通話信号とを純粋に分類することは困難なタスクである。必要な精度はアプリケーションにもっぱら依存する。幾つかのアプリケーションでは、通話認識の場合、または格納および取り出しを目的として正確に保管する場合等では、精度がさらに重大となる。一方、分類を利用して入力信号に最適な圧縮法を選択する場合、事情は少し異なる。この場合、通話に対して常に最適である圧縮法は存在せず、その一方で楽音、すなわち非通話信号に対して常に最適である別の方法も存在しないことがある。実際には、過渡通話の圧縮法が過渡楽音にも極めて有効であることはありうる。強音コンポーネントの楽音圧縮が音声通話セグメントに適しうることもありうる。したがって、これらの例では、通話と楽音とをただ純粋に分類する方法が、最良の圧縮法を選択する最適アルゴリズムを創出することはない。

通話は凡そ２００Ｈｚと３４００Ｈｚとの間にバンドが限られると考えられることが多い。アナログ通話信号をディジタル信号に変換するＡ／Ｄコンバータにより使用される代表的サンプリングレートは８ｋＨｚまたは１６ｋＨｚのいずれかである。楽音、すなわち非通話信号は、通常の通話バンド幅をかなり上回る周波数コンポーネントを含むことがある。幾つかのアプリケーションでは、オーディオシステムは約２０Ｈｚから２０，０００ｋＨｚまでの間の周波数バンドを扱うことができることになっている。その種の信号に対するサンプルレートは変音を避けるために少なくとも４０，０００ｋＨｚであるべきである。本明細書では当然ながら、上記の値はただの非制限的例である。例えば幾つかのシステムでは、楽音信号に対する高域制限は約１０，０００ｋＨｚあるいはそれよりさらに低いこともある。

サンプリングされたディジタル信号は、次いで通常フレームバイフレームベースで符号化され、符号化に使用されるコーデックにより決まるビットレートのディジタルデータストリームになる。ビットレートが高ければ、より多くのデータが符号化され、入力フレームの表現がより正確になる。符号化オーディオ信号は次いで復号され、ディジタルからアナログ（Ｄ／Ａ）へのコンバータを通って、できる限りもとの信号に近い信号に再構築される。

理想的なコーデックは、オーディオ信号をできるだけ少ないビットにより符号化し、それによりチャネル容量を最適化し、同時にできる限りもとのオーディオ信号に近い音のする復号オーディオ信号を生成する。実際、コーデックのビットレートと復号オーディオの品質との間には通常トレードオフが存在する。

現在、適応型マルチレート（ａｄａｐｔｉｖｅｍｕｌｔｉ−ｒａｔｅ、ＡＭＲ）コーデックや適応型マルチレート広帯域（ａｄａｐｔｉｖｅｍｕｌｔｉ−ｒａｔｅｗｉｄｅｂａｎｄ、ＡＭＲ−ＷＢ）コーデックなど、数多くの異なるコーデックがあり、これらはオーディオ信号の圧縮、符号化のために開発されている。ＡＭＲはＧＳＭ／ＥＤＧＥおよびＷＣＤＭＡ通信ネットワークのために第３世代パートナシッププロジェクト（ｔｈｅＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ、３ＧＰＰ）により開発された。さらに、ＡＭＲはパケット交換ネットワークにおいても使用されると考えられた。ＡＭＲは、代数的コード励起線形予測（ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ、ＡＣＥＬＰ）符号化に基づく。ＡＭＲおよびＡＭＲ−ＷＢコーデックは、それぞれ８および９のアクティブビットレートを含み、また有音部検出（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ、ＶＡＤ）および不連続伝送（ｄｉｓｃｏｎｔｉｎｕｏｕｓｔｒａｎｓｍｉｓｓｉｏｎ、ＤＴＸ）機能を含む。現在、ＡＭＲコーデックのサンプリングレートは８ｋＨｚであり、ＡＭＲ−ＷＢコーデックではサンプリングレートは１６ｋＨｚである。上記のコーデックおよびサンプリングレートは非制限的な例にすぎないことは明らかである。

ＡＣＥＬＰ符号化は、信号ソースがどのように生成されるのかを示すモデルを使用して動作し、信号からモデルのパラメータを抽出する。より詳細には、ＡＣＥＬＰ符号化は人間の音声システムのモデルに基づいており、喉と口は線形フィルタとしてモデル化され、通話はフィルタを励起する空気の周期的振動により生成される。通話はフレームバイフレームベースでエンコーダにより分析され、各フレームに対してモデル化通話を表すパラメータのセットが生成され、エンコーダにより出力される。パラメータのセットは、フィルタの励起パラメータおよび係数以外に、他のパラメータを含むことが可能である。通話エンコーダからの出力は、入力通話信号のパラメトリック表現と呼ばれることが多い。パラメータのセットは、次いで適切に構成されたデコーダにより使用され、入力通話信号を再生する。

パルスのようなＡＣＥＬＰ励起によってよりよい品質が得られる或る入力信号もあるが、変換符号化励起（ＴＣＸ）の方が最適である入力信号もある。ここでは、ＡＣＥＬＰ励起は、典型的な通話コンテンツを入力信号としてもっぱら使用され、ＴＣＸ励起は、典型的な楽音を入力信号としてもっぱら使用されるものとする。しかしながら、これは常に真実ではなく、すなわち、通話信号には楽音類の部分があり、楽音信号には通話類の部分があるときもある。このアプリケーションにおける通話類信号を定義すると、大部分の通話がこの範疇に属し、いくらかの楽音もまたこの範疇に属する。その反対が楽音類信号の定義である。さらに、両方のクラスに属することができるという意味で中立的な通話信号部分および楽音信号部分がいくらか存在する。

励起の選択は幾つかの方法が可能である。最も複雑だが極めて良好な方法は、ＡＣＥＬＰとＴＣＸ励起の双方の符号化を行い、次いで合成通話信号に基づき最良の励起を選択することである。この合成による分析タイプの方法は良い結果を生むが、アプリケーションによっては高度に複雑なため実際的でない。例えばこの方法では、ＳＮＲタイプのアルゴリズムが使用され、両励起により生成される品質を測定することが可能である。この方法は「総当たり（ｂｒｕｔｅ−ｆｏｒｃｅ）」の方法と呼ばれることがあるが、その理由は異なる励起の全ての組み合わせを試行し、その後最良のものを選択するからである。それほど複雑でない方法は、前もって信号特性を分析し、次いで最良の励起を選択することにより一度だけ合成を実行することである。この方法もまた、品質と複雑性との間で妥協を行う事前選択と「総当たり」との組み合わせとなりうる。

図１は、従来技術の極めて複雑な分類によるエンコーダ１００を単純化して示す図である。オーディオ信号が入力信号ブロック１０１に入力され、ここで信号がディジタル化され、フィルタリングされる。入力信号ブロック１０１は、ディジタル化およびフィルタリングされた信号からフレームも形成する。フレームは線形予測符号化（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎｃｏｄｉｎｇ、ＬＰＣ）分析ブロック１０２に入力される。このブロック１０２は、フレームバイフレームのベースでディジタル化入力信号についてＬＰＣ分析を行い、入力信号に最も良く整合するようなパラメータセットを見つける。決定されたパラメータ（ＬＰＣパラメータ）は量子化され、エンコーダ１００から出力される（１０９）。エンコーダ１００はまた、ＬＰＣ合成ブロック１０３、１０４により２つの出力信号を生成する。第１のＬＰＣ合成ブロック１０３はＴＣＸ励起ブロック１０５により生成される信号を使用して、ＴＣＸ励起にとって最良の結果をもたらすコードベクトルを見つけるためにオーディオ信号を合成する。第２のＬＰＣ合成ブロック１０４は、ＡＣＥＬＰ励起ブロック１０６により生成される信号を使用して、ＡＣＥＬＰ励起にとって最良の結果をもたらすコードベクトルを見つけるためにオーディオ信号を合成する。励起選択ブロック１０７で、ＬＰＣ合成ブロック１０３、１０４により生成される信号が比較され、最良（最適）の励起を与える励起方法の１つを決定する。選択された励起方法および選択された励起信号のパラメータに関する情報は、例えば量子化およびチャネルコーディング（符号化）ブロック１０８に送出された後、送信のためにエンコーダ１００から信号として出力される（１０９）。

本発明の１つの目的は、信号の周波数情報を利用して通話類信号と楽音類信号を分類する改良された方法を提供することである。楽音類通話信号セグメントおよびその逆のものが存在し、いずれのクラスにも属することのできる信号セグメントが、通話および楽音に存在する。換言すれば、本発明は通話と楽音の間で純粋に分類をしない。しかしながら、本発明は、ある基準により入力信号を楽音類および通話類コンポーネントに類別する手段を規定する。分類情報は、例えば符号化モードを選択するマルチモードエンコーダにおいて使用されることが可能である。

本発明は、入力信号が幾つかの周波数バンドに分割され、低域周波数バンドと高域周波数バンドとの間の関係がこれらのバンドにおけるエネルギーレベルの変動と共に分析され、種々の分析ウインドウおよび決定閾値を使用して測定結果の計算あるいはこれらの測定結果の幾つかの異なる組み合わせの両方に基づいて、信号が楽音類、あるいは通話類に分類されるとの考えに基づいている。この情報は次いで、例えば分析信号の圧縮方法の選択に利用されることが可能である。

本発明に係るエンコーダは、周波数バンドを、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタと、少なくとも１つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うための少なくとも上記第１の励起ブロックおよび上記第２の励起ブロックの中から１つの励起ブロックを選択する励起選択ブロックとをさらに有することを主たる特徴とする。

本発明に係るデバイスは、上記エンコーダが周波数バンドを、上記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタを含み、上記デバイスは、少なくとも１つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第１の励起ブロックおよび上記第２の励起ブロックの中から１つの励起ブロックを選択する励起選択ブロックをさらに含むことを主たる特徴とする。

本発明に係るシステムは、上記エンコーダが周波数バンドを、上記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタをさらに含み、上記システムは、少なくとも１つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第１の励起ブロックおよび上記第２の励起ブロックの中から１つの励起ブロックを選択する励起選択ブロックをさらに含むことを主たる特徴とする。

本発明に係る方法は、周波数バンドが、上記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割され、少なくとも１つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第１の励起および上記第２の励起の中から１つの励起が選択されることを主たる特徴とする。

本発明に係るモジュールは、上記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割される周波数バンドを示す情報を入力する入力と、少なくとも１つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第１の励起ブロックおよび上記第２の励起ブロックの中から１つの励起ブロックを選択する励起選択ブロックとを有することを主たる特徴とする。

本発明に係るコンピュータプログラム製品は、周波数バンドを、上記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するマシン実行可能なステップと、少なくとも１つの上記サブバンドにおけるオーディオ信号の特性に基づいてオーディオ信号のフレームの励起を行うために、少なくとも上記第１の励起および上記第２の励起の中から１つの励起を選択するマシンの実行可能なステップとをさらに含むことを主たる特徴とする。

このアプリケーションでは、「通話類」および「楽音類」を用語として定義し、本発明と通話および楽音の典型的な分類とを区別している。本発明に係るシステムでは、凡そ９０％の通話は通話類として類別されるが、残りの通話信号は楽音類信号として規定されている。圧縮アルゴリズムの選択がこの分類に基づけば、楽音類信号はオーディオの品質を改善することが可能である。また典型的な楽音信号は、８０から９０％が楽音類信号に入りうるが、楽音信号の一部を通話類の範疇に分類することにより圧縮システムの音の信号品質を改善する。それゆえに、本発明は、従来技術の方法およびシステムと比較して利点を有する。本発明に係る分類方法を使用することにより、圧縮効率に大きく影響を与えることなく、再生音の品質を改善することが可能である。

前述の「総当たり」の手法に比較して、本発明は、２つの励起タイプの間の選択を行うような、はるかに簡潔な事前選択タイプの手法を提供する。本発明では、入力信号を複数の周波数バンドに分割し、複数の低域と高域の周波数バンドの間の関係を同時に分析し、例えばこれらのバンドのエネルギーレベルの変動を使用することもでき、信号を楽音類または通話類に分類する。

以下に、本発明の実施形態例によるエンコーダ２００を、図２を参照してさらに詳細に説明する。エンコーダ２００は、必要に際し入力信号をディジタル化、フィルタリングおよびフレーム化する入力ブロック２０１を含む。本明細書では当然ながら、入力ブロック２０１に入力される入力信号は、既に符号化処理に適する形式とすることが可能である。例えば、入力信号は早いステージでディジタル化し、メモリ媒体（図示されず）に格納しておけばよい。入力信号フレームは有音部検出ブロック（有音部ディテクタ）２０２に入力される。有音部検出ブロック２０２は複数のより狭いバンドの信号を出力し、この信号は励起選択ブロック２０３に入力される。励起選択ブロック２０３は信号を分析し、入力信号を符号化するのに最適な励起法を決定する。励起選択ブロック２０３は励起法の決定に従い選択手段２０５を制御する制御信号２０４を生成する。入力信号の現フレームの符号化に最良の励起法が第１の励起法であると決定されたならば、選択手段２０５が制御され、第１の励起ブロック２０６の信号を選択する。入力信号の現フレームの符号化に最良の励起法が第２の励起法であると決定されたならば、選択手段２０５が制御され、第２の励起ブロック２０７の信号を選択する。図２のエンコーダには、符号化処理のためには第１の励起ブロック２０６と第２の励起ブロック２０７のみしかないが、明らかにエンコーダ２００において利用できる入力信号の符号化に使用される種々の励起法には３つ以上の異なる励起ブロックも存在しうる。

第１の励起ブロック２０６は、例えばＴＣＸ励起信号を生成し、第２の励起ブロック２０７は、例えばＡＣＥＬＰ励起信号を生成する。

ＬＰＣ分析ブロック２０８は、フレームバイフレームベースでディジタル化入力信号に関するＬＰＣ分析を行い、入力信号と最も良く整合するようなパラメータセットを見つける。

ＬＰＣパラメータ２１０および励起パラメータ２１１は、例えば量子化およびチャネルコーディング（符号化）ブロック２１２において量子化および符号化され、その後、例えば通信ネットワーク７０４（図７）に送信される。しかしながら、パラメータの送信は必要ではなく、パラメータを、例えば記憶媒体に格納し、後のステージにおいて送信および／またはデコーディングのために取り出すことも可能である。

図３は、信号分析のためにエンコーダ２００において使用することが可能なフィルタ３００の一例を示す図である。フィルタ３００は、例えばＡＭＲ−ＷＢコーデックの有音部検出ブロックのフィルタバンクであり、独立のフィルタは必要ではなく、この目的に他のフィルタを使用することも可能である。フィルタ３００は２つまたはそれ以上のフィルタブロック３０１を含み、入力信号を異なる周波数の２つまたはそれ以上のサブバンド信号に分割する。換言すれば、フィルタ３００の各出力信号は、入力信号の一定の周波数バンドを表す。フィルタ３００の出力信号は、励起選択ブロック２０３において使用され、入力信号の周波数の内容を決定することが可能である。

励起選択ブロック２０３は、フィルタバンク３００の各出力のエネルギーレベルを評価し、これらのサブバンドのエネルギーレベルの変動と共に複数の低域と高域の周波数バンドとの関係を分析し、信号を楽音類または通話類に分類する。

本発明は、入力信号の周波数の内容を調べ、入力信号のフレームの励起法を選択することをベースにしている。以下では、入力信号の通話類または楽音類信号への分類と、これらの信号へのそれぞれＡＣＥＬＰまたはＴＣＸ励起のいずれかの選択とに使用される実際的な例として、拡張ＡＭＲ−ＷＢ（ＡＭＲ−ＷＢ＋）が使用される。しかしながら、本発明は、ＡＭＲ−ＷＢコーデックあるいはＡＣＥＬＰおよびＴＣＸ励起法に制限されることはない。

拡張ＡＭＲ−ＷＢ（ＡＭＲ−ＷＢ＋）コーデックでは、ＬＰ合成のための２つのタイプの励起が存在する。すなわち、ＡＣＥＬＰパルスのような励起と変換符号化励起（ＴＣＸ）である。ＡＣＥＬＰ励起は、もとの３ＧＰＰＡＭＲ−ＷＢ規格（３ＧＰＰＴＳ２６．１９０）において既に使用されるものと同じであり、ＴＣＸは改良され、拡張ＡＭＲ−ＷＢに実装されている。

拡張ＡＭＲ−ＷＢの例はＡＭＲ−ＷＢＶＡＤフィルタバンクをベースとし、このフィルタバンクは各２０ｍｓの入力フレームに対し、図３に示すように０から６、４００Ｈｚの周波数レンジに亘る１２のサブバンドの信号エネルギーＥ（ｎ）を生成する。フィルタバンクのバンド幅は常態では等しくなく、図３に見られるように種々のバンドで変化することがある。サブバンドの数も変化することがあり、サブバンドは一部重複することがある。次いで、各サブバンドのエネルギーレベルは、各サブバンドのエネルギーレベルＥ（ｎ）をそのサブバンド幅（Ｈｚ）で除算することにより正規化され、各バンドの正規化ＥＮ（ｎ）エネルギーレベルを生成する。ここで、ｎは０から１１までのバンド数である。インデクス０は、図３に示す最低域のサブバンドを表している。

励起選択ブロック２０３では、エネルギーレベルの標準偏差は例えば２つのウインドウ、短いウインドウｓｔｄａｓｈｏｒｔ（ｎ）と長いウインドウｓｔｄａｌｏｎｇ（ｎ）を使用して１２のサブバンドのそれぞれに対して計算される。ＡＭＲ−ＷＢ＋の場合、短いウインドウの長さは４フレームであり、長いウインドウは１６フレームである。これらの計算では、現フレームの１２のエネルギーレベルが過去の３または１５フレームと共に使用され、これらの２つの標準偏差値を導出する。この計算に固有の特徴は有音部検出ブロック２０２が、通話が行われていることを示す２１３場合のみ計算が行われることである。これによって、特に長い通話休止の後アルゴリズムがより早く反応する。

次いで各フレームについて、１２のフィルタバンク全てに対する平均標準偏差が長いウインドウと短いウインドウの両方に対して調べられ、平均標準偏差値ｓｔｄａｓｈｏｒｔとｓｔｄａｌｏｎｇが創出される。

オーディオ信号のフレームについて、また低域周波数バンドと高域周波数バンドとの間の関係が計算される。ＡＭＲ−ＷＢ＋では、１から７の低域周波数サブバンドのエネルギーＬｅｖＬが調べられ、エネルギーをこれらのサブバンド（Ｈｚ）の長さ（バンド幅）により除算して正規化される。８から１１の高域周波数バンドに対して、高域周波数バンドのエネルギーが調べられ、それぞれ正規化され、ＬｅｖＨを創出する。この実施例では、最低域サブバンド０は通常多くのエネルギーを含み、計算を歪ませ、他のサブバンドの寄与を小さくしすぎるので、これらの計算に使用されないことに注意されたい。これらの測定結果から、関係ＬＰＨ＝ＬｅｖＬ／ＬｅｖＨが定義される。さらに、各フレームに対して現行および過去の３ＬＰＨの値を使用して、移動平均ＬＰＨａが計算される。これらの計算の後、最近の値にやや多くの加重を設定することにより現行および過去の７つの移動平均ＬＰＨａ値の加重和を使用することによって、現フレームの低域と高域周波数の関係の測定結果ＬＰＨａＦが計算される。

本発明を実施して１つまたは少数の利用可能なサブバンドのみを分析することも可能である。

バックグラウンドノイズの評価レベルを各フィルタブロックの出力から減算し、対応するフィルタブロック３０１の最高域周波数を乗算したこれらのレベルを合算することにより現フレームに対するフィルタブロック３０１の平均レベルＡＶＬも計算され、低域周波数サブバンドより比較的少ないエネルギーを含む高域周波数サブバンドのバランスを保つ。

各フィルタバンクブロック３０１のバックグラウンドノイズの評価を減算した全てのフィルタブロック３０１の現フレームの総エネルギーＴｏｔＥ０も計算される。

これらの測定結果を計算した後、例えば以下の方法を使用して、ＡＣＥＬＰとＴＣＸ励起との間の選択がなされる。以下では、あるフラグが設定されると、競合を防止するため他のフラグはクリアされると想定される。まず、長いウインドウの平均標準偏差値ｓｔｄａｌｏｎｇが第１の閾値ＴＨ１、例えば０．４と比較される。標準偏差値ｓｔｄａｌｏｎｇが第１の閾値ＴＨ１より小さければ、ＴＣＸＭＯＤＥフラグが設定される。そうでなければ、低域と高域周波数の関係の計算測定結果ＬＰＨａＦは、第２の閾値ＴＨ２、例えば２８０と比較される。

低域と高域周波数の関係の計算測定結果ＬＰＨａＦが、第２の閾値ＴＨ２より大きければ、ＴＣＸＭＯＤＥフラグが設定される。そうでなければ、第１の閾値ＴＨ１を減算した標準偏差値ｓｔｄａｌｏｎｇの逆数が計算され、第１の定数Ｃ１、例えば５が計算された逆数の値に合算される。この総和は、次の式（１）に従って、低域と高域周波数の関係の計算測定結果ＬＰＨａＦと比較される。

Ｃ１＋（１／（ｓｔｄａｌｏｎｇ−ＴＨ１））＞ＬＰＨａＦ（１）

比較の結果が真であれば、ＴＣＸＭＯＤＥフラグが設定される。比較の結果が真でなければ、標準偏差値ｓｔｄａｌｏｎｇは第１の被乗数Ｍ１（例えば−９０）を乗算され、第２の定数Ｃ２（例えば１２０）が乗算結果に加えられる。この総和は、次の式（２）に従って、低域と高域周波数の関係の計算測定結果ＬＰＨａＦと比較される。

Ｍ１＊ｓｔｄａｌｏｎｇ＋Ｃ２＜ＬＰＨａＦ（２）

この総和が、低域と高域周波数の関係の計算測定結果ＬＰＨａＦより小さければ、ＡＣＥＬＰＭＯＤＥフラグが設定される。そうでなければ、ＵＮＣＥＲＴＡＩＮＭＯＤＥフラグが設定され、励起法が現フレームに対して未だ選択されえないことを示す。

以上に説明したステップの後、さらに調査が行われ、その後、現フレームに対する励起法が選択される。まず、ＡＣＥＬＰＭＯＤＥフラグまたはＵＮＣＥＲＴＡＩＮＭＯＤＥフラグのいずれが設定されているか調べられ、現フレームに対するフィルタバンク３０１の平均計算レベルＡＶＬが第３の閾値ＴＨ３（例えば２０００）より大きければ、そこでＴＣＸＭＯＤＥフラグが設定され、ＡＣＥＬＰＭＯＤＥフラグおよびＵＮＣＥＲＴＡＩＮＭＯＤＥフラグはクリアされる。

次に、ＵＮＣＥＲＴＡＩＮＭＯＤＥフラグが設定されていれば、長いウインドウに対する平均標準偏差値ｓｔｄａｌｏｎｇについて以上で行われたものと類似の評価が短いウインドウに対する平均標準偏差値ｓｔｄａｓｈｏｒｔについて行われるが、比較する定数と閾値に僅かに異なる値を使用する。短いウインドウに対する平均標準偏差値ｓｔｄａｓｈｏｒｔが第４の閾値ＴＨ４（例えば０．２）より小さければ、ＴＣＸＭＯＤＥフラグが設定される。そうでなければ、第４の閾値ＴＨ４を減算した短いウインドウに対する標準偏差値ｓｔｄａｓｈｏｒｔの逆数が計算され、第３の定数Ｃ３（例えば２．５）が計算逆数値に合算される。この総和は、次の式（３）に従って、低域と高域周波数の関係の計算測定結果ＬＰＨａＦと比較される。

Ｃ３＋（１／（ｓｔｄａｓｈｏｒｔ−ＴＨ４））＞ＬＰＨａＦ（３）

比較の結果が真であれば、ＴＣＸＭＯＤＥフラグが設定される。比較の結果が真でなければ、標準偏差値ｓｔｄａｓｈｏｒｔは第２の被乗数Ｍ２（例えば−９０）を乗算され、第４の定数Ｃ４（例えば１４０）が乗算結果に加えられる。この総和は、次の式（４）に従って、低域と高域周波数の関係の計算測定結果ＬＰＨａＦと比較される。

Ｍ２＊ｓｔｄａｓｈｏｒｔ＋Ｃ４＜ＬＰＨａＦ（４）

次のステージで、現フレームと前のフレームのエネルギーレベルが調べられる。現フレームの総エネルギーＴｏｔＥ０と前のフレームの総エネルギーＴｏｔＥ−１との間の割合が第５の閾値ＴＨ５（例えば２５）より大きければ、ＡＣＥＬＰＭＯＤＥフラグが設定され、ＴＣＸＭＯＤＥフラグおよびＵＮＣＥＲＴＡＩＮＭＯＤＥフラグはクリアされる。

最後に、ＴＣＸＭＯＤＥフラグまたはＵＮＣＥＲＴＡＩＮＭＯＤＥフラグが設定されており、現フレームに対するフィルタバンク３０１の平均計算レベルＡＶＬが第３の閾値ＴＨ３より大きく、現フレームの総エネルギーＴｏｔＥ０が第６の閾値ＴＨ６（例えば６０）より小さければ、ＡＣＥＬＰＭＯＤＥフラグが設定される。

以上に説明した評価法が行われ、ＴＣＸＭＯＤＥフラグが設定されれば、第１の励起法と第１の励起ブロック２０６が選択され、あるいはＡＣＥＬＰＭＯＤＥフラグが設定されれば、第２の励起法と第２の励起ブロック２０７が選択される。しかしながら、ＵＮＣＥＲＴＡＩＮＭＯＤＥフラグが設定されれば、評価法は選択を行うことができない。この場合、ＡＣＥＬＰまたはＴＣＸのいずれかが選択され、あるいは、さらにある分析が行われ、差異を生じさせなければならない。

本方法はまた、以下の擬似コード（〔数１〕）のように示されることが可能である。

分類の背後にある基本的概念は、図４、図５および図６に示される。図４は、楽音信号の低域と高域エネルギーコンポーネントとの間の関係の関数としてＶＡＤフィルタバンクのエネルギーレベルの標準偏差のプロット例を示す図である。各点は、楽音の種々の変動を含む長い楽音信号から調べられた２０ｍｓのフレームに相当する。直線Ａは、楽音信号エリヤの上界に凡そ相当するように適合されている、すなわち、本発明に係る方法では、直線Ａの右側の点は楽音類信号として考慮されない。

また一方で、図５は、通話信号の低域と高域エネルギーコンポーネントとの間の関係の関数としてＶＡＤフィルタバンクのエネルギーレベルの標準偏差のプロット例を示す図である。各点は、通話の種々の変動および異なる通話者を含む長い通話信号から調べられた２０ｍｓのフレームに相当する。曲線Ｂは、通話信号エリヤの下界を凡そ示すように適合されている、すなわち、本発明に係る方法では、曲線Ｂの左側の点は通話類として考慮されない。

図４に見られるように、大部分の楽音信号はほんの小さな標準偏差および分析周波数に対して比較的平坦な周波数分布を持つ。図５にプロットされた通話信号については、傾向が違い、標準偏差は大きく、低域周波数コンポーネントが多い。両信号を同じように図６にプロットし、曲線Ａ、Ｂを楽音と通話信号の両方の領域の境界に整合するように適合させると、大部分の楽音信号と大部分の通話信号を異なる範疇に区分するのは極めて容易である。図の適合曲線Ａ、Ｂは、上記の添付擬似コードに示されたものとまた同じである。図は単一の標準偏差および長いウインドウイングにより計算された高域に対する低域の周波数値のみを表示する。擬似コードはアルゴリズムを含み、このアルゴリズムは２つの異なるウインドウイングを使用し、したがって、図４、図５および図６に提示された２つの異なるバージョンのマッピングアルゴリズムを利用する。

図６の曲線Ａ、Ｂで限定されたエリヤＣは重複するエリヤを示し、楽音類および通話類信号を分類する手段がさらに通常必要とされることがある。信号変動に対し異なる長さの分析ウインドウを使用し、擬似コードの例においてなされるようにこれらの異なる測定結果を組み合わせることにより、エリヤＣはより小さくされることが可能である。幾らかの重複は認められうるが、その理由は、ある楽音信号は通話に最適化された圧縮により効率的に符号化されることが可能であり、ある通話信号は楽音に最適化された圧縮により効率的に符号化されるからである。

以上に提示された例では、最適なＡＣＥＬＰ励起が、分析に次ぐ合成の使用により選択され、最良のＡＣＥＬＰ励起とＴＣＸ励起との間の選択が、事前選択によりなされる。

本発明は２つの異なる励起法を使用して以上に提示されたが、３つ以上の異なる励起法を使用し、その中からオーディオ信号の圧縮のための選択を行うことは可能である。フィルタ３００が入力信号を以上に提示されたのとは異なる周波数バンドに分割することが可能であり、また周波数バンドの数は１２とは異なってもよいことはまた明らかである。

図７は、本発明が適用されることのできるシステムの例を示す図である。本システムは、通話オーディオ信号および／または非通話オーディオ信号を生成する１つまたは複数のオーディオソース７０１を含む。オーディオ信号は、必要な場合Ａ／Ｄコンバータ７０２によりディジタル信号に変換される。このディジタル信号は、送信デバイス７００のエンコーダ２００に入力され、エンコーダ２００において本発明に従い圧縮が行われる。圧縮信号はまた、必要な場合エンコーダ２００において送信のために量子化され、符号化（コーディング）される。送信機７０３、例えば移動通信デバイス７００の送信機は、圧縮化され、符号化された信号を通信ネットワーク７０４に送信する。この信号は、通信ネットワーク７０４から受信デバイス７０６の受信機７０５により受信される。受信信号は、デコーディング、量子化解除、および解凍のために、受信機７０５からデコーダ７０７に転送される。デコーダ７０７は検出手段（圧縮ディテクタ）７０８を含み、エンコーダ２００において現フレームに使用された圧縮法を判断する。デコーダ７０７は本判断に基づいて、現フレームの解凍のために第１の解凍手段（解凍器）７０９または第２の解凍手段（解凍器）７１０を選択する。ディジタル信号をアナログ信号に変換するために、解凍信号は解凍手段７０９、７１０からフィルタ７１１およびＤ／Ａコンバータ７１２へ送信される。次いでアナログ信号は、例えば拡声器７１３においてオーディオに変換されることが可能である。

本発明は、種々の種類のシステム、特に従来技術のシステムよりさらに効率的な圧縮を達成する低速伝送において実施されることが可能である。本発明に係るエンコーダ２００は、通信システムの種々の部分に適用されることが可能である。例えば、エンコーダ２００は、限りのある処理能力を有する移動通信デバイスに適用されることが可能である。

本発明は以上に説明した実施形態にのみ制限されることはなく、添付の特許請求の範囲内において変更されることが可能であることは明らかである。

従来技術の極めて複雑な分類によるエンコーダを単純化して示すブロック図である。本発明に係る分類によるエンコーダの実施例を示すブロック図である。ＡＭＲ−ＷＢＶＡＤアルゴリズムにおけるＶＡＤフィルタバンク構造の例を示すブロック図である。楽音信号における低エネルギーコンポーネントと高エネルギーコンポーネントとの間の関係の関数としてＶＡＤフィルタバンクのエネルギーレベルの標準偏差のプロット例を示す図である。通話信号における低エネルギーコンポーネントと高エネルギーコンポーネントとの間の関係の関数としてＶＡＤフィルタバンクのエネルギーレベルの標準偏差のプロット例を示す図である。楽音信号および通話信号の双方を組み合わせたプロット例を示す図である。本発明に係るシステムの例を示すブロック図である。

Claims

周波数バンドのオーディオ信号のフレームを入力する入力（２０１）を有し、通話類オーディオ信号の第１の励起を行う第１の励起ブロック（２０６）、および非通話類オーディオ信号の第２の励起を行う第２の励起ブロック（２０７）を少なくとも有するエンコーダであって、前記エンコーダは、
前記周波数バンドを、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタ（３００）と、
少なくとも１つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの励起を行うために、少なくとも前記第１の励起ブロック（２０６）および前記第２の励起ブロック（２０７）の中から１つの励起ブロックを選択する励起選択ブロック（２０３）とをさらに有することを特徴とするエンコーダ。
前記フィルタ（３００）が、少なくとも１つのサブバンドにおける前記オーディオ信号の現フレームの信号エネルギー（Ｅ（ｎ））を示す情報を生成するフィルタブロック（３０１）を含み、前記励起選択ブロック（２０３）が、少なくとも１つのサブバンドの前記信号エネルギー情報を判断するエネルギー判断手段を含むことを特徴とする、請求項１に記載のエンコーダ。
少なくとも第１のグループのサブバンドおよび第２のグループのサブバンドが規定され、前記第２のグループが前記第１のグループより高い周波数のサブバンドを含み、前記第１のグループのサブバンドの正規化信号エネルギー（ＬｅｖＬ）と前記第２のグループのサブバンドの正規化信号エネルギー（ＬｅｖＨ）との関係（ＬＰＨ）が前記オーディオ信号の前記フレームに対して規定され、前記関係（ＬＰＨ）が前記励起ブロック（２０６、２０７）の選択において使用されるようになっていることを特徴とする、請求項２に記載のエンコーダ。
前記第１のグループのサブバンドおよび前記第２のグループのサブバンドには、利用可能な前記サブバンドの中の１つまたは複数のサブバンドを含めないことを特徴とする、請求項３に記載のエンコーダ。
前記第１のグループのサブバンドおよび前記第２のグループのサブバンドには、最低周波数の前記サブバンドを含めないことを特徴とする、請求項４に記載のエンコーダ。
第１の数のフレームと第２の数のフレームが規定され、前記第２の数が前記第１の数より大きく、前記励起選択ブロック（２０３）が、各サブバンドの現フレームを含む前記第１の数のフレームの信号エネルギーを使用して、第１の平均標準偏差値（ｓｔｄａｓｈｏｒｔ）を計算する計算手段、および、各サブバンドの現フレームを含む前記第２の数のフレームの信号エネルギーを使用して、第２の平均標準偏差値（ｓｔｄａｌｏｎｇ）を計算する計算手段を含むことを特徴とする、請求項３、４または５に記載のエンコーダ。
前記フィルタ（３００）が有音部ディテクタ（２０２）のフィルタバンクであることを特徴とする、請求項１から６のいずれか一項に記載のエンコーダ。
前記エンコーダが適応型マルチレート広帯域コーデック（ＡＭＲ−ＷＢ）であることを特徴とする、請求項１から７のいずれか一項に記載のエンコーダ。
前記第１の励起が代数的コード励起線形予測励起（ＡＣＥＬＰ）であり、前記第２の励起が変換符号化励起（ＴＣＸ）であることを特徴とする、請求項１から８のいずれか一項に記載のエンコーダ。
周波数バンドのオーディオ信号のフレームを入力する入力（２０１）を含み、通話類オーディオ信号の第１の励起を行う第１の励起ブロック（２０６）、および非通話類オーディオ信号の第２の励起を行う第２の励起ブロック（２０７）を少なくとも含むエンコーダ（２００）を有するデバイスであって、
前記エンコーダ（２００）は、前記周波数バンドを、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタ（３００）をさらに含み、
前記デバイスは、少なくとも１つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの励起を行うために、少なくとも前記第１の励起ブロック（２０６）および前記第２の励起ブロック（２０７）の中から１つの励起ブロックを選択する励起選択ブロック（２０３）をさらに含むことを特徴とするデバイス。
前記フィルタ（３００）が、少なくとも１つのサブバンドにおける前記オーディオ信号の現フレームの信号エネルギー（Ｅ（ｎ））を示す情報を生成するフィルタブロック（３０１）を含み、前記励起選択ブロック（２０３）が、少なくとも１つのサブバンドの前記信号エネルギー情報を判断するエネルギー判断手段を含むことを特徴とする、請求項１０に記載のデバイス。
少なくとも第１のグループのサブバンドおよび第２のグループのサブバンドが規定され、前記第２のグループが前記第１のグループより高い周波数のサブバンドを含み、前記第１のグループのサブバンドの正規化信号エネルギー（ＬｅｖＬ）と前記第２のグループのサブバンドの正規化信号エネルギー（ＬｅｖＨ）との関係（ＬＰＨ）が前記オーディオ信号の前記フレームに対して規定され、前記関係（ＬＰＨ）が前記励起ブロック（２０６、２０７）の選択において使用されるようになっていることを特徴とする、請求項１１に記載のデバイス。
前記第１のグループのサブバンドおよび前記第２のグループのサブバンドには、利用可能な前記サブバンドの中の１つまたは複数のサブバンドを含めないことを特徴とする、請求項１２に記載のデバイス。
前記第１のグループのサブバンドおよび前記第２のグループのサブバンドには、最低周波数の前記サブバンドを含めないことを特徴とする、請求項１３に記載のデバイス。
第１の数のフレームと第２の数のフレームが規定され、前記第２の数が前記第１の数より大きく、前記励起選択ブロック（２０３）が、各サブバンドの現フレームを含む前記第１の数のフレームの信号エネルギーを使用して、第１の平均標準偏差値（ｓｔｄａｓｈｏｒｔ）を計算する計算手段、および、各サブバンドの現フレームを含む前記第２の数のフレームの信号エネルギーを使用して、第２の平均標準偏差値（ｓｔｄａｌｏｎｇ）を計算する計算手段を含むことを特徴とする、請求項１２、１３または１４に記載のデバイス。
前記フィルタ（３００）が有音部ディテクタ（２０２）のフィルタバンクであることを特徴とする、請求項１０から１５のいずれか一項に記載のデバイス。
前記エンコーダ（２００）が適応型マルチレート広帯域コーデック（ＡＭＲ−ＷＢ）であることを特徴とする、請求項１０から１６のいずれか一項に記載のデバイス。
前記第１の励起が代数的コード励起線形予測励起（ＡＣＥＬＰ）であり、前記第２の励起が変換符号化励起（ＴＣＸ）であることを特徴とする、請求項１０から１７のいずれか一項に記載のデバイス。
前記デバイスが移動通信デバイスであることを特徴とする、請求項１０から１８のいずれか一項に記載のデバイス。
前記デバイスが、前記選択励起ブロック（２０６、２０７）により生成されるパラメータを含むフレームを、低ビットレートチャネルを通じて送信する送信機を含むことを特徴とする、請求項１０から１９のいずれか一項に記載のデバイス。
周波数バンドのオーディオ信号のフレームを入力する入力（２０１）を含み、通話類オーディオ信号の第１の励起を行う第１の励起ブロック（２０６）、および非通話類オーディオ信号の第２の励起を行う第２の励起ブロック（２０７）を少なくとも含むエンコーダ（２００）を有するシステムであって、
前記エンコーダ（２００）は、前記周波数バンドを、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するフィルタ（３００）をさらに含み、
前記システムは、少なくとも１つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの前記励起を行うために、少なくとも前記第１の励起ブロック（２０６）および前記第２の励起ブロック（２０７）の中から１つの励起ブロックを選択する励起選択ブロック（２０３）をさらに含むことを特徴とするシステム。
前記フィルタ（３００）が、少なくとも１つのサブバンドにおける前記オーディオ信号の現フレームの信号エネルギー（Ｅ（ｎ））を示す情報を生成するフィルタブロック（３０１）を含み、前記励起選択ブロック（２０３）が、少なくとも１つのサブバンドの前記信号エネルギー情報を判断するエネルギー判断手段を含むことを特徴とする、請求項２１に記載のシステム。
少なくとも第１のグループのサブバンドおよび第２のグループのサブバンドが規定され、前記第２のグループが前記第１のグループより高い周波数のサブバンドを含み、前記第１のグループのサブバンドの正規化信号エネルギー（ＬｅｖＬ）と前記第２のグループのサブバンドの正規化信号エネルギー（ＬｅｖＨ）との関係（ＬＰＨ）が前記オーディオ信号の前記フレームに対して規定され、前記関係（ＬＰＨ）が前記励起ブロック（２０６、２０７）の選択において使用されるようになっていることを特徴とする、請求項２２に記載のシステム。
前記第１のグループのサブバンドおよび前記第２のグループのサブバンドには、利用可能な前記サブバンドの中の１つまたは複数のサブバンドを含めないことを特徴とする、請求項２３に記載のシステム。
前記第１のグループのサブバンドおよび前記第２のグループのサブバンドには、最低周波数の前記サブバンドを含めないことを特徴とする、請求項２４に記載のシステム。
第１の数のフレームと第２の数のフレームが規定され、前記第２の数が前記第１の数より大きく、前記励起選択ブロック（２０３）が、各サブバンドの現フレームを含む前記第１の数のフレームの信号エネルギーを使用して、第１の平均標準偏差値（ｓｔｄａｓｈｏｒｔ）を計算する計算手段、および、各サブバンドの現フレームを含む前記第２の数のフレームの信号エネルギーを使用して、第２の平均標準偏差値（ｓｔｄａｌｏｎｇ）を計算する計算手段を含むことを特徴とする、請求項２３、２４または２５に記載のシステム。
前記フィルタ（３００）が有音部ディテクタ（２０２）のフィルタバンクであることを特徴とする、請求項２１から２６のいずれか一項に記載のシステム。
前記エンコーダ（２００）が適応型マルチレート広帯域コーデック（ＡＭＲ−ＷＢ）であることを特徴とする、請求項２１から２７のいずれか一項に記載のシステム。
前記第１の励起が代数的コード励起線形予測励起（ＡＣＥＬＰ）であり、前記第２の励起が変換符号化励起（ＴＣＸ）であることを特徴とする、請求項２１から２８のいずれか一項に記載のシステム。
前記システムが移動通信デバイスであることを特徴とする、請求項２１から２９のいずれか一項に記載のシステム。
前記システムが、前記選択励起ブロック（２０６、２０７）により生成されるパラメータを含むフレームを、低ビットレートチャネルを通じて送信する送信機を含むことを特徴とする、請求項２１から３０のいずれか一項に記載のシステム。
周波数バンドのオーディオ信号を圧縮する方法であって、
第１の励起が通話類オーディオ信号に使用され、第２の励起が非通話類オーディオ信号に使用され、
前記周波数バンドが、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割され、
少なくとも１つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの励起を行うために、少なくとも前記第１の励起および前記第２の励起の中から１つの励起が選択されることを特徴とする、周波数バンドのオーディオ信号を圧縮する方法。
前記フィルタ（３００）が、少なくとも１つのサブバンドにおける前記オーディオ信号の現フレームの信号エネルギー（Ｅ（ｎ））を示す情報を生成するフィルタブロック（３０１）を含み、前記励起選択ブロック（２０３）が、少なくとも１つのサブバンドの前記信号エネルギー情報を判断するエネルギー判断手段を含むことを特徴とする、請求項３２に記載の方法。
少なくとも第１のグループのサブバンドおよび第２のグループのサブバンドが規定され、前記第２のグループが前記第１のグループより高い周波数のサブバンドを含み、前記第１のグループのサブバンドの正規化信号エネルギー（ＬｅｖＬ）と前記第２のグループのサブバンドの正規化信号エネルギー（ＬｅｖＨ）との関係（ＬＰＨ）が前記オーディオ信号の前記フレームに対して規定され、前記関係（ＬＰＨ）が前記励起ブロック（２０６、２０７）の前記選択において使用されるようになっていることを特徴とする、請求項３３に記載の方法。
前記第１のグループのサブバンドおよび前記第２のグループのサブバンドには、利用可能な前記サブバンドの中の１つまたは複数のサブバンドを含めないことを特徴とする、請求項３４に記載の方法。
前記第１のグループのサブバンドおよび前記第２のグループのサブバンドには、最低周波数の前記サブバンドを含めないことを特徴とする、請求項３５に記載の方法。
第１の数のフレームと第２の数のフレームが規定され、前記第２の数が前記第１の数より大きく、前記励起選択ブロック（２０３）が、各サブバンドの現フレームを含む前記第１の数のフレームの信号エネルギーを使用して、第１の平均標準偏差値（ｓｔｄａｓｈｏｒｔ）を計算する計算手段、および、各サブバンドの現フレームを含む前記第２の数のフレームの信号エネルギーを使用して、第２の平均標準偏差値（ｓｔｄａｌｏｎｇ）を計算する計算手段を含むことを特徴とする、請求項３４、３５または３６に記載の方法。
前記フィルタ（３００）が有音部ディテクタ（２０２）のフィルタバンクであることを特徴とする、請求項３２から３７のいずれか一項に記載の方法。
前記エンコーダ（２００）が適応型マルチレート広帯域コーデック（ＡＭＲ−ＷＢ）であることを特徴とする、請求項３２から３８のいずれか一項に記載の方法。
前記第１の励起が代数的コード励起線形予測励起（ＡＣＥＬＰ）であり、前記第２の励起が変換符号化励起（ＴＣＸ）であることを特徴とする、請求項３２から３９のいずれか一項に記載の方法。
選択励起によって生成されるパラメータを含むフレームが、低ビットレートチャネルを通じて送信されることを特徴とする、請求項３２から３９のいずれか一項に記載の方法。
少なくとも通話類オーディオ信号の第１の励起および非通話類オーディオ信号の第２の励起の中から１つの励起を選択するために、周波数バンドのオーディオ信号のフレームを分類するモジュールであって、前記モジュールは、
前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割される前記周波数バンドを示す情報を入力する入力と、
少なくとも１つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの前記励起を行うために、前記少なくとも第１の励起ブロック（２０６）および前記第２の励起ブロック（２０７）の中から１つの励起ブロックを選択する励起選択ブロック（２０３）とを有することを特徴とするモジュール。
少なくとも第１のグループのサブバンドおよび第２のグループのサブバンドが規定され、前記第２のグループが前記第１のグループより高い周波数のサブバンドを含み、前記第１のグループのサブバンドの正規化信号エネルギー（ＬｅｖＬ）と前記第２のグループのサブバンドの正規化信号エネルギー（ＬｅｖＨ）との関係（ＬＰＨ）が前記オーディオ信号の前記フレームに対して規定され、前記関係（ＬＰＨ）が前記励起ブロック（２０６、２０７）の選択において使用されるようになっていることを特徴とする、請求項４２に記載のモジュール。
利用可能な前記サブバンドの中の１つまたは複数のサブバンドが、前記第１のグループのサブバンドおよび前記第２のグループのサブバンドには、利用可能な前記サブバンドの中の１つまたは複数のサブバンドを含めないことを特徴とする、請求項４３に記載のモジュール。
前記第１のグループのサブバンドおよび前記第２のグループのサブバンドには、最低周波数の前記サブバンドを含めないことを特徴とする、請求項４４に記載のモジュール。
第１の数のフレームと第２の数のフレームが規定され、前記第２の数が前記第１の数より大きく、前記励起選択ブロック（２０３）が、各サブバンドの現フレームを含む前記第１の数のフレームの信号エネルギーを使用して、第１の平均標準偏差値（ｓｔｄａｓｈｏｒｔ）を計算する計算手段、および、各サブバンドの現フレームを含む前記第２の数のフレームの信号エネルギーを使用して、第２の平均標準偏差値（ｓｔｄａｌｏｎｇ）を計算する計算手段を含むことを特徴とする、請求項４３、４４または４５に記載のモジュール。
周波数バンドのオーディオ信号を圧縮するためにマシン実行可能なステップを含むコンピュータプログラム製品であって、
第１の励起が通話類オーディオ信号に使用され、第２の励起が非通話類オーディオ信号に使用され、
前記コンピュータプログラム製品は、前記周波数バンドを、前記周波数バンドより狭いバンド幅をそれぞれが持つ複数のサブバンドに分割するマシン実行可能なステップと、
少なくとも１つの前記サブバンドにおける前記オーディオ信号の特性に基づいて前記オーディオ信号のフレームの励起を行うために、少なくとも前記第１の励起および前記第２の励起の中から１つの励起を選択するマシン実行可能なステップとをさらに含むことを特徴とするコンピュータプログラム製品。
前記コンピュータプログラム製品が、少なくとも１つのサブバンドにおける前記オーディオ信号の現フレームの信号エネルギー（Ｅ（ｎ））を示す情報を生成するマシン実行可能なステップと、少なくとも１つのサブバンドの前記信号エネルギー情報を判断するマシン実行可能なステップとをさらに含むことを特徴とする、請求項４７に記載のコンピュータプログラム製品。
第１の数のフレームと第２の数のフレームが規定され、前記第２の数が前記第１の数より大きく、前記コンピュータプログラム製品が、各サブバンドの現フレームを含む前記第１の数のフレームの信号エネルギーを使用して、第１の平均標準偏差値（ｓｔｄａｓｈｏｒｔ）を計算する計算手段のためのマシン実行可能なステップと、各サブバンドの現フレームを含む前記第２の数のフレームの信号エネルギーを使用して、第２の平均標準偏差値（ｓｔｄａｌｏｎｇ）を計算する計算手段のためのマシン実行可能なステップとをさらに含むことを特徴とする、請求項４８に記載のコンピュータプログラム製品。
前記コンピュータプログラム製品が、前記第１の励起として代数的コード励起線形予測励起（ＡＣＥＬＰ）を実行するマシン実行可能なステップと、前記第２の励起として変形符号化励起（ＴＣＸ）を実行するマシン実行可能なステップとをさらに含むことを特徴とする、請求項４７から４９のいずれか一項に記載のコンピュータプログラム製品。