JP2016505902A

JP2016505902A - 第１の符号化アルゴリズム及び第２の符号化アルゴリズムのうちの１つを選択するための装置及び方法

Info

Publication number: JP2016505902A
Application number: JP2015554187A
Authority: JP
Inventors: エマニュエルラヴェリー、; シュティファンデーラ、; ギヨームフックス、; エレーニフォトプール、; クリスティアンヘルムリヒ、
Original assignee: フラウンホーファーゲゼルシャフトツールフォルデルングデルアンゲヴァンテンフォルシユングエー．フアー．
Priority date: 2013-01-29
Filing date: 2014-01-28
Publication date: 2016-02-25
Anticipated expiration: 2034-01-28
Also published as: RU2618848C2; CN110517700B; AU2014211583A1; US20230079574A1; US20200227059A1; AR094676A1; US20190103121A1; JP6148810B2; MY189267A; CN105229736B; BR112015018021A2; US20150332698A1; KR101701081B1; TWI549120B; US11521631B2; CN105229736A; SG11201505947XA; CA2899013A1; HK1218461A1; PL2951820T3

Abstract

音声信号の部分を符号化するための第１の特性を有する第１の符号化アルゴリズム及び第２の特性を有する第２の符号化アルゴリズムのうちの１つを選択することによってこの音声信号の部分を符号化したものを得るための装置であって、第１の符号化アルゴリズムを用いて音声信号の部分を実際に符号化及び復号することなく第１の符号化アルゴリズムに関連付けられた音声信号の部分についての第１の品質測定値を推定するための第１推定部を備える。第２の符号化アルゴリズムを用いて音声信号の部分を実際に符号化及び復号することなく第２の符号化アルゴリズムに関連付けられた音声信号の部分についての第２の品質測定値を推定するための第２推定部が設けられる。当該装置は、第１の品質測定値及び第２の品質測定値の比較に基づいて第１の符号化アルゴリズム又は第２の符号化アルゴリズムを選択するための制御部を備える。【選択図】図１

Description

本発明は、音声符号化に関するものであり、特に、音声信号における異なる部分について異なる符号化アルゴリズムを用いて符号化信号を生成する切り替え音声符号化に関するものである。

音声信号における異なる部分について異なる符号化アルゴリズムを決定する切り替え音声コーダが知られている。一般的に、切り替え音声コーダは、２つの異なるモード、即ちアルゴリズム、例えばＡＣＥＬＰ（代数コード励振線形予測）及びＴＣＸ（変換符号化励振）、の間での切り替えを可能にする。

ＭＰＥＧＵＳＡＣ（ＭＰＥＧ統一スピーチ音声符号化）のＬＰＤモードは、ＡＣＥＬＰ及びＴＣＸという２つの異なるモードに基づく。ＡＣＥＬＰでは、スピーチ的及びトランジェント的な信号（speech-like and transient-like signal）において良好な品質が得られる。ＴＣＸでは、音楽的及びノイズ的な信号（music-like and noise-like signal）において良好な品質が得られる。エンコーダは、フレームごとにどのモードを用いるかを決定する。エンコーダによって行われる決定は、コーデック品質のために極めて重要である。１つの誤った決定でも、特に低ビットレートで、強いアーティファクトを生じる場合がある。

どのモードを用いるかを決定するための最も簡単な方策として閉ループモード選択があり、即ち、両方のモードにおける完全な符号化・復号を実行し、それから、音声信号及び符号化・復号後の音声信号に基づいて両方のモードについての選択基準（例えばセグメントＳＮＲ（segmental SNR））を計算し、最後に、選択された基準に基づいてモードを選択する。この方策では、一般的に、安定したロバストな決定が得られる。しかしながら、両方のモードを各々のフレームにおいて実行しなければならないため、必然的にかなりの複雑度を伴う。

複雑度を低減させるために、代替的な方策として開ループモード選択がある。開ループ選択は、両方のモードにおける完全な符号化・復号を実行するのではなく、低複雑度で計算された選択基準を用いて１モードを選択することからなる。そうすると、最悪の場合の複雑度は、最低複雑度モード（通常はＴＣＸ）の複雑度から、選択基準の計算に必要な複雑度を減じた分だけ低減される。複雑度における節約は通常かなりのものであるため、コーデックの最悪の場合の複雑度が窮屈な場合にこの種の方策は魅力的である。

ＡＭＲ−ＷＢ＋規格（２００４年１２月の国際規格３ＧＰＰＴＳ２６．２９０Ｖ６．１．０において規定されている）は、８０ｍｓフレームにおけるＡＣＥＬＰ／ＴＣＸ２０／ＴＣＸ４０／ＴＣＸ８０の全ての組み合わせの間から決定するために用いられる開ループモード選択を含む。これは３ＧＰＰＴＳ２６．２９０の５．２．４節に記載されている。これはまた、マキネン（Ｍａｋｉｎｅｎ）他による会議論文「モバイル及びマルチメディアにおける低複雑度音声符号化（ＬｏｗＣｏｍｐｌｅｘＡｕｄｉｏＥｎｃｏｄｉｎｇｆｏｒＭｏｂｉｌｅ, Ｍｕｌｔｉｍｅｄｉａ）」、ＶＴＣ２００６年、及び、この会議論文の著者に対する米国特許第７，７４７，４３０号及び米国特許第７，７３９，１２０号に記載されている。

米国特許第７，７４７，４３０号においては、長期間の予測パラメータの分析に基づく開ループモード選択が開示されている。米国特許第７，７３９，１２０号においては、音声信号のそれぞれの部分における音声コンテンツの種類を示す信号特性に基づく開ループモード選択が開示されており、このような選択の実現性がない場合には、この選択は更に、それぞれの隣接する部分について実行される統計的評価に基づく。

ＡＭＲ−ＷＢ＋の開ループモード選択は、２つの主要なステップで説明することができる。第１の主要なステップにおいては、音声信号についていくつかの特徴が算出される。これらの特徴としては、例えば、エネルギーレベルの標準偏差、低周波・高周波エネルギー関係、合計エネルギー、ＩＳＰ（イミタンススペクトル対）距離、ピッチラグ及びゲイン、スペクトルチルトなどが挙げられる。次に、これらの特徴を用い、単純な閾値ベースの分類子を用いてＡＣＥＬＰ及びＴＣＸ間の選択を行う。第１の主要なステップでＴＣＸが選択された場合、第２の主要なステップにおいて、閉ループの態様でＴＣＸ２０／ＴＣＸ４０／ＴＣＸ８０の可能な組み合わせの間での選択を行う。

国際公開第２０１２／１１０４４８号パンフレットにおいては、音声信号のトランジェント検出結果及び品質結果に基づいて異なる特性を有する２つの符号化アルゴリズム間で選択するための方策が開示されている。これに加えて、ヒステリシスを適用することが開示されており、このヒステリシスは、過去において、即ち音声信号におけるより早い部分について行われた選択に応じたものとなっている。

マキネン他による会議論文「モバイル及びマルチメディアにおける低複雑度音声符号化」、ＶＴＣ２００６年、においては、ＡＭＲ−ＷＢ＋の閉ループ及び開ループモード選択が比較される。主観的な聴取実験から、閉ループモード選択よりも開ループモード選択の方が著しく劣悪な性能となることが分かる。しかし、開ループモード選択によって、最悪の場合の複雑度が４０％低減されることも示される。

マキネン（Ｍａｋｉｎｅｎ）他による会議論文「モバイル及びマルチメディアにおける低複雑度音声符号化（ＬｏｗＣｏｍｐｌｅｘＡｕｄｉｏＥｎｃｏｄｉｎｇｆｏｒＭｏｂｉｌｅ, Ｍｕｌｔｉｍｅｄｉａ）」、ＶＴＣ２００６年

米国特許第７，７４７，４３０号米国特許第７，７３９，１２０号国際公開第２０１２／１１０４４８号パンフレット

本発明の目的は、良好な性能及び低複雑度で、第１の符号化アルゴリズム及び第２の符号化アルゴリズム間の選択を可能にする向上した方策を提供することである。

この目的は、請求項１に記載の装置、請求項２０に記載の方法、及び請求項３７に記載のコンピュータプログラムによって達成される。

本発明の実施例は、音声信号の部分を符号化するための第１の特性を有する第１の符号化アルゴリズム及び第２の特性を有する第２の符号化アルゴリズムのうちの１つを選択することによって前記音声信号の部分を符号化したものを得るための装置であって、
前記第１の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第１の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第１の品質測定値を推定するための第１推定部と、
前記第２の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第２の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第２の品質測定値を推定するための第２推定部と、
前記第１の品質測定値及び前記第２の品質測定値の比較に基づいて前記第１の符号化アルゴリズム又は前記第２の符号化アルゴリズムを選択するための制御部と、を備える装置を提供する。

本発明の実施例は、音声信号の部分を符号化するための第１の特性を有する第１の符号化アルゴリズム及び第２の特性を有する第２の符号化アルゴリズムのうちの１つを選択することによって前記音声信号の部分を符号化したものを得るための方法であって、
前記第１の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第１の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第１の品質測定値を推定するステップと、
前記第２の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第２の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第２の品質測定値を推定するステップと、
前記第１の品質測定値及び前記第２の品質測定値の比較に基づいて前記第１の符号化アルゴリズム又は前記第２の符号化アルゴリズムを選択するステップと、を備える方法を提供する。

本発明の実施例は、第１及び第２の符号化アルゴリズムの各々についての品質測定値を推定し、この第１及び第２の品質測定値間の比較に基づいて符号化アルゴリズムのうちの１つを選択することによって、性能の向上した開ループ選択が実現され得るという認識に基づいている。品質測定値は推定されるのであり、即ち、品質測定値を得るために音声信号を実際に符号化及び復号することはない。従って、複雑度を低減させながら品質測定値を得ることができる。そして、推定された品質測定値を用いて、閉ループモード選択と同様にモード選択を実行することができる。

本発明の実施例においては、ＡＣＥＬＰ及びＴＣＸのセグメントＳＮＲを低複雑度で推定する開ループモード選択が実現される。そして、これら推定されたセグメントＳＮＲ値を用いて、閉ループモード選択と同様にモード選択が実行される。

本発明の実施例は、ＡＭＲ−ＷＢ＋の開ループモード選択で行われるような古典的特徴＋分類子の方策を採用するものではない。その代わりに、本発明の実施例は、各々のモードの品質測定値を推定し、最良の品質をもたらすモードを選択することを試みるものである。

以下、本発明の実施例について、添付の図面を参照してより詳細に説明する。

図１は、第１の符号化アルゴリズム及び第２の符号化アルゴリズムのうちの１つを選択するための装置の一実施例を示す模式図である。図２は、音声信号を符号化するための装置の一実施例を示す模式図である。図３は、第１の符号化アルゴリズム及び第２の符号化アルゴリズムのうちの１つを選択するための装置の一実施例を示す模式図である。ＳＮＲの可能な表現を示す図である。セグメントＳＮＲの可能な表現を示す図である。

以下の説明においては、異なる図における同様の要素・ステップは、同じ参照符号で呼ぶものとする。各図においては、信号接続など本発明の理解に必要でない特徴は省略している。

図１は、音声信号の部分を符号化するためのエンコーダとして、第１の符号化アルゴリズム、例えばＴＣＸアルゴリズム、及び第２の符号化アルゴリズム、例えばＡＣＥＬＰアルゴリズム、のうちの１つを選択するための装置１０を示す。装置１０は、当該信号部分についての第１の品質測定値を推定するための第１の推定部１２を含む。第１の品質測定値は、第１の符号化アルゴリズムに関連付けられる。換言すると、第１の推定部１２は、第１の符号化アルゴリズムを用いて音声信号の部分を実際に符号化及び復号することなく、仮に第１の符号化アルゴリズムを用いて符号化及び復号された場合に当該音声信号の部分が有するであろう第１の品質測定値を推定する。装置１０は、当該信号部分についての第２の品質測定値を推定するための第２の推定部１４を含む。第２の品質測定値は、第２の符号化アルゴリズムに関連付けられる。換言すると、第２の推定部１４は、第２の符号化アルゴリズムを用いて音声信号の部分を実際に符号化及び復号することなく、仮に第２の符号化アルゴリズムを用いて符号化及び復号された場合に当該音声信号の部分が有するであろう第２の品質測定値を推定する。更に、装置１０は、第１の品質測定値及び第２の品質測定値間の比較に基づいて第１の符号化アルゴリズム又は第２の符号化アルゴリズムを選択するための制御部１６を含む。制御部は、選択された符号化アルゴリズムを示す出力部１８を含み得る。

一実施例においては、第１の符号化アルゴリズムに関連付けられた第１の特性は、音楽的及びノイズ的な信号に対してより好適であり、第２の符号化アルゴリズムに関連付けられた第２の符号化特性は、スピーチ的及びトランジェント的な信号に対してより好適である。本発明の実施例においては、第１の符号化アルゴリズムは、音声符号化アルゴリズム、例えば変換符号化アルゴリズム、例えばＭＤＣＴ（modified discrete cosine transform：修正離散余弦変換）符号化アルゴリズム、例えばＴＣＸ（transform coding excitation：変換符号化励振）符号化アルゴリズムである。他の変換符号化アルゴリズムが、ＦＦＴ変換又は他の変換若しくはフィルタバンクに基づいていてもよい。本発明の実施例においては、第２の符号化アルゴリズムは、スピーチ符号化アルゴリズム、例えばＣＥＬＰ（code excited linear prediction：コード励振線形予測）符号化アルゴリズム、例えばＡＣＥＬＰ（algebraic code excited linear prediction：代数コード励振線形予測）符号化アルゴリズムである。

実施例においては、品質測定値は、知覚的な品質測定値を表す。第１の符号化アルゴリズムの主観的な品質の推定値である単一の値と、第２の符号化アルゴリズムの主観的な品質の推定値である単一の値とを計算することができる。これら２つの値の比較に基づいて、最良の推定主観的品質をもたらす符号化アルゴリズムを選ぶことができる。これはＡＭＲ−ＷＢ＋規格で行われるものとは異なっている。後者においては、信号についての様々な異なる特性を表す多数の特徴を計算し、それから分類子を適用して、どのアルゴリズムを選ぶべきかを決定していた。

実施例においては、重み付き音声信号、即ち音声信号を重み付けしたものの部分に基づいてそれぞれの品質測定値を推定する。実施例においては、重み付き音声信号は、重み付け関数によってフィルタリングされた音声信号として定義することができ、ここで、重み付け関数は、重み付きＬＰＣフィルタＡ（ｚ／ｇ）であり、Ａ（ｚ）はＬＰＣフィルタ、ｇは０．６８といった０と１との間の重みである。このようにして知覚的な品質の良好な測定値を得ることができることが判明した。なお、ＬＰＣフィルタＡ（ｚ）及び重み付きＬＰＣフィルタＡ（ｚ／ｇ）は、前処理の段階で決定され、これらは両方の符号化アルゴリズムにおいても用いられる。他の実施例においては、重み付け関数は、線形フィルタ、ＦＩＲフィルタ又は線形予測フィルタであっても良い。

実施例においては、品質測定値は、重み付き信号領域におけるセグメントＳＮＲ（信号対ノイズ比）である。重み付き信号領域におけるセグメントＳＮＲは、知覚的な品質の良好な測定値を表し、従って有益な態様で品質測定値として用いることができることが判明した。これはまた、符号化パラメータを推定するためにＡＣＥＬＰ及びＴＣＸの両方の符号化アルゴリズムにおいて用いられる品質測定値である。

別の品質測定値として、重み付き信号領域におけるＳＮＲがある。他の品質測定値としては、セグメントＳＮＲ、重み付けされない信号領域における、即ち（重み付き）ＬＰＣ係数によってフィルタリングされていない音声信号の対応の部分のＳＮＲがあり得る。他の品質測定値としては、ケプストラム歪み又はノイズ対マスク比（ＮＭＲ）があり得る。

一般的に、ＳＮＲは、元の音声信号及び処理された音声信号（例えばスピーチ信号）をサンプルごとに比較する。その目的は、入力波形を再現する波形コーダの歪みを測定することである。ＳＮＲは図５ａに示すように算出することができ、ここで、ｘ（ｉ）及びｙ（ｉ）は、ｉのインデックスを付した元のサンプル及び処理されたサンプルであり、Ｎは、サンプルの合計数である。セグメントＳＮＲは、信号全体に対して働く代わりに、短いセグメントのＳＮＲ値の平均値、例えば１〜１０ｍｓ、例えば５ｍｓ、を算出する。ＳＮＲは、図５ｂに示すように算出することができ、Ｎ及びＭは、それぞれセグメント長及びセグメント数である。

本発明の実施例においては、当該音声信号の部分は、音声信号を窓掛けする（window）ことで得られる音声信号のフレームを表し、音声信号を窓掛けすることによって得られる複数の連続したフレームについて適切な符号化アルゴリズムの選択を実行する。以下、本願明細書においては、音声信号に関し、「部分」及び「フレーム」の用語は交換可能な態様で用いる。実施例においては、各々のフレームはサブフレームに分割され、各々のサブフレームについてのＳＮＲをｄＢに換算して算出し、ｄＢでのサブフレームＳＮＲの平均値を算出することでセグメントＳＮＲを各々のフレームについて推定する。

従って、実施例においては、推定されるのは、入力音声信号と復号された音声信号との（セグメントの）ＳＮＲではなく、重み付けされた入力音声信号と重み付けされた復号音声信号との（セグメントの）ＳＮＲを推定する。この（セグメントの）ＳＮＲに関する限り、ＡＭＲ−ＷＢ＋規格（２００４年１２月の国際規格３ＧＰＰＴＳ２６．２９０Ｖ６．１．０）の５．２．３章を参照することができる。

本発明の実施例においては、重み付き音声信号の部分のエネルギーと、当該信号部分をそれぞれのアルゴリズムで符号化した際に導入される推定歪みとに基づいて、それぞれの品質測定値を推定し、ここで、第１及び第２の推定部は、重み付き音声信号のエネルギーに依存する推定歪みを決定するように構成される。

本発明の実施例においては、当該音声信号の部分を量子化する際に第１の符号化アルゴリズムにおいて用いられる量子化器によって導入される推定量子化器歪みを決定し、重み付き音声信号の部分のエネルギーと、推定量子化器歪みとに基づいて第１の品質測定値を決定する。このような実施例においては、第１の符号化アルゴリズムで用いられる量子化器及びエントロピーエンコーダによって符号化された際に音声信号の部分が所与の目標ビットレートをもたらすように音声信号の部分についてのグローバルゲインを推定することができ、ここで、推定された量子化器歪みは、推定グローバルゲインに基づいて決定される。このような実施例においては、推定された量子化器歪みは、推定されたゲインのパワーに基づいて決定することができる。第１の符号化アルゴリズムにおいて用いられる量子化器が一様スカラ量子化器である場合、第１の推定部は、Ｄ＝Ｇ^＊Ｇ／１２の式を用いて推定量子化器歪みを決定するように構成することができ、ここで、Ｄは、推定された量子化器歪みであり、Ｇは、推定されたグローバルゲインである。第１の符号化アルゴリズムが別の量子化器を用いた場合、量子化器歪みは、異なる態様でグローバルゲインから決定しても良い。

発明者等は、ＴＣＸアルゴリズムといった第１の符号化アルゴリズムを用いて音声信号の部分を符号化及び復号した時に得られるセグメントＳＮＲといった品質測定値は、上述の特徴を任意の組み合わせで用いることによって適切な態様で推定することができることを認識するに至った。

本発明の実施例においては、第１の品質測定値は、セグメントＳＮＲであり、セグメントＳＮＲを推定するには、音声信号の部分における複数のサブ部分の各々に関連付けられた推定ＳＮＲを、重み付き音声信号の対応のサブ部分のエネルギーと、推定された量子化器歪みとに基づいて算出し、重み付き音声信号の部分におけるサブ部分に関連付けられたＳＮＲの平均を算出することで、重み付き音声信号の部分についての推定セグメントＳＮＲを得る。

本発明の実施例においては、適応コードブック（adaptive codebook）を用いて音声信号の部分を符号化する際に第２の符号化アルゴリズムにおいて用いられる適応コードブックによって導入される推定適応コードブック歪みを決定し、重み付き音声信号の部分のエネルギーと、推定適応コードブック歪み（estimated adaptive codebook distortion）とに基づいて第２の品質測定値を推定する。

このような実施例においては、音声信号の部分における複数のサブ部分の各々について、重み付き音声信号のサブ部分を、前処理の段階で決定されたピッチラグの分だけ過去へずらしたものに基づいて、適応コードブックを近似することができ、重み付き音声信号の部分のサブ部分と、近似された適応コードブックとの誤差が最小になるように適応コードブックゲインを推定することができ、重み付き音声信号の部分のサブ部分と、適応コードブックゲインでスケーリング（scale）した近似適応コードブックとの誤差のエネルギーに基づいて推定適応コードブック歪みを決定することができる。

本発明の実施例においては、音声信号の部分の各サブ部分について決定される推定適応コードブック歪みを一定の因数だけ減少させることによって、第２の符号化アルゴリズムにおける新規コードブックによって達成される歪みの減少を考慮することができる。

本発明の実施例においては、第２の品質測定値は、セグメントＳＮＲであり、セグメントＳＮＲを推定するには、各々のサブ部分に関連付けられた推定ＳＮＲを、重み付き音声信号の対応のサブ部分のエネルギーと、推定された適応コードブック歪みとに基づいて算出し、サブ部分に関連付けられたＳＮＲの平均を算出することで、推定セグメントＳＮＲを得る。

本発明の実施例においては、重み付き音声信号の部分を、前処理の段階で決定されたピッチラグの分だけ過去へずらしたものに基づいて、適応コードブックを近似し、重み付き音声信号の部分と、近似された適応コードブックとの誤差が最小になるように適応コードブックゲインを推定し、重み付き音声信号の部分と、適応コードブックゲインでスケーリングした近似適応コードブックとの間のエネルギーに基づいて推定適応コードブック歪みを決定する。これにより、推定適応コードブック歪みを低複雑度で決定することができる。

発明者等は、ＡＣＥＬＰアルゴリズムといった第２の符号化アルゴリズムを用いて音声信号の部分を符号化及び復号した時に得られるセグメントＳＮＲといった品質測定値は、上述の特徴を任意の組み合わせで用いることによって適切な態様で推定することができることを認識するに至った。

本発明の実施例においては、推定品質測定値同士の比較においてヒステリシスメカニズムを用いる。これによって、どのアルゴリズムを用いるべきかの決定をより安定したものにすることができる。ヒステリシスメカニズムは、推定品質測定値（例えばこれらの間の差）及びその他のパラメータ、例えば、以前の決定についての統計値、一時的定常フレームの数、フレームにおけるトランジェント等に依存し得る。このようなヒステリシスメカニズムに関する限り、例えば国際公開第２０１２／１１０４４８号パンフレットを参照することができる。

本発明の実施例においては、音声信号を符号化するためのエンコーダは、装置１０、第１の符号化アルゴリズムを実行するためのステージ、及び第２の符号化アルゴリズムを実行するためのステージを含み、エンコーダは、制御部１６による選択に応じて、第１の符号化アルゴリズム又は第２の符号化アルゴリズムを用いて音声信号の部分を符号化するように構成される。本発明の実施例においては、符号化及び復号するためのシステムは、音声信号の部分を符号化したものと、アルゴリズムであって、それを用いて音声信号の部分を符号化し且つ音声信号の部分を符号化したものを復号するために用いられるアルゴリズムの指示とを受け取るように構成されたエンコーダ及びデコーダを含む。

図３を参照して第１の推定部１２及び第２の推定部１４の実施例を詳細に説明する前に、図２を参照してエンコーダ２０の実施例を説明する。

エンコーダ２０は、第１の推定部１２、第２の推定部１４、制御部１６、前処理部２２、スイッチ２４、ＴＣＸアルゴリズムを実行するように構成された第１のエンコーダステージ２６、ＡＣＥＬＰアルゴリズムを実行するように構成された第２のエンコーダステージ２８、及び出力インターフェース３０を含む。前処理部２２は、共通のＵＳＡＣエンコーダの一部であっても良く、ＬＰＣ係数、重み付きＬＰＣ係数、重み付き音声信号、及び１組のピッチラグを出力するように構成され得る。なお、これらのパラメータ全ては、両方の符号化アルゴリズム、即ちＴＣＸアルゴリズム及びＡＣＥＬＰアルゴリズムにおいて用いられる。これにより、このようなパラメータは、追加的に開ループモード決定のために計算される必要がない。既に計算されたパラメータを開ループモード決定において用いることには、複雑度を節約するという利点がある。

入力ラインに対して入力音声信号４０が出力される。入力音声信号４０は、第１の推定部１２、前処理部２２及び両方のエンコーダステージ２６，２８に入力される。前処理部２２は、入力された音声信号を従来の態様で処理し、ＬＰＣ係数と、重み付きＬＰＣ係数４２とを導き出し、重み付きＬＰＣ係数４２で音声信号４０をフィルタリングして重み付き音声信号４４を得る。前処理部２２は、重み付きＬＰＣ係数４２、重み付き音声信号４４、及び１組のピッチラグ４８を出力する。当業者であれば理解できるように、重み付きＬＰＣ係数４２及び重み付き音声信号４４は、フレーム又はサブフレームへとセグメント化され得る。このセグメント化は、適切な態様で音声信号を窓掛けすることで得ることができる。

本発明の実施例においては、量子化されたＬＰＣ係数又は量子化された重み付きＬＰＣ係数を用いることができる。従って、「ＬＰＣ係数」という用語は、「量子化されたＬＰＣ係数」をも含むことを意図したものであり、「重み付きＬＰＣ係数」という用語は、「重み付きの量子化されたＬＰＣ係数」をも含むことを意図したものであることが理解される。これに関連して、ＵＳＡＣのＴＣＸアルゴリズムは、量子化された重み付きＬＰＣ係数を用いてＭＣＤＴスペクトルを形状付けることに注目することが有益である。

第１の推定部１２は、音声信号４０、重み付きＬＰＣ係数４２、及び重み付き音声信号４４を受け取り、これらに基づいて第１の品質測定値４６を推定し、第１の品質測定値を制御部１６に出力する。第２の推定部１６は、重み付き音声信号４４及び１組のピッチラグ４８を受け取り、これらに基づいて第２の品質測定値５０を推定し、第２の品質測定値５０を制御部１６に出力する。当業者には分かるように、重み付きＬＰＣ係数４２、重み付き音声信号４４、及び１組のピッチラグ４８は、これに先立つモジュール（即ち前処理部２２）で既に計算されており、コストなしで利用可能である。

制御部は、受け取った品質測定値同士の比較に基づいて、ＴＣＸアルゴリズム又はＡＣＥＬＰアルゴリズムを選択する決定を行う。上述のように、制御部は、どのアルゴリズムを用いるかを決定する際にヒステリシスメカニズムを用いることができる。第１のエンコーダステージ２６又は第２のエンコーダステージ２８の選択は、図２においては、制御部１６により出力される制御信号５２によって制御されるスイッチ２４として模式的に示している。制御信号５２は、第１のエンコーダステージ２６又は第２のエンコーダステージ２８のいずれを用いるべきかを示す。制御信号５２に基づいて、図２において矢印５４で模式的に示す必要な信号（少なくともＬＰＣ係数、重み付きＬＰＣ係数、音声信号、重み付き音声信号、１組のピッチラグを含む）を、第１のエンコーダステージ２６又は第２のエンコーダステージ２８のいずれかに入力する。選択されたエンコーダステージは、関連付けられた符号化アルゴリズムを適用し、符号化された表現５６又は５８を出力インターフェース３０に出力する。出力インターフェース３０は、符号化された音声信号を出力するように構成することができ、この符号化された音声信号は、他のデータに加えて、符号化された表現５６又は５８、ＬＰＣ係数又は重み付きＬＰＣ係数、選択された符号化アルゴリズムについてのパラメータ、及び選択された符号化アルゴリズムについての情報を含むことができる。

次に、第１及び第２の品質測定値が、重み付き信号領域におけるセグメントＳＮＲである、第１及び第２の品質測定値を推定するための特定の実施例について図３を参照しながら説明する。図３は、第１の推定部１２及び第２の推定部１４並びにその機能を、それぞれの推定をステップごとに示すフローチャートの形で示す。

ＴＣＸセグメントＳＮＲの推定
第１の（ＴＣＸ）推定部は、音声信号４０（入力信号）、重み付きＬＰＣ係数４２及び重み付き音声信号４４を入力として受け取る。

ステップ１００において、音声信号４０を窓掛けする窓を取る。この窓掛けするステップは、１０ｍｓ低重複正弦窓によって行うことができる。過去のフレームがＡＣＥＬＰである場合、ブロックサイズは５ｍｓだけ増大させることができ、窓の左側は矩形とすることができ、ＡＣＥＬＰ合成フィルタの窓掛けされたゼロインパルス応答を窓掛けされた入力信号から除去することができる。これはＴＣＸアルゴリズムにおいて行われるものと同様である。音声信号の部分を表す音声信号４０のフレームがステップ１００から出力される。

ステップ１０２において、窓掛けされた音声信号、即ち結果として得られるフレームを、ＭＤＣＴ（修正離散余弦変換）によって変換する。ステップ１０４において、重み付きＬＰＣ係数によってＭＤＣＴスペクトルを形状付けることによってスペクトル形状付けを行う。

ステップ１０６において、グローバルゲインＧが、エントロピーコーダ、例えば算術コーダで符号化された際にゲインＧで量子化された重み付きスペクトルが所与の目標Ｒをもたらすように推定される。１つのゲインがフレーム全体について決定されることから、「グローバルゲイン」という用語を用いる。

次に、グローバルゲイン推定の一実現例について説明する。このグローバルゲイン推定は、ＴＣＸ符号化アルゴリズムが、算術エンコーダを伴うスカラ量子化器を用いる実施例において適当である。このような算術エンコーダを伴うスカラ量子化器がＭＰＥＧＵＳＡＣ規格において想定されている。

初期化
まず、ゲイン推定で用いられる変数を以下のように初期化する。

１．ｅｎ［ｉ］＝９．０＋１０．０^＊ｌｏｇ１０（ｃ［４^＊ｉ＋０］＋ｃ［４^＊ｉ＋１］＋ｃ［４^＊ｉ＋２］＋ｃ［４^＊ｉ＋３］）を設定する。

ここで、０＜＝ｉ＜Ｌ/４であり、ｃ［］は、量子化されるべき係数のベクトルであり、Ｌは、ｃ［］の長さである。

２．ｆａｃ＝１２８、オフセット＝ｆａｃ、及び、目標＝任意の値（例えば１０００）を設定する。

繰り返し
次に、以下の動作ブロックをＮＩＴＥＲ回（例えば、ここではＮＩＴＥＲ＝１０）だけ実行する。

１．ｆａｃ＝ｆａｃ／２
２．オフセット＝オフセット−ｆａｃ
３．ｅｎｅｒ＝０
４．ｉ（０＜＝ｉ＜Ｌ／４）につき以下を行う。

ｅｎ［ｉ］−オフセット＞３．０であれば、ｅｎｅｒ＝ｅｎｅｒ＋ｅｎ［ｉ］−オフセット
５．ｅｎｅｒ＞目標であれば、オフセット＝オフセット＋ｆａｃ
繰り返しの結果がオフセット値である。繰り返しの後、グローバルゲインは、Ｇ＝１０＾（オフセット／２０）と推定される。

グローバルゲインを推定する特定の態様は、用いられる量子化器及びエントロピーコーダに応じて変わり得る。ＭＰＥＧＵＳＡＣ規格においては、算術エンコーダを伴うスカラ量子化器が想定されている。他のＴＣＸ方策では異なる量子化器を用いても良く、当業者であれば、そのような異なる量子化器のためのグローバルゲインをどのように推定するかを理解できる。例えば、ＡＭＲ−ＷＢ＋規格では、ＲＥ８格子量子化器の使用を想定している。そのような量子化器については、２００４年１２月の３ＧＰＰＴＳ２６．２９０Ｖ６．１．０の３４頁の５．３．５．７章に記載されたようにグローバルゲインの推定値を推定することができ、ここでは固定目標ビットレートが想定されている。

ステップ１０６にてグローバルゲインを推定した後、ステップ１０８において歪み推定を行う。より具体的には、推定されたグローバルゲインに基づいて量子化器歪みを近似する。本実施例においては、一様スカラ量子化器を用いるものとする。そうすると、Ｄ＝Ｇ^＊Ｇ/１２という単純な式で量子化器歪みが決定され、ここで、Ｄは、決定された量子化器歪みを表し、Ｇは、推定されたグローバルゲインを表す。これは、一様スカラ量子化器歪みの高レートの近似に対応する。

決定された量子化器歪みに基づいて、ステップ１１０においてセグメントＳＮＲ算出を実行する。フレームにおける各々のサブフレームにおけるＳＮＲは、重み付き音声信号エネルギーと、サブフレームにおいて一定であると想定される歪みＤとの比として算出される。例えば、フレームを４つの連続したサブフレームに分割する（図４を参照）。この場合、セグメントＳＮＲは、４つのサブフレームのＳＮＲの平均値であり、ｄＢで示すことができる。

この方策によって、ＴＣＸアルゴリズムを用いて対象のフレームを実際に符号化及び復号した際に得られるであろう第１のセグメントＳＮＲを推定することが可能となり、しかも音声信号を実際に符号化及び復号する必要がないため、複雑度が大幅に低減され、計算時間が短縮される。

ＡＣＥＬＰセグメントＳＮＲの推定
第２の推定部１４は、前処理部２２で既に計算された、重み付き音声信号４４及び１組のピッチラグ４８を受け取る。

ステップ１１２に示すように、各々のサブフレームにおいて、重み付き音声信号及びピッチラグＴを単純に用いて適応コードブックを近似する。適応コードブックは、
ｘｗ（ｎ−Ｔ），ｎ＝０，…，Ｎ
で近似され、ここでｘｗは、重み付き音声信号であり、Ｔは、対応のサブフレームのピッチラグであり、Ｎは、サブフレーム長である。従って、適応コードブックは、サブフレームをＴだけ過去へずらしたものを用いることで近似される。このように、本発明の実施例においては、適応コードブックは極めて単純な態様で近似される。

ステップ１１４において、各々のサブフレームについての適応コードブックゲインを決定する。より具体的には、各々のサブフレームにおいて、コードブックゲインＧは、重み付き音声信号と近似されて適応コードブックとの誤差を最小限にするように推定される。これは、単純に、各々のサンプルについての両方の信号間の差を比較し、これらの差の合計が最小になるようなゲインを求めることによって行うことができる。

ステップ１１６において、各々のサブフレームについての適応コードブック歪みを決定する。各々のサブフレームにおいて、適応コードブックによって導入された歪みＤは、単純に、重み付き音声信号と、ゲインＧでスケーリングされた近似適応コードブックとの誤差のエネルギーである。

ステップ１１６において決定される歪みを、任意のステップ１１８において調節することで新規コードブックを考慮することができる。ＡＣＥＬＰアルゴリズムで用いられる新規コードブックの歪みは、単純に一定の値として推定することができる。本発明の記載の実施例においては、単純に、新規コードブックが一定の因数だけ歪みＤを減少させると想定される。従って、各々のサブフレームについてステップ１１６において得られる歪みは、ステップ１１８において、一定の因数、例えば０〜１のオーダの一定の因数、例えば０．０５５によって乗算することができる。

ステップ１２０において、セグメントＳＮＲの計算を行う。各々のサブフレームにおいて、ＳＮＲは、重み付き音声信号エネルギーと歪みＤとの比として算出される。この場合、セグメントＳＮＲは、４つのサブフレームのＳＮＲの平均値であり、ｄＢで示すことができる。

この方策によって、ＡＣＥＬＰアルゴリズムを用いて対象のフレームを実際に符号化及び復号した際に得られるであろう第２のＳＮＲを推定することが可能となり、しかも音声信号を実際に符号化及び復号する必要がないため、複雑度が大幅に低減され、計算時間が短縮される。

第１の推定部１２及び第２の推定部１４は、推定されたセグメントＳＮＲ４６，５０を制御部１６に出力し、制御部１６は、推定されたセグメントＳＮＲ４６，５０に基づいて、音声信号における関連付けられた部分についてどのアルゴリズムを用いるべきかの決定を行う。制御部は、ヒステリシスメカニズムを任意に用いることで決定をより安定したものにすることができる。例えば、閉ループ決定におけるのと同じヒステリシスメカニズムを僅かに異なる調整パラメータとともに用いても良い。このようなヒステリシスメカニズムは、「ｄｓｎｒ」の値を計算するものとすることができ、この値は、推定されたセグメントＳＮＲ（例えばこれらの間の差）及びその他のパラメータ、例えば以前の決定についての統計値、一時的定常フレームの数、フレームにおけるトランジェント等に依存し得る。

ヒステリシスメカニズムを用いない場合、制御部は、より高い推定ＳＮＲを有する符号化アルゴリズムを選択することができ、即ち、第２の推定ＳＮＲが第１の推定ＳＮＲよりも高い場合にはＡＣＥＬＰが選択され、第１の推定ＳＮＲが第２の推定ＳＮＲよりも高い場合にはＴＣＸが選択される。ヒステリシスメカニズムを用いる場合、制御部は、以下の決定規則に従って符号化アルゴリズムを選択することができ、ここで、ａｃｅｌｐ＿ｓｎｒは、第２の推定ＳＮＲであり、ｔｃｘ＿ｓｎｒは、第１の推定ＳＮＲである。

ａｃｅｌｐ＿ｓｎｒ＋ｄｓｎｒ＞ｔｃｘ＿ｓｎｒであればＡＣＥＬＰを選択し、そうでなければＴＣＸを選択する。

従って、本発明の実施例によって、単純で正確な態様で、セグメントＳＮＲを推定して適切な符号化アルゴリズムを選択することが可能になる。

上述の実施例においては、セグメントのＳＮＲは、それぞれのサブフレームについて推定されたＳＮＲの平均値を算出することで推定される。代替的な実施例では、フレームをサブフレームに分割することなくフレーム全体のＳＮＲを推定しても良い。

本発明の実施例によって、閉ループ選択において必要な或る数のステップが省略されるため、閉ループ選択と比べて計算時間を大幅に短縮することが可能になる。

従って、本発明の方策によって、適切な符号化アルゴリズムを良好な性能を伴って選択することを可能にしながら、多数のステップ及びそれに関連した計算時間を節約することができる。

装置の説明でいくつかの局面を記載したが、これらの局面は対応の方法の記載をも表すものであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で記載した局面は、対応の装置の対応のブロック若しくは項目又は特徴の記載をも表す。

本願明細書に記載された装置の実施例及びその特徴は、記載された機能を提供するように構成又はプログラムされたコンピュータ、１つ以上のプロセッサ、１つ以上のマイクロプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）等、又はそれらの組み合わせによって実現することができる。

方法ステップのいくつか又は全ては、ハードウェア装置、例えば、マイクロプロセッサ、プログラム可能コンピュータ又は電子回路によって（又はこれらを用いて）実行され得る。いくつかの実施例においては、最も重要な方法ステップの１つ以上が、そのような装置によって実行され得る。

特定の実現要件に応じて、本発明の実施例はハードウェア又はソフトウェアによって実現され得る。その実現は、非一時的記憶媒体、例えば、デジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ，ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ及びＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリであって、電子的に読み出し可能な制御信号を格納しており、プログラム可能なコンピュータシステムと協働する（又は協働可能である）ことによりそれぞれの方法が実行されるようにするものを用いて実行され得る。従って、デジタル記憶媒体は、コンピュータ読み取り可能であり得る。

本発明のいくつかの実施例は、プログラム可能なコンピュータシステムと協働可能であることによって本願明細書に記載の方法の１つが実行されるようにする、電子的に読み出し可能な制御信号を有するデータキャリアを含む。

一般的には、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品であって、このコンピュータプログラム製品がコンピュータにおいて実行されるときに上記プログラムコードが上記方法の１つを実行するように動作するものとして実現され得る。プログラムコードは、例えば、機械読み取り可能キャリアに格納され得る。

他の実施例は、機械読み取り可能キャリアに格納された、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

従って、換言すると、本発明の方法の一実施例は、コンピュータプログラムであって、このコンピュータプログラムがコンピュータにおいて実行されるときに、本願明細書に記載の方法の１つを実行するためのプログラムコードを有するものである。

従って、本発明の方法の更なる実施例は、データキャリア（又はデジタル記憶媒体若しくはコンピュータ読み取り可能媒体）であって、そこに記録された、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを含むものである。データキャリア、デジタル記憶媒体又は記録された媒体は、典型的には、タンジブル及び／又は非一時的である。

従って、本発明の方法の更なる実施例は、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、インターネットを介したデータ通信接続を介して転送されるように構成され得る。

更なる実施例は、本願明細書に記載の方法の１つを実行するように構成又はプログラムされた処理手段、例えばコンピュータ又はプログラム可能論理装置を含む。

更なる実施例は、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

本発明の更なる実施例は、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを受信機へ（例えば電子的又は光学的に）転送するように構成された装置又はシステムを含む。受信機は、例えば、コンピュータ、移動機器、メモリデバイス等であり得る。装置又はシステムは、例えば、コンピュータプログラムを受信機へ転送するためのファイルサーバを含み得る。

いくつかの実施例においては、プログラム可能論理装置（例えば、フィールドプログラマブルゲートアレイ）を用いて、本願明細書に記載の方法におけるいくつか又は全ての機能を実行しても良い。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本願明細書に記載の方法の１つを実行しても良い。一般的に、当該方法は、どのようなハードウェア装置によって実行されても良い。

上述の各実施例は、単に本発明の原理を例示するものである。本願明細書に記載の構成及び詳細を変更及び変形したものが当業者には明らかであることが理解される。従って、本願明細書における各実施例の記載及び説明として提示された特定の詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図される。

一般的に、ＳＮＲは、元の音声信号及び処理された音声信号（例えばスピーチ信号）をサンプルごとに比較する。その目的は、入力波形を再現する波形コーダの歪みを測定することである。ＳＮＲは図４Ａに示すように算出することができ、ここで、ｘ（ｉ）及びｙ（ｉ）は、ｉのインデックスを付した元のサンプル及び処理されたサンプルであり、Ｎは、サンプルの合計数である。セグメントＳＮＲは、信号全体に対して働く代わりに、短いセグメントのＳＮＲ値の平均値、例えば１〜１０ｍｓ、例えば５ｍｓ、を算出する。ＳＮＲは、図４Ｂに示すように算出することができ、Ｎ及びＭは、それぞれセグメント長及びセグメント数である。

Claims

音声信号（４０）の部分を符号化するための第１の特性を有する第１の符号化アルゴリズム及び第２の特性を有する第２の符号化アルゴリズムのうちの１つを選択することによって前記音声信号（４０）の部分を符号化したものを得るための装置（１０）であって、
前記第１の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第１の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第１の品質測定値を推定するための第１推定部（１２）と、
前記第２の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第２の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第２の品質測定値を推定するための第２推定部（１４）と、
前記第１の品質測定値及び前記第２の品質測定値の比較に基づいて前記第１の符号化アルゴリズム又は前記第２の符号化アルゴリズムを選択するための制御部（１６）と、を備える、装置。
請求項１に記載の装置（１０）であって、前記第１の符号化アルゴリズムは、音楽的及びノイズ的な信号に対してより好適な符号化アルゴリズムであり、前記第２の符号化アルゴリズムは、スピーチ的及びトランジェント的な信号に対してより好適な符号化アルゴリズムである、装置。
請求項２に記載の装置（１０）であって、前記第１の符号化アルゴリズムは、変換符号化アルゴリズム、ＭＤＣＴ（修正離散余弦変換）ベースの符号化アルゴリズム又はＴＣＸ（変換符号化励振）符号化アルゴリズムであり、前記第２の符号化アルゴリズムは、ＣＥＬＰ（コード励振線形予測）符号化アルゴリズム又はＡＣＥＬＰ（代数符号励振線形予測）符号化アルゴリズムである、装置。
請求項１から請求項３のうちの１つに記載の装置（１０）であって、前記第１の推定部及び前記第２の推定部は、前記音声信号を重み付けしたものの部分に基づいてそれぞれの前記品質測定値を推定するように構成される、装置。
請求項１から請求項４のうちの１つに記載の装置（１０）であって、前記第１の品質測定値及び前記第２の品質測定値は、前記音声信号を重み付けしたものの部分のＳＮＲ（信号対ノイズ比）又はセグメントＳＮＲである、装置。
請求項１から請求項５のうちの１つに記載の装置（１０）であって、前記第１の推定部（１２）及び前記第２の推定部（１４）は、前記音声信号を重み付けしたものの部分のエネルギーに基づき、且つ、それぞれの前記アルゴリズムによって前記信号部分を符号化した際に導入される推定歪みに基づいて、それぞれの前記品質測定値を推定するように構成され、前記第１の推定部（１２）及び前記第２の推定部（１４）は、前記音声信号を重み付けしたものの部分のエネルギーに応じて前記推定歪みを決定するように構成される、装置。
請求項１から請求項６のうちの１つに記載の装置（１０）であって、前記第１の推定部（１２）は、前記音声信号の部分を量子化した際に前記第１の符号化アルゴリズムにおいて用いられる量子化器が導入するであろう推定量子化器歪みを決定し、前記音声信号を重み付けしたものの部分のエネルギー及び前記推定量子化器歪みに基づいて前記第１の品質測定値を推定するように構成される、装置。
請求項７に記載の装置（１０）であって、前記第１の推定部（１２）は、前記第１の符号化アルゴリズムにおいて用いられる量子化器及びエントロピーコーダで符号化された際に前記音声信号の部分が所与の目標ビットレートをもたらすように前記音声信号の部分についてのグローバルゲインを推定するように構成され、第１の推定部（１２）は更に、前記推定グローバルゲインに基づいて前記推定量子化器歪みを決定するように構成される、装置。
請求項８に記載の装置（１０）であって、前記第１の推定部（１２）は、前記推定グローバルゲインのパワーに基づいて前記推定量子化器歪みを決定するように構成される、装置。
請求項９に記載の装置（１０）であって、前記第１の符号化アルゴリズムにおいて用いられる量子化器は、一様スカラ量子化器であり、前記第１の推定部（１２）は、Ｄ＝Ｇ^＊Ｇ／１２の式を用いて前記推定量子化器歪みを決定するように構成され、ここで、Ｄは、推定量子化器歪みであり、Ｇは、推定グローバルゲインである、装置。
請求項７から請求項１０のうちの１つに記載の装置（１０）であって、前記第１の品質測定値は、前記重み付き音声信号の部分のセグメントＳＮＲであり、前記第１の推定部（１２）は、前記重み付き音声信号の部分における複数のサブ部分の各々に関連付けられた推定ＳＮＲを、前記重み付き音声信号における対応のサブ部分のエネルギー及び前記推定量子化器歪みに基づいて算出し、前記重み付き音声信号の部分のサブ部分に関連付けられたＳＮＲの平均値を算出することによって前記セグメントＳＮＲを推定して前記重み付き音声信号の部分についての推定セグメントＳＮＲを得るように構成される、装置。
請求項１から請求項１１のうちの１つに記載の装置（１０）であって、前記第２の推定部（１４）は、適応コードブックを用いて前記音声信号の部分を符号化した際に前記第２の符号化アルゴリズムにおいて用いられる前記適応コードブックが導入するであろう推定適応コードブック歪みを決定するように構成され、前記第２の推定部（１４）は、前記音声信号を重み付けしたものの部分のエネルギー及び前記推定適応コードブック歪みに基づいて前記第２の品質測定値を推定するように構成される、装置。
請求項１２に記載の装置（１０）であって、前記音声信号の部分における複数のサブ部分の各々について、前記第２の推定部（１４）は、前記重み付き音声信号のサブ部分を、前処理段階で決定されたピッチラグだけ過去へずらしたものに基づいて前記適応コードブックを近似し、前記重み付き音声信号の部分のサブ部分と近似適応コードブックとの誤差が最小になるように適応コードブックゲインを推定し、前記重み付き音声信号の部分のサブ部分と、前記適応コードブックゲインによってスケーリングされた近似適応コードブックとの誤差のエネルギーに基づいて前記推定適応コードブック歪みを決定するように構成される、装置。
請求項１３に記載の装置（１０）であって、前記第２の推定部（１４）は、更に、前記音声信号の部分における各々のサブ部分について決定された推定適応コードブック歪みを、一定の因数だけ減少させるように構成される、装置。
請求項１３又は請求項１４に記載の装置（１０）であって、前記第２の品質測定値は、前記重み付き音声信号の部分のセグメントＳＮＲであり、前記第２の推定部（１４）は、各々のサブ部分に関連付けられた推定ＳＮＲを、前記重み付き音声信号における対応のサブ部分のエネルギー及び前記推定適応コードブック歪みに基づいて算出し、前記サブ部分に関連付けられたＳＮＲの平均値を算出することによって前記セグメントＳＮＲを推定して前記重み付き音声信号の部分についての推定セグメントＳＮＲを得るように構成される、装置。
請求項１２に記載の装置（１０）であって、前記第２の推定部（１４）は、前記重み付き音声信号の部分を、前処理段階で決定されたピッチラグだけ過去へずらしたものに基づいて前記適応コードブックを近似し、前記重み付き音声信号の部分と近似適応コードブックとの誤差が最小になるように適応コードブックゲインを推定し、前記重み付き音声信号の部分と、前記適応コードブックゲインによってスケーリングされた近似適応コードブックとの誤差のエネルギーに基づいて前記推定適応コードブック歪みを決定するように構成される、装置。
請求項１から請求項１６のうちの１つに記載の装置（１０）であって、前記制御部（１６）は、前記推定品質測定値同士を比較する際にヒステリシスを利用するように構成される、装置。
音声信号の部分を符号化するための装置（２０）であって、請求項１から請求項１７のうちの１つに記載の装置（１０）と、前記第１の符号化アルゴリズムを実行するための第１のエンコーダステージ（２６）と、前記第２の符号化アルゴリズムを実行するための第２のエンコーダステージ（２８）と、を備え、前記符号化するための装置（２０）は、前記制御部（１６）による選択に応じて前記第１の符号化アルゴリズム又は前記第２の符号化アルゴリズムを用いて前記音声信号の部分を符号化するように構成される、符号化するための装置。
符号化及び復号するためのシステムであって、請求項１８に記載の符号化するための装置（２０）と、デコーダと、を備え、前記デコーダは、前記音声信号の部分を符号化したものと、アルゴリズムであって、それを用いて前記音声信号の部分を符号化し且つ前記音声信号の部分を符号化したものを復号するために用いられるアルゴリズムの指示とを受け取るように構成される、システム。
音声信号の部分を符号化するための第１の特性を有する第１の符号化アルゴリズム及び第２の特性を有する第２の符号化アルゴリズムのうちの１つを選択することによって前記音声信号の部分を符号化したものを得るための方法であって、
前記第１の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第１の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第１の品質測定値を推定するステップと、
前記第２の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第２の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第２の品質測定値を推定するステップと、
前記第１の品質測定値及び前記第２の品質測定値の比較に基づいて前記第１の符号化アルゴリズム又は前記第２の符号化アルゴリズムを選択するステップと、を備える、方法。
請求項２０に記載の方法であって、前記第１の符号化アルゴリズムは、音楽的及びノイズ的な信号に対してより好適な符号化アルゴリズムであり、前記第２の符号化アルゴリズムは、スピーチ的及びトランジェント的な信号に対してより好適な符号化アルゴリズムである、方法。
請求項２１に記載の方法であって、前記第１の符号化アルゴリズムは、変換符号化アルゴリズム、ＭＤＣＴ（修正離散余弦変換）ベースの符号化アルゴリズム又はＴＣＸ（変換符号化励振）符号化アルゴリズムであり、前記第２の符号化アルゴリズムは、ＣＥＬＰ（符号励振線形予測）符号化アルゴリズム又はＡＣＥＬＰ（代数符号励振線形予測）符号化アルゴリズムである、方法。
請求項２０から請求項２２のうちの１つに記載の方法であって、前記第１の品質測定値及び前記第２の品質測定値は、前記音声信号を重み付けしたものの部分に基づいて推定される、方法。
請求項２０から請求項２３のうちの１つに記載の方法であって、前記第１の品質測定値及び前記第２の品質測定値は、前記音声信号を重み付けしたものの部分のＳＮＲ（信号対ノイズ比）又はセグメントＳＮＲである、方法。
請求項２０から請求項２４のうちの１つに記載の方法であって、前記音声信号を重み付けしたものの部分のエネルギーに基づき、且つ、それぞれの前記アルゴリズムによって前記信号部分を符号化した際に導入される推定歪みに基づいて、それぞれの前記品質測定値を推定するステップと、前記音声信号を重み付けしたものの部分のエネルギーに応じて前記推定歪みを決定するステップ（１０８，１１６）と、を備える、方法。
請求項２０から請求項２５のうちの１つに記載の方法であって、前記音声信号の部分を量子化した際に前記第１の符号化アルゴリズムにおいて用いられる量子化器が導入するであろう推定量子化器歪みを決定するステップ（１０８）と、前記音声信号を重み付けしたものの部分のエネルギー及び前記推定量子化器歪みに基づいて前記品質測定値を推定するステップと、を備える、方法。
請求項２６に記載の方法であって、前記第１の符号化アルゴリズムにおいて用いられる量子化器及びエントロピーコーダで符号化された際に前記音声信号の部分が所与の目標ビットレートをもたらすように前記音声信号の部分についてのグローバルゲインを推定するステップ（１０６）と、前記推定グローバルゲインに基づいて前記推定量子化器歪みを決定するステップ（１０８）と、を備える、方法。
請求項２７に記載の方法であって、前記推定グローバルゲインのパワーに基づいて前記推定量子化器歪みを決定するステップを備える、方法。
請求項２８に記載の方法であって、前記量子化器は、一様スカラ量子化器であり、前記推定量子化器歪みは、Ｄ＝Ｇ^＊Ｇ／１２の式を用いて決定され、ここで、Ｄは、推定量子化器歪みであり、Ｇは、推定グローバルゲインである、方法。
請求項２６から請求項２９のうちの１つに記載の方法であって、前記第１の品質測定値は、前記重み付き音声信号の部分のＬＰＣフィルタリングしたもののセグメントＳＮＲであり、前記方法は、前記重み付き音声信号の部分における複数のサブ部分の各々に関連付けられた推定ＳＮＲを、前記重み付き音声信号における対応のサブ部分のエネルギー及び前記推定量子化器歪みに基づいて算出し、前記重み付き音声信号の部分のサブ部分に関連付けられたＳＮＲの平均値を算出することによって第１のセグメントＳＮＲを推定して前記重み付き音声信号の部分についての推定セグメントＳＮＲを得るステップを備える、方法。
請求項２０から請求項３０のうちの１つに記載の方法であって、適応コードブックを用いて前記音声信号の部分を符号化した際に前記第２の符号化アルゴリズムにおいて用いられる適応コードブックが導入するであろう推定適応コードブック歪みを決定するステップ（１１６）と、前記音声信号を重み付けしたものの部分のエネルギー及び前記推定適応コードブック歪みに基づいて前記第２の品質測定値を推定するステップと、を備える、方法。
請求項３１に記載の方法であって、前記音声信号の部分における複数のサブ部分の各々について、前記重み付き音声信号のサブ部分を、前処理段階で決定されたピッチラグだけ過去へずらしたものに基づいて前記適応コードブックを近似するステップ（１１２）と、前記重み付き音声信号の部分のサブ部分と近似適応コードブックとの誤差が最小になるように適応コードブックゲインを推定するステップ（１１４）と、前記重み付き音声信号の部分のサブ部分と、前記適応コードブックゲインによってスケーリングされた近似適応コードブックとの誤差のエネルギーに基づいて前記推定適応コードブック歪みを決定するステップ（１１６）と、を備える、方法。
請求項３２に記載の方法であって、前記音声信号の部分における各々のサブ部分について決定された推定適応コードブック歪みを、一定の因数だけ減少させるステップ（１１８）を備える、方法。
請求項３２又は請求項３３に記載の方法であって、前記第２の品質測定値は、前記重み付き音声信号の部分のセグメントＳＮＲであり、前記方法は、各々のサブ部分に関連付けられた推定ＳＮＲを、前記重み付き音声信号における対応のサブ部分のエネルギー及び前記推定適応コードブック歪みに基づいて推定し、前記サブ部分に関連付けられたＳＮＲの平均値を算出することによって前記セグメントＳＮＲを推定して前記重み付き音声信号の部分についての推定セグメントＳＮＲを得るステップを備える、方法。
請求項３１に記載の方法であって、前記重み付き音声信号の部分を、前処理段階で決定されたピッチラグだけ過去へずらしたものに基づいて前記適応コードブックを近似するステップと、前記重み付き音声信号の部分と近似適応コードブックとの誤差が最小になるように適応コードブックゲインを推定するステップと、前記重み付き音声信号の部分と、前記適応コードブックゲインによってスケーリングされた近似適応コードブックとの誤差のエネルギーに基づいて前記推定適応コードブック歪みを決定するステップと、を備える、方法。
請求項２０から請求項３５のうちの１つに記載の方法であって、前記推定品質測定値同士を比較する際にヒステリシスを利用するステップを備える、方法。
コンピュータにおいて実行された際に請求項２０から請求項３６のうちの１つに記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。