JP5374418B2

JP5374418B2 - 音声符号化用適応符号帳ゲインの制御

Info

Publication number: JP5374418B2
Application number: JP2010044661A
Authority: JP
Inventors: ガオ，ヤン
Original assignee: マインドスピードテクノロジーズ，インコーポレイテッド
Priority date: 1998-08-24
Filing date: 2010-03-01
Publication date: 2013-12-25
Anticipated expiration: 2019-08-24
Also published as: TW454170B; EP1110209A1; EP2088586A1; EP2088587A1; CA2341712A1; EP2088585A1; CA2341712C; EP2085966A1; JP2010181893A; EP1110209B1; JP2010181892A; JP2010181889A; JP5519334B2; JP2010181891A; JP5412463B2; JP4995293B2; JP2002523806A; EP2088584A1; JP5476160B2; JP2011203737A

Description

本発明は、一般には音声通信システムにおける音声エンコード及びデコードに関し、特に、ビットレートが限られた通信チャネルで高品質の音声再生を得るために、符号励起線形予測符号化を使用する種々の雑音補償技術に関する。

信号モデル化及びパラメータ推定は、帯域の制限を余儀なくされるなかで音声情報を通信する際に重要な役割を果たす。基本音声音をモデル化するため、音声信号を離散系波形としてサンプル化して、デジタル処理する。ＬＰＣ（線形予測符号化）と称する信号符号化技術の一タイプにおいては、いかなる特定の時間インデクスのおける信号値も、以前の値の線形関数としてモデル化される。後続の信号は、このようにして以前の値に従って線形的に予測できる。その結果、信号を表現するために、一定の予測パラメータを推定し適用することにより十分な信号表現を決定できる。

ＬＰＣ技術を適用すると、従来のソースエンコーダは、音声信号に作動し、通信チャネルを介した従来のソースデコーダとの通信のために、モデル化及びパラメータ情報を抽出する。一旦受信すると、デコーダは、人間の耳には当初の音声のように聞こえる、対をなす再生用の信号を再構築しようと試みる。

一定量の通信チャネル帯域が、モデル化及びパラメータ情報をデコーダに通信するのに必要である。例えば、チャネル帯域が共用されリアルタイムの再構築が必要な実施形態において、所要な帯域を減らすことが有用であると証明されている。しかしながら、従来のモデル化技術を使うと、再生音声における品質上の要件のため、一定水準以下に当該帯域を減らすことには制限がある。

音声信号は、かなりの量の雑音コンテンツを含む。雑音を符号化する従来の方法は、雑音を適切にモデル化をすることがしばしば困難であり、望ましくない割り込みや不連続性の結果を生じ、音声中もそうである。従来の符号励起線形予測符号器のような、合成による分析（analysis by synthesis）の音声符号器は、特に低減されたビットレートにおいては適切に背景雑音を符号化できない。背景雑音を符号化する別のもっと良い方法が、背景雑音を良好な品質で表現するのには望ましい。

図面を参照して本願の他部分を熟考した後に、従来のシステムにおける更なる制限及び欠点が当業者に明らかとなるだろう。

音声信号に対する、合成による分析の符号化手法を使用した音声エンコードシステムにおいて、本発明の種々な態様を見ることが出来る。エンコーダ処理回路が、音声信号分析器を使って音声信号の音声パラメータを識別する。音声信号分析器を、音声信号の多重音声パラメータを識別するのに用いてもよい。これらの音声パラメータを処理すると、音声エンコーダシステムは、音声信号を活性（アクティブ、active）又は不活性（イナクティブ、inactive）な音声コンテンツのいずれかを有するとして分類する。活性な音声コンテントを有するとして音声信号を分類すると、音声信号を表現するために第一の符号化方式を採用する。この符号化情報は、後に、音声デコードシステムを使用して音声信号を再生するのに用いてもよい。

本発明の特定の実施形態において、重み付きフィルタが、音声パラメータを識別するのを助けるために音声信号をフィルタしてもよい。音声エンコードシステムは、識別された音声パラメータを処理し、音声信号の音声コンテントを決定する。音声コンテントを識別すれば、本発明の一実施形態において、符号励起線形予測を使い、音声信号を符号化する。音声信号を音声が不活性であると識別すれば、ランダム励起シーケンスを音声信号の符号化のために使う。更に、音声が不活性な信号に対しては、エネルギー水準及びスペクトル情報を使い音声信号を符号化する。ランダム励起シーケンスを、本発明の音声デコードシステムにおいて発生させても良い。代わりに、ランダム励起シーケンスを、本発明のエンコード側で発生させてもよいし、または符号帳に格納してもよい。必要ならば、ランダム励起シーケンスを発生させた方法を音声エンコードシステムに伝送しても良い。しかし、本発明の他の実施形態において、ランダム励起シーケンスを発生させた方法を省略しても良い。

音声信号における雑音の識別を行い、その後に、雑音補償を使い音声信号のエンコード及びデコードを行う音声コーデックにおいて、本発明の更なる態様を見ることができる。音声信号内の雑音は、音声信号における雑音のような信号、例えば、背景雑音又は実質的に雑音のような特性を有する音声信号それ自体さえも含む。雑音挿入を使い、知覚的に当初の音声信号と実質的に区別できない方法で、音声信号を再生することを助ける。

生の音声信号および再生された音声信号の両方における雑音の検出及び補償を、音声コーデックの種々な部分において、分散型の方法で行ってもよい。例えば、音声信号における雑音の検出を音声コーデックのデコーダでのみで行ってもよい。代替として、エンコーダ及びデコーダで部分的に行ってもよい。再生された音声信号の雑音の補償も、かかる分散方法で行ってもよい。

本発明の他の態様、利点及び新規な特徴は、本発明の以下の詳細な説明を、添付図面と併せて考察したときに明白になるだろう。

図１ａは、本発明によるソースエンコード及びデコードの使用を説明する音声通信システムの概略的なブロック図である。図１ｂは、図１ａのソースエンコード及びデコード機能性を利用した模範的な通信装置を説明する概略的なブロック図である。図２は、図１ａ及び１ｂで説明した音声エンコーダの一実施形態に使用される多段式エンコード手法を説明する機能的なブロック図である。特に、図２は、図１ａ及び１ｂの音声エンコーダの一実施形態で行われる第一の段階の作動を説明するブロック機能図である。図３は、第二の段階の作動のブロック機能図であり、一方、図４は、第三の段階を説明している。図３は、図１ａ及び１ｂで説明した音声エンコーダの一実施形態に使用される多段式エンコード手法を説明する機能的なブロック図である。特に、図２は、図１ａ及び１ｂの音声エンコーダの一実施形態で行われる第一の段階の作動を説明するブロック機能図である。図３は、第二の段階の作動のブロック機能図であり、一方、図４は、第三の段階を説明している。図４は、図１ａ及び１ｂで説明した音声エンコーダの一実施形態に使用される多段式エンコード手法を説明する機能的なブロック図である。特に、図２は、図１ａ及び１ｂの音声エンコーダの一実施形態で行われる第一の段階の作動を説明するブロック機能図である。図３は、第二の段階の作動のブロック機能図であり、一方、図４は、第三の段階を説明している。図５は、図２〜４で説明したものに対応する機能性を有する図１ａ及び１ｂに示した音声デコーダの一実施形態のブロック図である。図６は、本発明に従って作られる音声エンコーダの代替の一実施形態のブロック図である。図７は、図６の音声エンコーダのものに対応する機能性を有する音声デコーダの一実施形態のブロック図である。図８は、一実施形態において、音声信号の識別された知覚的特性により適切なエンコード方式を選択する本発明を描いたブロック機能図である。図９は、本発明の他の実施形態を説明するブロック機能図である。特に、図９は、音声信号が活性な又は不活性な音声コンテンツのいずれを有するかを区別すること、およびその区別により異なったエンコード方式を適用することを説明している。図１０は、本発明の他の実施形態を説明するブロック機能図である。特に、図１０は、適切な音声信号符号化方式を選択するための音声パラメータの処理を説明している。図１１は、雑音と、パルス様の音声と、雑音様の音声との符号化及びデコードに関連する本発明の種々な態様を説明する音声コーデックのシステム図である。図１２は、一実施形態において、雑音検出及び雑音補償回路を利用して、音声信号のエンコード及びデコードを助ける、エンコーダ及びデコーダの両方を有する音声コーデックである本発明を描いたシステム図である。図１３は、一実施形態において、音声コーデックのデコーダにおいて雑音検出及び雑音補償を単独で行う本発明を描いたシステム図である。図１４は、一実施形態において、エンコーダ及びデコーダの両方において雑音検出を行うが、音声コーデックのデコーダにおいて雑音補償を単独で行う音声コーデックである本発明を描いたシステム図である。図１５は、図１１〜１４の種々な実施形態において説明した雑音検出及び補償回路の特定な実施形態である。

（訳注：国際出願時の明細書に記載されている符号等のうち一部について、出願手続の都合上、原文の表記に代えて、~g、^s、ｑバー、ｇドット等と記載した。）
＜関連出願との関係＞
本願は、１９９８年１１月２４日出願の米国特許出願第０９／１９８，４１４に基づいており、その出願は１９９８年９月１８日出願の米国特許出願第０９／１５４，６６２の一部継続出願であり、その出願は１９９８年９月１８日出願の米国特許出願第０９／１５６，８３２の一部継続出願であり、その出願は、１９９８年８月２４日出願の仮出願第６０／０９７，５６９に基づいた１９９８年９月１８日提出の米国特許出願第０９／１５４，６５７の一部継続出願である。これらの全ての出願は、その全体が本願に援用され、本出願の一部を成す。

＜本願への援用＞
下記の出願は、その全体が本願に援用されることによって、本出願の一部を成す。
１）１９９８年８月２４日出願の米国仮出願第６０／０９７，５６９（代理人名簿Nｏ．９８ＲＳＳ３２５）
２）１９９８年１１月２４日出願の米国特許出願第０９／１９８，４１４（代理人名簿Nｏ．９７ＲＳＳ０３９ＣＩＰ）
３）１９９８年９月１８日出願の米国特許出願第０９／１５４，６６２（代理人名簿Nｏ．９７ＲＳＳ３８３）
４）１９９８年９月１８日出願の米国特許出願第０９／１５６，８３２（代理人名簿Nｏ．９７ＲＳＳ０３９）
５）１９９８年９月１８日出願の米国特許出願第０９／１５４，６５７（代理人名簿Nｏ．９８ＲＳＳ３２８）
６）１９９８年９月１８日出願の米国特許出願第０９／１５６，６４９（代理人名簿Nｏ．９５Ｅ０２０）
７）１９９８年９月１８日出願の米国特許出願第０９／１５４，６５４（代理人名簿Nｏ．９８ＲＳＳ３４４）
８）１９９８年９月１８日出願の米国特許出願第０９／１５４，６５３（代理人名簿Nｏ．９８ＲＳＳ４０６）
９）１９９８年９月１８日出願の米国特許出願第０９／１５６，８１４（代理人名簿Nｏ．９８ＲＳＳ３６５）
１０）１９９８年９月１８日出願の米国特許出願第０９／１５６，６４８（代理人名簿Ｎｏ．９８ＲＳＳ２２８）
１１）１９９８年９月１８日出願の米国特許出願第０９／１５６，６５０（代理人名簿Nｏ．９８ＲＳＳ３４３）
１２）１９９８年９月１８日出願の米国特許出願第０９／１５４，６７５（代理人名簿Nｏ．９７ＲＳＳ３８３）
１３）１９９８年９月１８日出願の米国特許出願第０９／１５６，８２６（代理人名簿Nｏ．９８ＲＳＳ３８２）
１４）１９９８年９月１８日出願の米国特許出願第０９／１５４，６６０（代理人名簿Nｏ．９８ＲＳＳ３８４）

図１は、本発明によるソースエンコード及びデコードの使用を説明する音声通信システムの概略的ブロック図である。ここでは、音声通信システム１００が、通信チャネル１０３を通じた音声の通信及び再生をサポートする。通信チャネル１０３は、例えば、線、ファイバー又は光学リンクを備えうるが、一般には、携帯電話機用の実施形態に見ることができるような、共有帯域資源を必要とする多重同時音声交換をしばしばサポートしなければならない無線周波数のリンクを少なくとも部分的に備える。

図示しないが、例えば応答機の機能性、音声メール等を実現するための遅延再生またはプレーバック用の音声情報を一時的に記憶するために、記憶装置を通信チャネル１０３に結合してもよい。同様に、通信チャネル１０３を、例えば、その後のプレーバック用の音声を単に記録し且つ記憶する通信システム１００の単一装置の実施形態におけるような記憶装置と置き換えても良い。

特に、マイクロホン１１１はリアルタイムで音声信号を生成する。マイクロホン１１１は、音声信号をＡ／Ｄ（アナログ−デジタル）変換器１１５へ送達する。Ａ／Ｄ変換器１１５は、音声信号をデジタル形式に変換し、それからデジタル化された音声信号を音声エンコーダ１１７に送達する。

音声エンコーダ１１７は、複数のエンコードモードのうち選択された一のモードを使ってデジタル化された音声をエンコードする。複数のエンコードモードの各々は、結果として生じる再生音声の品質を最適化しようとする特定の技術を利用する。複数のモードのいずれかで作動しながら、音声エンコーダ１１７は一連のモデル化及びパラメータ情報（以下「音声インデクス」と称す）を生成し、音声インデクスをチャネルエンコーダ１１９に送達する。

チャネルエンコーダ１１９は、チャネルデコーダ１３１と整合し、通信チャネル１０３を通じて音声インデクスを送達する。チャネルデコーダ１３１は音声インデクスを音声デコーダ１３３へ転送する。音声エンコーダ１１７のものに対応するモードで作動しながら、音声デコーダ１３３は、Ｄ／Ａ（デジタル−アナログ）変換器１３５を介してスピーカ１３７において当初の音声を音声インデクスからできるだけ正確に再現しようとする
音声エンコーダ１１７は、通信チャネル１０３を通じてデータ率の制限を基にして複数の作動モードのうち、一のモードを適切に選択する。通信チャネル１０３は、チャネルエンコーダ１１９とチャネルデコーダ１３１との間に帯域割り当てを備える。割り当ては、例えば、多くの上記チャネルが、必要に応じて割り当てられ再割り当てされる電話交換網により確立される。かかる一実施形態において、２２．８ｋｂｐｓ（キロビット／秒）チャネル帯域、即ちフルレートチャネル、又は１１．４ｋｂｐｓチャネル帯域、即ちハーフレートチャネルのいずれかを割り当ても良い。

フルレートチャネル帯域割り当てについては、音声エンコーダ１１７は、ビットレート１１．０、８．０、６．６５又は５．８ｋｂｐｓをサポートするエンコードモードを適切に選択しても良い。音声エンコーダ１１７は、ハーフレートチャネルのみが割り当てられた場合は、８．０、６．６５、５．８又は４．５ｋｂｐｓのいずれかのエンコードビットレートモードを適切に選択する。勿論、これらのエンコードビットレート及び前述のチャネル割り当ては、本実施形態の単なる代表的なものである。代替の実施形態の目標を満たすための他の変更例も考慮される。

フル又はハーフレートの割り当てのいずれについても、音声エンコーダ１１７は、割り当てられたチャネルがサポートするであろう最高のエンコードビットレートを使って通信しようとする。割り当てられたチャネルが、騒々しかったり又は騒々しくなった場合、あるいは、最高の又はより高いエンコードビットレートを制限しているのであれば、音声エンコーダ１１７は、より低いビットレートエンコードモードを選択することにより適応する。同様に、通信チャネル１０３がより有利となれば、音声エンコーダ１１７は、より高いビットレートエンコードモードに切り替えることにより適応する。

より低いビットレートエンコードについては、音声エンコーダ１１７は、種々の方式を組み入れて、より良い低ビットレート音声再生を生成する。適用される多くの技術は音声自体の特性を基にしている。例えば、より低いビットレートエンコードでは、音声エンコーダ１１７は、雑音と、無声音声と、音声音声とを区分し、特定の区分に対応する適切なモデル化方式を選択でき且つ実行できるようにする。かくして、音声エンコーダ１１７は、複数のモデル化方式の中から現状の音声に最も適した方式を適切に選択することになる。音声エンコーダ１１７は、下記により詳細に明らかにするように、種々の他の方式をも適用し、モデル化の最適化をする。

図１ｂは、図１ａの機能性を採用した模範的な通信装置のいくつかのバリエーションを説明する略ブロック図である。通信装置１５１は，音声の同時捕獲及び再生用の音声エンコーダ及びデコーダの両方を備える。一般的に単一ハウジング内で、通信装置１５１は、例えば、セルラー電話機機、携帯電話機、演算装置等を備える。代替として、例えばエンコードされた音声情報を記憶する記憶素子を有するいくらかの修正ついては、通信装置１５１は、応答機と、レコーダと、音声メールシステム等とを備えてもよい。

マイクロホン１５５及びＡ／Ｄ変換器１５７は整合し、デジタル音声信号をエンコードシステム１５９に供給する。エンコードシステム１５９は、音声及びチャネルエンコードを行い且つその結果生じる音声情報をチャネルに供給する。供給された音声情報は、遠隔地にある他の通信装置（図示しない）に向けても良い。

音声情報を受信すると、デコードシステム１６５はチャネル及び音声デコードを行い、それからＤ／Ａ変換器１６７及びスピーカ１６９と整合し、当初に捕獲した音声のように聞こえるものを再生する。

エンコードシステム１５９は、音声エンコードを行う音声処理回路１８５及びチャネルエンコードを行うチャネル処理回路１８７の両方を備える。同様に、デコードシステム１６５は、音声デコードを行う音声処理回路１８９及びチャネルデコードを行うチャネル処理回路１９１の両方を備える。

音声処理回路１８５及びチャネル処理回路１８７を別個に説明するが、それらを部分的に又は全体として単一ユニットに組み合しても良い。例えば、音声処理回路１８５及びチャネル処理回路１８７は、単一ＤＳＰ（デジタル信号プロセッサ）及び／又は他の処理回路を共用しても良い。同様に、音声処理回路１８９及びチャネル処理回路１９１を完全に分離しても、又は部分的に又は全体として組み合わせてもよい。更に、全体として又は部分的な組み合わせを音声処理回路１８５及び１８９、チャネル処理回路１８７及び１９１、処理回路１８５、１８７、１８９及び１９１、又は他に適用しても良い。

エンコードシステム１５９及びデコードシステム１６５の両方はメモリ１６１を利用する。音声処理回路１８５は、ソースエンコードプロセスにおいて音声メモリ１７７の固定符号帳１８１及び適応符号帳１８３を利用する。チャネル処理回路１８７は、チャネルメモリ１７５を利用し、チャネルエンコードを行う。同様に、音声処理回路１８９は、ソースデコードプロセスにおいて固定符号帳１８１及び適応符号帳１８３を利用する。チャネル処理回路１８７は、チャネルメモリ１７５を利用し、チャネルデコードを行う。

説明したように音声メモリ１７７を共用しても、そのメモリの別個の複写を処理回路１８５及び１８９に割り当てることができる。同様に、別個のチャネルメモリを処理回路１８７及び１９１の両方に割り当てることができる。メモリ１６１は、処理回路１８５、１８７、１８９及び１９１が利用するソフトウエアを有し、ソース及びチャネルエンコード及びデコードプロセスにおいて要求される種々の機能性も行う。

図２〜４は、図１ａ及び１ｂで説明した音声エンコーダの一実施形態に使用される多段式エンコード手法を説明するブロック機能図である。特に、図２は、図１ａ及び１ｂに示した音声エンコーダの一実施形態で行われる、第一のステージの作動を説明するブロック機能図である。エンコーダ処理回路を備える音声エンコーダは、下記の機能性を遂行するソフトウエア命令に従って、一般的に、作動する。

ブロック２１５において、ソースエンコーダ処理回路が、音声信号２１１の高域のフィルタを行う。フィルタは、約８０Ｈｚの遮断周波数を使い、例えば、６０Ｈｚ電力線雑音及び他の低周波信号を除去する。かかるフィルタ後、ソースエンコーダ処理回路は、ブロック２１９が表示しているように知覚的重み付けフィルタを適用する。知覚的重み付けフィルタが作動し、フィルタされた音声信号の谷領域のエンファシスを行う。

エンコーダ処理回路が、制御ブロック２４５が表示しているように、ピッチ処理（ＰＰ）モードにおける作動を選択すれば、重み付き音声信号についてのピッチ処理作動をブロック２２５において行う。ピッチ処理作動は、重み付き音声信号のねじれを生じさせ、デコーダ処理回路が発生するであろう補間ピッチ値に一致させる。ピッチ前処理を適用すると、ねじれを生じた音声信号は、第一のターゲット信号２２９に指定される。ピッチ前処理を制御ブロック２４５において選択しなければ、重み付き音声信号は、ピッチ処理されずにブロック２２５を通過し且つ第一のターゲット信号２２９に指定される。

ブロック２５５が表示するように、エンコード処理回路は、適応符号帳２５７からの貢献が、第一の誤差信号２５３を最小にする対応ゲイン２５７と一緒に選択されるプロセスを適用する。第一の誤差信号２５３は、第一のターゲット信号２２９と適応符号帳からの重み付き、合成された貢献との差を有する。

ブロック２４７、２４９及び２５１において、適応ゲインが合成及び重み付けフィルタの両方に還元後生じた励起ベクトルを適用し、第一のターゲット信号２２９に最も調和するモデル化された信号を発生する。エンコード処理回路は、ブロック２３９が表示するように、ＬＰＣ（線形予測符号化）分析を使用し、合成及び重み付けフィルタ用のフィルタパラメータを発生する。重み付けフィルタ２１９及び２５１の機能性は同等である。

次に、エンコーダ処理回路は、固定符号帳２６１からの貢献を使い、一致のため第一の誤差信号２５３を第二のターゲット信号として指定する。エンコーダ処理回路は、一般的には第二のターゲット信号に一致させようとするが、最も適切な貢献を選択する試みにおいて固定符号帳２６１内にある複数のサブ符号帳のうち少なくともひとつを探索する。

更に具体的には、エンコーダ処理回路は、様々な要因を基にして励起ベクトルと、それに対応するサブ符号帳と、ゲインとを選択する。例えば、ブロック２７９が表示しているように、エンコーダ処理回路は、エンコードビットレートと、最小化の程度と、音声自体の特性とを制御ブロック２７５において考慮する。たとえ多くの他の要因を考慮しても、模範的な特性には音声区別と、のいずれベルと、鮮明さと、周期数等とが含まれる。かくして、かかる他の要因を考慮することにより、たとえ第二のサブ符号帳が第二のターゲット信号２６５をより良く最小化しても、第二のサブ符号帳の最も良い励起ベクトルよりもむしろ、最も良い励起ベクトルを有する第一のサブ符号帳を選択してもよい。

図３は、図２で説明した音声エンコーダの実施形態で行われる第二のステージの作動を描くブロック機能図である。第二のステージにおいて、音声エンコーダ回路は、第一のステージの作動で見られる適応符号帳及び固定符号帳ベクトルの両方を同時に使用し、第三の誤差信号３１１を最小化する。

音声エンコーダ回路は、適応及び固定符号帳２５７及び２６１の両方から以前識別された励起ベクトル（第一のステージにおいて）用の最適なゲイン値を探索する。ブロック３０７及び３０９が表示するように、音声エンコーダ回路は、第一のターゲット信号２２９（第三の誤差信号を最小化する）に最も一致する、合成され且つ重み付き信号を、即ちブロック３０１及び３０３経由で、発生することにより最適なゲインを識別する。勿論、処理能力が許せば、ゲインと適応及び固定符号帳ベクトル選択の両方を共同で最適化することを使用することができところで第一及び第二のステージを組み合わすことがでる。

図４は、図２及び３で説明した音声エンコーダの実施形態で行われる、第三のステージの作動を描いたブロック機能図である。エンコード処理回路は、ブロック４０１、４０３及び４０５が表示するように、ゲイン正規化と、平滑化と、量子化とをエンコード処理の第二のステージにおいて識別された、共同に最適化されたゲインに適用する。再度、使用される適応及び固定符号帳ベクトルは、第一のステージ処理で識別されたベクトルである。

正規化と、平滑化と、量子化とを機能的に適用して、エンコーダ処理回路はモデル化プロセスを完了させた。それ故、識別されたモデル化パラメータをデコーダに通信する。特に、エンコーダ処理回路は、選択された適応符号帳ベクトルへのインデクスをマルチプレクサ４１９経由でチャネルエンコーダに供給する。同様に、エンコーダ処理回路は、選択された固定符号帳ベクトルと、その結果生じるゲインと、合成フィルタパラメータ等とへのインデクスをマルチプレクサ４１９に供給する。マルチプレクサ４１９は、受信装置のチャネル及び音声デコーダへの通信のため、チャネルエンコーダへの供給用のかかる情報のビットストリーム４２１を発生する。

図５は、図２〜４で説明した機能性に対応する機能性を有する音声デコーダの機能性を説明する一実施形態のブロック図である。音声エンコーダについては、デコーダ処理回路を備える音声デコーダは、下記の機能性を遂行するソフトウエア命令に従って一般的に作動する。

デマルチプレクサ５１１は、音声モデル化インデクスのビットストリーム５１３を、チャネルデコーダ経由で遠隔にあることが多いエンコーダから受信する。以前論議したように、エンコーダは、図２乃至４を参照して上で説明した多段式エンコードプロセス中に各インデクス値を選択した。デコーダ処理回路は、インデクスを利用して、例えば、適応符号帳５１５及び固定符号帳５１９から励起ベクトルを選択し、ブロック５２１において適応及び固定符号帳ゲインを設定し、且つ合成フィルタ５３１用のパラメータを設定する。

かかるパラメータ及びベクトルを選択又は設定して、デコーダ処理回路は、再生された音声信号５３９を発生する。特に、符号帳５１５及び５１９は、デマルチプレクサ５１１からのインデクスが識別した励起ベクトルを発生する。デコーダ処理回路は、ブロック５２１においてインデクス化されたゲインを総計したベクトルに適用する。ブロック５２７において、デコーダ処理回路は、ゲインを修正し、適応符号帳５１５からのベクトルの貢献をエンファシス化する。ブロック５２９において、励起スペクトルを平坦化にする目標と結合したベクトルに適応チルト補償を適用する。デコーダ処理回路は、平坦化された励起信号を使って、ブロック５３１において合成フィルタリングを行う。最後に、再生された音声信号５３９を発生させるため、再生された音声信号５３９の谷領域をデエンファシスする、ポストフィルタリングをブロック５３５において適用し、ひずみの影響を減らす。

本発明の模範的なセルラー電話機の実施形態において、Ａ／Ｄ変換器１１５（図１ａ）は、１）入力レベル調整装置と、２）入力反エイリアジングジングフィルタと、３）８ｋＨｚでサンプリングを行うサンプルホールド装置と、４）アナログから１３ビット表現への均一なデジタル変換とを含む、アナログから均一なデジタルＰＣＭへの変換に一般的に関係する。

同様に、Ｄ／Ａ変換器１３５は、１）１３ビット／８ｋＨｚの均一なＰＣＭからアナログへの変換と、２）ホールド装置と、３）ｘ／ｓｉｎ（ｘ）補正を含む再構築フィルタと、４）出力レベル調整装置とを含む、均一なデジタルＰＣＭからアナログへの変換に、一般的に、関係する。

端末装置において、１３ビットの均一なＰＣＭフォルマントへ直接に変換することにより、又は８ビット／Ａ−法則の混合されたフォルマントへ変換することにより、Ａ／Ｄ機能を達成しても良い。Ｄ／Ａ作動では、逆の作動が起こる。

エンコーダ１１７は、１６ビットワードにおいて１３ビット分解を左寄せにしたデータサンプルを受信する。三つの最下位の数字をゼロとする。デコーダ１３３は同じフォルマントでデータを出力する。音声コーデックの外では、更なる処理を適用し、異なる表現を有するトラヒックデータを調節することができる。

図２〜５で説明した作動機能性を持つＡＭＲ（適応マルチレート）コーデックの一特定実施形態は、ビットレート１１．８、８．０、６．６５、５．８及び４．５５ｋｂｐｓを持つ５つのソースコーデックを使用する。最も高いソース符号化ビットレートの内の４つはフルレートチャネルで、４つの最低ビットレートはハーフレートチャネルで使用する。

ＡＭＲコーデック内全ての５つのソースコーデックは、符号励起線形予測（ＣＥＬＰ）符号化モデルを一般的に基にしている。以下で与えられる１０次の線形予測（ＬＰ）、即ち、例えば、ブロック２４９、２６７、３０１、４０７及び５３１（図２乃至５の）において使用される短期合成フィルタを使う。

ここで、＾ａ_ｉ，ｉ＝１，．．．．，ｍは（量子化された）線形予測（ＬＰ）パラメータである。

長期フィルタ、即ちピッチ合成フィルタを、適応符号帳手法又はピッチ前処理手法のいずれかを使い実行する。ピッチ合成フィルタは以下のように与えられる。

ここで、Ｔはピッチディレイ及びｇ_ｐはピッチゲインである。

図２を参照して、ブロック２４９において短期ＬＰ合成フィルタの入力における励起信号を、適応及び固定符号帳２５７及び２６１からの２つの励起ベクトルをそれぞれ加えて構築する。これらの符号帳から適切に選んだ２つのベクトルを、ブロック２４９及び２６１のぞれぞれにおいて短期合成フィルタを通るように供給して、音声を合成する。

知覚的重み付け歪み測度に従い、当初の音声と合成された音声との間の誤差を最小にする、合成による分析の探索手順を使い、符号帳における最適な励起シーケンスを選ぶ。例えば、ブロック２５１及び２６８において、合成による分析探索方式で使用される知覚的重み付けフィルタは以下の通り与えられる。
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／Ａ（ｚ／γ_２）（３）
ここでＡ（ｚ）は非量子化ＬＰフィルタ及び０＜γ_２＜γ_１≦１は知覚的重み付け因子である。値γ_１＝[０．９、０．９４]及びγ_２＝０．６を使う。重み付けフィルタは、例えば、ブロック２５１及び２６８において、非量子化ＬＰパラメータを使うが、一方フォルマント合成フィルタは、例えば、ブロック２４９及び２６７において、量子化されたＬＰフィルタを使う。非量子化及び量子化ＬＰパラメータは、共にブロック２３９において発生する。

本エンコーダの実施形態は、毎秒８０００サンプルのサンプリング周波数で、１６０サンプルに対応する２０ｍｓ（ミリ秒）音声フレーム上で作動する。各１６０音声サンプル毎に音声信号を分析し、ＣＥＬＰモデルのパラメータ、即ちＬＰフィルタ係数と、適応及び固定符号帳インデクスと、ゲインとを抽出する。これらのパラメータをエンコードし伝送する。デコーダにおいて、これらのパラメータをデコードし、再構築された励起信号をＬＰ合成フィルタを通じてフィルタリングすることにより音声を合成する。

更に具体的には、ブロック２３９においてＬＰ分析をフレーム毎に２回行うが、単一ＬＰパラメータセットのみを線スペクトル周波数（ＬＳＦ）及び予測多段量子化（ＰＭＶＱ）を使って量子化されたベクトルに変換する。音声フレームをサブフレームに分割する。適応及び固定符号帳２５７及び２６１からのパラメータをすべてのサブフレームに伝送する。量子化された及び非量子化ＬＰパラメータ、又はそれらの補間バージョンをサブフレームに応じて使用する。ブロック２４１においてＰＰモード又はＬＴＰモード用のそれぞれのフレーム毎に、開ループピッチラグを一度又は二度推定する。

サブフレーム毎に、少なくと次の作動を繰り返す。最初に、エンコーダ処理回路（ソフトウエア命令に従って作動）は、ＬＰ残差と励起との間の誤差をフィルタすることにより更新されたようなフィルタの初期状態の重み付き合成フィルタＷ（ｚ）Ｈ（ｚ）を通じてＬＰ残差をフィルタすることにより、ｘ（ｎ）、第一のターゲット信号２２９を演算する。これは、重み付き音声信号から重み付き合成フィルタのゼロ入力応答を差し引くという代替の手法と同等である。

二番目に、エンコーダ処理回路は、重み付き合成フィルタのインパルス応答、ｈ（ｎ）、を演算する。三番目に、ＬＴＰモードにおいて、閉ループピッチ分析を行い、第一のターゲット信号２２９、ｘ（ｎ）、を用いてピッチラグおよびゲインを、また、開ループピッチラグ周辺を探索することにより、インパルス応答、ｈ（ｎ）、を探す。種々のサンプル分解能を持つ分数のピッチを使用する。

ＰＰモードにおいて、当初の入力信号にピッチ前処理を行って、補間ピッチ輪郭に一致させたため、閉ループ探索は必要ではない。補間ピッチ輪郭及び過去に合成された励起を使ってＬＴＰ励起ベクトルを演算する。

４番目に、エンコーダ処理回路は、適応符号帳コントリビューション（フィルタされた適応コードベクトル）をｘ（ｎ）から除去することにより、新たなターゲット信号ｘ_２（ｎ）である第二のターゲット信号２５３を発生する。エンコーダ処理回路は、固定符号帳の探索において第二のターゲット信号２５３を使い、最適なイノベーションを探す。

５番目に、１１．０ｋｂｐｓビットレートモードに対して、（移動平均予測を固定符号帳ゲインに適用して）適応及び固定符号帳のゲインを４及び５ビットでそれぞれスカラ量子化する。他のモードに対しては、（移動平均予測を固定符号帳ゲインに適用して）適合及び固定符号帳のゲインをベクトル量子化する。

最後に、次のサブフレームにおいて第一のターゲット信号を探すために決められた励起信号を使ってフィルタメモリを更新する。

このAMRコーデックモードのビットの割り当てを表１に示した。たとえば、各２０ｍｓ音声フレームに対しては,１１.０、８.０、６.６５、５.８あるいは４.５５kbpsのビットレートに応じてそれぞれ２２０、１６０、１３３、１１６あるいは９１ビットが作られる。

第５図を参照して、デコーダ処理回路は、ソフトウエア制御に従って、音声信号をデマルチプレクサー５１１により受信ビット流から抽出した伝送モデリングインデクスを用いて再構成する。デコーダ処理回路はインデクスをデコードして、各伝送フレームにおける符号化パラメータを得る。これらのパラメータは、LSFベクトル、分数のピッチラグ、イノベーティブコードベクトル、および２つのゲインである。

LSFベクトルはLPフィルター係数に変換され、各サブフレームにおけるLPフィルターを得るために補間される。各サブフレームにおいては、デコーダ処理回路は、１）符号帳５１５および５１９から適応、イノベーティブコードベクトルを識別し、２）ブロック５２１においてそれぞれのゲインにより、寄与をスケーリングし、３）スケーリングした寄与を合計して、３）ブロック５２７および５２９において適応チルト補償を変更し適用することによって励起信号を構成する。これら音声信号はブロック５３１においてLP合成を通じてその励起をフィルタにかけ、サブフレーム基準で再構成される。最終的に、音声信号はブロック５３５の適応ポストフィルタを通り、再生音声信号５３９を生成する。

AMRエンコーダは、独自のシーケンスおよびフォルマントにて音声モデル化情報を生成し、AMRデコーダは同様の方法で同一の情報を受け取る。符号化された音声の異なるパラメータ、およびそれらの個々のビットは、主観的な品質に関して、同一でない重要性を持つ。チャンネルエンコーディング関数に供される前に、ビットは重要性の順に再配列される。

二つの予備処理関数：高域フィルタおよび信号ダウンスケーリングが、エンコーディングプロセスに先立って適用される。ダウンスケーリングは、固定点実装において、オバーフローの可能性を減らすために、入力を２分の１に割ること（dividing the input by a factor of 2）からなる。ブロック２１５（第２図）の高域フィルタは、好ましからざる低周波数成分に対する予防策として機能する。８０Ｈｚのカットオフ周波数のフィルタが使われ、それはのように与えられる。
Ｈ_ｈｌ（ｚ）＝（０．９２７２７４３５−１．８５４４９４１ｚ^−１＋０．９２
７２７４３５ｚ^−２）／（１−１．９０５９４６５ｚ^−１＋０．９１１４０２４ｚ^−２）
ダウンスケーリングおよび高域フィルタリングはＨ_ｈｌ（ｚ）の分子の係数を２で割ることにより結合される。

短期予測、あるいは、線形予測（LP）分析は、３０ｍｓのウィンドウを有する自己相関手法を用いる音声フレーム毎について、２回ずつ行われる。具体的には、２つのLP分析が２個の別個のウィンドウを用いてフレームごとに２度実行される。第１のLP分析（LP_analysis_１）では、ハイブリッドウィンドウ（hybrid window）が用いられ、それは第４のサブフレームにおいてその重みがコンセントレート（concentrate）される。ハイブリッドウィンドウは２つの部分からなる。第１の部分は、ハミングウィンドウ（Hamming window）の半分であり、第２の部分は余弦サイクルの１／４である。ウィンドウは以下のように与えられる。

第２のLP分析（LP_analysis_２）では、対称なハミングウィンドウが用いられる。

いずれのLP分析においても、ウィンドウされた音声の自己相関s’(n), ｎ＝0.239は以下により計算される。

６０Hz帯域拡張はラグウィンドウ化（lag windowing）により用いられ、自己相関は次のウィンドウを用いる。

ｗ_ｌａｇ（ｉ）＝ｅｘｐ［−１／２（２π６０ｉ／８０００）^２］、ｉ＝１，１０

さらに、ｒ（０）に白色雑音補正係数１．０００、（すなわち−４０ｄＢの底域雑音を加えるのに等しい）を乗じる。

修正自己相関ｒ’（０）＝１．０００１ｒ（０）およびr’（k）＝r（ｋ）ｗ_ｌａｇ(k)、ｋ＝１，１０は、Levinson-Durbinアルゴリズムを用いて、反射係数ｋ_ｉ及びLPフィルタ係数ａ_ｉ、ｉ＝１，１０を得るのに用いる。さらに、LPフィルタ係数ａ_ｉは線スペクトル周波数（LSFs）を得るのに用いられる。

補間非量子化LPパラメーターは、LP_analysis_１、およびLP_analysis_２から以下として得られたLSF係数を補間することによって得られる。
q₁(n)=0.5q₄(n-1) + 0.5q₂(n)
q_３(n)=0.5q₂(n-1) + 0.5q₄(n)
ここでq₁ (n)はサブフレーム１について補間したLSFであり、q₂ (n) はカレントフレームのLP_analysis_２から得られたサブフレーム２のLSFであり、q₃(n)はサブフレーム３について補間したLSFであり、q_４ (n-1)は前のフレームのLP_analysis_１から得たLSF（余弦領域）であり、q₄(n)はカレントフレームのLP_analysis_１から得られたサブフレーム４に対するLSFである。補間は余弦領域で行われた。

VAD（無音圧縮）アルゴリズムはブロック２３５（図２）において、入力音声フレームを活性音声フレームか不活性音声フレーム（暗騒音あるいは無音）かに分類するのに用いられる。

入力音声 s(n)はs(n)を以下のフィルタに通すことによって重み付けされた音声信号ｓ_w(n)を得るのに用いられる。
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／Ａ（ｚ／γ_２）
これは、サイズL＿SFのサブフレームにおいて、重み付けされた音声は次のように与えられる。

入力音声s(n)とその残差r_w(n)を用いるブロック２７９内における音声/無音声の分類およびモード決定は次のときに誘導される。

分類は４つの手段によって行われる。すなわち１）音声のシャープさ、P1_SHP;
２）正規化された一ディレイ相関P2_R１;３）正規化されたゼロ交差レートP3_ZC;および、４）正規化されたLP残差エネルギーP4_REである。

音声のシャープさは次のように与えられる。

ここで、Maxは長さLの特定間隔におけるabs(r_ｗ(n))の最大値である。正規化された一ディレイ相関と正規化ゼロ交差レートとは次のように与えられる。

ここで、ｓｇｎは入力サンプルがポジティブかネガティブかによってその出力が１あるいは-１のいずれかとなるサイン関数である。最後に、正規化されたLP残差エネルギーは次により与えられる。

ここで、

であり、ｋ_ｉはLP_analysis_１から得られた反射係数である。

音声/無音声の決定は次の条件に合致するならば導かれる。
if P2_R1 < 0.6 and P1_SHP > 0.2 set mode =2
if P3_ZC > 0.4 and P1_SHP > 0.18 set mode =2
if P4_RE < 0.4 and P1_SHP > 0.2 set mode =2
if (P2_R1 <-1.2+3.2 P1_SHP) set VUV =-3
if (P4_RE <-0.21+1.4286 P1_SHP) set VUV =-3
if (P3_ZC > 0.8-0.6 P1_SHP) set VUV =-3
if (P4_RE < 0.1)set VUV=-3

ブロック２４１（図2）におけるピッチラグの概算値を見出すために符号化レートに応じて各フレームについて１回あるいは２回の（各１０ｍｓ）の開ループピッチ分析がおこなわれる。これは加重化音声信号S_w(n+n_m)、n = 0,1,…，79に基づいており、ここで n_m は最初の半分のフレームあるいは最後の半分のフレームにおけるこの信号のロケーションを定義する。第１ステップにおいて、その相関：

の四つの最大値は、４つの領域、１７…33、 34…67、 68 …135、136 …145のそれぞれにおいて見出される。得られた最大値C_ki、ｉ= 1,2,3,4は、それぞれ、次により除されて、正規化される。

この正規化された最大値と対応するディレイは(R_iK_i)、ｉ=1,2,3,4.で示される。

第２のステップは、４個の候補の中から遅延k_Iを４つの正規化された相関を最大化することによって選定する。第3ステップでは、k_Iはより低い領域に適合するためにｋi (i<I)に恐らく修正されるだろう。これは, k_ｉが[K_I/m-4, k_I/m+4], m=2,3,4,5 の中にあれば、ｋ_i (i<I)が選択されるだろうし、もし、前のフレームが無音声であるかによってki > kI 0.95^I-ｉD, i < Iで、Dは１.０、０.８５または０．６５であれば、先行フレームは有音声でｋ_ｉは先行ピッチラグの近傍（±８で特定される）にあるか、先行する２個のフレームは有音声であり、ｋ_ｉは先行する２個のピッチラグの近隣にある。最終選択ピッチラグはT_ｏｐとして示される。

すべてのフレームにおいて、従来のCELPアプローチ（LTP＿mode＝１）、あるいは、本願においてPP(ピッチ前処理)として示した修正タイムワープアプローチ（LTP_mode＝0）のいずれでLTP（長期予測）を作動するかが、決定される。4.55 および５．８ kbpsエンコードビットレートにおいては、LTP_modeは常に０にセットされる。８．０および11.0 kbpsについては、LTP_modeは常に１にセットされる。ところが、６．６５ kbpsエンコーディングビットレートについては、エンコーダがLTPかPPモードのどちらで作動するかを決定する。PPモードの間は、コーディングフレームあたり１ピッチラグのみが伝送される。

６．６５ kbpsについては、決定アルゴリズムは次のようなものである。第１に、ブロック２４１において、カレントフレームに対するピッチラグpitの予測は次のように決定される。

ここでLTP_mode_mは先行フレームLTP_modeであり、lag_f[1]、lag_f[3]はそれぞれ第２、第４のサブフレームに対する過去の閉ループピッチラグである。そして、lagIは、フレームの第２の半分におけるカレントフレームの開ループピッチラグであり、lag I１は、フレームの第１の半分における先行フレームの開ループピッチラグである。

第２に、カレントおよび先行フレームの線スペクトル周波数（LSF）の間の正規化スペクトル差は次のように計算される：

ここで、Rpはカレントフレーム正規化ピッチ相関であり、pgain_past は過去のフレーム TH = (MIN(lagl*0.1,5) TH = MAX(20,TH) の第４のサブフレームからの量子化ピッチゲインである。

フレームの終わりでの正確なピッチラグの概算は正規化相関式にもとづいている。

ここで、ｓ_w(n + nl)、 n = 0, 1, …L-1はルックアヘッド（ルックアヘッドの長さは２５サンプルである）を含む重み付けされた音声信号の最後のセグメントを示す。またサイズLは、以下の対応する正規化相関C_Topを有する開ループピッチラグT_opにしたがって定義される。

第１ステップにおいて、１つの整数ラグｋは、[17,145]の境界中ｋ∈[T_op-10, T_op+10] の領域R_kを最大化するように選択される。つぎに、正確なピッチラグP_mとカレントフレームについて対応するインデクスI_mとが、R_kのアップサンプリングにより、整数ラグ[k-1,k+1] のまわりで探索される。

正確なピッチラグの可能性がある候補値は、PitLagTab8b[i] , i= 0,1,…，127と名づけられた表から得られる。最終ステップでは、正確なピッチラグP_m＝PitLagTab8b[Im]は、音声信号の以下の変形による累積ディレイτ_accをチェックすることにより修正されるだろう。

この正確ピッチラグは次のように再び修正されうる：

得られたインデクスI_mはデコーダーに送られるだろう。

ピッチラグ輪郭、τ_c(n)、は、カレントラグP_mと先行ラグP_m-1の両方を用いて次のように定義される。

ここでL_f=160はフレームサイズである。

1個のフレームは、長期前処理のために３つのサブフレームに分割される。最初の2個のサブフレームについては、サブフレームサイズL_ｓは５３であり、検索用サブフレームサイズL_srは７０である。最後のサブフレームL_sは５４であり、L_srは、L_sr= min{ 70, L_s+L_khd − 10 − τ_acc}であり、ここで、L_khd= 25 は、ルックアヘッドであり、累積ディレイτ_accの最大値は１４までに限定される。

{^ｓ_ｗ(m0 +n), n = 0,1…,L_sr-1}に一時的に記憶された重み付けされた音声の修正プロセスのターゲットは、過去の、修正され重み付けされた音声バッファー^ｓ_w（m0＋n）、ｎ＜０を、ピッチラグ輪郭τ_c(n +m・L_s)、m = 0,1,2でワープすることにより計算される。

ここで、Tc(n),T_IC(n)は次によって計算される。
Tc(n) = trunc{τ_c(n+m・L_s)}、
T_IC(n)= τ_c (n) - Tc(n)
ｍはサブフレームの数、I_s(I, T_IC(n)) は補間係数のセットであり、f_Iは１０である。次に、マッチングさせるターゲット^ｓ_ｔ(n)、n = 0,1,…L_sr-1が、時間領域において、^ｓ_w(m0 +n)、n = 0,1,…L_sr-1.を重み付けして計算される。
^ｓ_I (n) = n・^ｓ_w (m0 +n)/L_s, n = 0,1,…L_s-1
^ｓ_I(n) =^ｓ_w(m0 +n), n = L_s,…L_sr-1

最良のローカルディレイを検索するためのローカル整数シフティングレンジ[SR０、SR１]は、次のように計算される。

ここで、P_sh＝max{P_sh1, P_sh2} であり、P_sh1はターゲット信号からのピーク比（すなわちシャープさ）に対する平均値である。

P_sh2は重み付け音声信号からのシャープさである。

ここで、n0 = trunc{m0 + τ_acc＋０．５}である。（ここで、ｍはサブフレーム数、τ_accは先行累積ディレイである）。

最良のローカルディレイτ_optを見出すために、カレントサブフレームの最後に、当初の重み付けされた音声信号と修正マッチングターゲットとの間の正規化相関ベクトルが次のように定義される。

整数領域における最良のローカルディレイK_optはk∈[SR０、SR1]の領域でR_Ｉ（ｋ）を最大化させることによって選択される。そしてこれは現実のディレイに対応する。
k_ｒ＝Ｋ_opt + n0 - m0 - τ_acc
もしR_Ｉ(k_opt)<０.５ならば、ｋ_ｒはゼロである。

ｋ_rの周辺の{k_r-0.75 + 0.1j、j = 0,1,….15}の領域においてより正確なローカルディレイを得るためには、分数の相関ベクトルR_f（j）を得るためにR_Ｉ(k)を次により補間する。

ここで {I_ｆ(i,j)} は補間係数の１セットである。最適な小数ディレイインデクスｊ_optは、R_f（j）を最大化することによって選択される。最終的には、現在処理中のフレームの最終に於ける最善の局所ディレイτ_optは、次式で与えられる。
τ_opt＝ k_ｒ − 0.75+0.1j_opt
局所ディレイは次いで次式によって調整される。

バッファーを更新し、固定符号帳２６１を検索するための第２の目標信号２５３を作るために、｛^S_ｗ（m０＋n），n＝0，１，．．．L_s−1｝に記録されるカレントサブフレームの修正重み付け音声は、原時間領域
[ m0 +τ_acc, m0＋τ_opt+ L_s +τ_opt]
から原重み付け音声｛S_w（n）｝を修正時間領域
[ m0, m0＋L_s ]
へワーピングして作られる。

ここでTw(n) とT_Iw(n) は次式で計算される：
Tw(n)＝trunc {τ_acc + n・τ_opt/L_s}
T_Iw(n)＝τ_acc + n・τ_opt/L_s-Tw(n),
{I_s(i,T_IW(n))} は補間係数の一つのセットである。

カレントサブフレームに対する重み付け音声の修正を完了したのち、修正目標重み付け音声バッファーがつぎのように更新される。
＾S_w（n）<＝＾S_w（n +L_s）, n = 0,1… n_m-1
カレントサブフレームの終わりでの累積ディレイは次式により更新される。
τ_acc <= τ_acc + τ_opt
量子化する前に、知覚できる性質に改善するためにLSFｓを平滑化する。一般に、スペクトル包絡中に急速な変化のある音声セグメントの間では平滑化は適用されない。スペクトル包絡中の変化の遅い非音声の間には、望ましくないスペクトル変化を減らすように平滑化が適用される。望ましくないスペクトル変化は典型的にはLPCパラメータの推定やLSF量子化によって起きるはずである。たとえば、スペクトル包絡中で非常に小さな変化を導入する一定のスペクトル包絡を有する定常ノイズ状信号は容易に人の耳で聴き取られ、うるさい変調として知覚される。

LSFｓの平滑化は次式にもとづいて移動平均として実施される。
lsf_i(n) = β(n) ・lsf_i(n-1)+(1-β(n))・lsf_{_}est_i(n), i = 1,…,10
ここで、 lsf_est_i(n) はフレームｎのi番目の予測LSFであり、lsf_i(n)はフレームnの量子化のためのi番目のLSFである。パラメータβ(n)は平滑化の量をコントロールし、例えば、β(n)がゼロのときは平滑化は適用されない。

β(n)はVAD情報（ブロック２３５で作られる）とスペクトル包絡の進化の２個の推定値から計算される。この進化の２個の推定値は次のように定義される。

パラメータβ(n)は以下の論理でコントロールされる。
ステップ１：

ステップ２：

ここで、k₁は第１の反射係数である。

ステップ１では、エンコーダ処理回路はそのVAD、およびスペクトル包絡の展開をチェックし、必要なら平滑化のすべてあるいは一部のリセットを実行する。ステップ２では、エンコーダ処理回路はカウンターN _mode＿frm(n) を更新し、平滑化パラメータβ(n)を計算する。パラメータβ(n)は０．０と０.９の間で変化し、音声、音楽、音調的（tonal-like）信号に対しては０.０をとり、非定常的背景雑音から傾斜上昇していき、定常的背景雑音が発生したときに０．９となる。

LSFｓは２０ｍｓフレームごとに、予測的多段階ベクトル量子化を用いて、一度量子化される。量子化の前に５０Hzの最小空間が各隣接LSF間で確保される。重み付けのセットはLSFから計算され、w_i= K|P (fi)|^0.4 によって与えられる。
ｆ_iはi番目のLSF値であり、P(f_i)はｆ_ｉにおけるLPCのパワースペクトルである（Kは無関係な倍率定数である）。パワースペクトルの逆数は、（ある倍率定数まで）次式から得られる。

そして、−０．４のべき数は次いで、ルックアップテーブルとテーブル入力（エントリー）の間の3次スプライン補間を用いて計算される。

平均値のベクトルはLSFｓから減算され、予測誤差ベクトルfe が平均除去LSFベクトルからフルマトリックスAR(2)予測値を用いて計算される。単一予測値は、レート５．８、６．６５、８．０および１１．０ｋｂｐｓコーダについて用いられ、４．５５ｋｂｐｓコーダについては、可能予測値として２セットの予測係数が試験される。

予測誤差のベクトルは、各ステージから次のステージへの多段階残存候補を使い、多段階VQを用いて量子化する。４．５５ｋｂｐｓコーダについて生じた予測誤差ベクトルの2つの可能なセットは、第1ステージの生き残り（残存）候補とみなされる。

最初の４つのステージには、それぞれ６４の入力があり、そして第５と最後のテーブルには１６の入力がある。第３ステージは該４．５５ｋｂｐｓコーダに用いられ、最初の４ステージは５．８、６．６５および８．０kbpsコーダに用いられる。また全５ステージは１１．０kbpsコーダにおいて用いられる。以下の表は各レートのLSFの量子化に用いられるビット数を要約したものである。

各ステージに対する残存候補の数は下表に要約した。

各ステージでの量子化は次式で与えられる重み付けひずみ尺度を最小にすることで行われる。

すべてのｋについてε_kmin<ε_ｋとなるようにε_ｋを最小とするインデクスｋ_minを有するコードベクトルが、予想/量子化誤差を示す値として選び出される（この式のfeは、第１ステージに対する初期予測誤差と引き続く各ステージから次のステージへの量子化予測誤差の両方を示す）。

すべての残存候補（および予測子でもある４.５５ｋｂｐｓコーダー）からのベクトルの最終選択は、最終ステージが検索されたのち、全誤差を最小にするようなベクトル（および予測子）のセットの結合を選ぶことによって最後になされる。すべてのステージからの寄与は合計され、量子化された予測誤差ベクトルを形成し、量子化された予測誤差ベクトルは予測ステージと平均LSFｓ値に加えられ量子化LSFｓベクトルを生成する。

４.５５ｋｂｐｓコーダについては、仮に量子化が行われた結果としてのLSFｓのオーダーフリップの数が１より大きいとき、LSFｓベクトルは０.９（先行フレームのLSFｓ）＋０．１（平均LSFs値）で置き換えられる。すべてのレートについて、量子化されたLSFｓは順位づけられ５０Hzの最小間隔で配置される。

量子化LSFの補間は余弦領域で、LTP＿モードに応じた２つの方法で行われる。
もしLTP＿モードが０のときは、カレントフレームの量子化LSFセットと先行フレームの量子化LSFセットの間に一次補間がおこなわれ、次のように第１、第２、第３のサブフレームについてのLSFセットを得るように作用する。
q_１(n) バー =0.75q₄(n-1) バー + 0.25q₄(n) バー
q_２(n) バー =0.5q₄(n-1) バー + 0.5q₄(n) バー
q_３(n) バー =0.25q₄(n-1) バー + 0.75q₄(n) バー
ここでq₄(n-1) バーおよびq₄(n) バーはそれぞれ先行およびカレントフレームの量子化LSFセットのコサインであり、q₁(n) バー、q₂(n) バーおよび q₃(n) バーはそれぞれ、第１、第２、第３のサブフレームに対するコサイン領域における補間LSFセットである。

もしLTP＿モードが１のとき、最良の補間パスの検索が補間LSFセットを得るために行われる。検索は、参照LSFセットrl（ｎ）バーとLP分析＿２ｌ（n）バーから得たLSFセットの間の重み付け平均絶対差をベースとしている。重み付けｗバーはつぎのように計算される。
ｗ(0) = (1-l(0))(1-l(1) + l(0))
ｗ(9) = (1-l(9))(1-l(9) + l(8))
i = 1から9において
w(i) = (1-l(i))(1-Min(l(i + 1)-l (i), l(i)-l(i-l)))
ここでMin(a,b) は、aおよびbの最小値を返す。

これには４つの異なった補間パスがある。各パスについて、参照LSFセットrq(n) バーが余弦領域でつぎのように得られる：
rq(n) バー＝α（ｋ）ｑ₄バー(n)＋（１−α（ｋ））ｑ_４バー (n−１)，K＝１から４
各パスごとにαバー＝｛0.4，0.5，0.6，0.7｝である。ついで、以下の距離尺度が各パスについてつぎのように計算される。
D=|rl(n) バー−l(n) バー|^TWバー
最小距離Dへ導くパスが選ばれ、対応する参照LSFセットが rq(n) バーが下記の通り得られる。
ｒq(n) バー =α_optq₄(n) バー + (1- α_opt) q₄(n-1) バー
余弦領域の補間LSFセットは、次によって与えられる。
q_１(n) バー＝０．５q４(n−１) バー＋０．５ｒq(n) バー
q_２(n) バー＝ｒq(n) バー
q₃(n) バー＝0.5rq(n) バー＋０．５q₄(n) バー

重み付け合成フィルター H(z)W(z) = A(z/γ1)/[A(z) バーA(z/γ₂)]のインパルス応答h(n)が、各サブフレームについて計算される。このインパルス応答は、適応および固定符号帳２５７および２６１の検索に必要である。インパルス応答h(n)は、２個のフィルター１/A（ｚ）バーおよび１/ A(z/γ₂)を通してゼロにより拡張されたフィルターＡ（ｚ/γ₁）の係数のベクトルをフィルターして計算される。適応符号帳２５７の検索のための目標信号は通常、重み付け合成フィルターH(z)/W(z)のゼロ入力応答を重み付け音声信号S_w(n)から差し引いて計算される。この操作はフレームベースで行われる。目標信号を計算するための等価の方法としては、合成フィルター１/A（ｚ）バーと重み付けフィルターW(z)の結合によりLP残差信号ｒ（ｎ）のフィルタリングがある。

サブフレームの励起を決定したのち、これらフィルターの初期状態の更新が、LP残差と励起の間の差をフィルタすることによって行われる。LP残差は次のように与えられる。

残差信号r（ｎ）は目標信号を見出すのに必要であり、また過去の励起バッファーを拡張する適応符号帳検索に用いられる。これは、４０サンプルのサブフレームサイズ以下のディレイについて適応符号帳検索処理を簡易化する。

本実施例において、LTP寄与を作り出すには２つの方法がある。１つはピッチ前処理（PP）であり、このときPP−モードが選ばれ，もう一つの方法としては従来のLTPのように計算するのであるが，ここではLTP−モードが選ばれる。PP−モードでは、適応符号帳検索をする必要はない。またLTP励起は、補間ピッチ包絡が各フレームにセットされているので、過去に合成された励起にしたがって、直接的に計算される。AMRコーダーはLTP−モードで作動するとき、そのピッチラグは一つのサブフレーム内では一定であり、１個のサブフレームベースで検索されコード化される。

以前に合成された励起は{ ext(MAX_LAG+n), n<0}に記憶されているとするとき、これはまた適応符号帳と呼ばれている。LTP励起コードベクトルは、一時的に{ ext(MAX_LAG+n), 0<=n<L_SF}に記憶されているが、ピッチラグ包絡τ_c（n+m・L_SF）, m = 0,1,2,3により過去の励起(適応符号帳)を補間して計算される。補間はある種のFIRフィルター（Hammingウィンドウサイン関数）を用いて計算される。

ここで、Tｃ(n),T_IC(n) は次式で計算される。
T_ｃ(n) =trunc{τ_ｃ (n+m・ L_SF)}
T_IC(n)=τ_ｃ(n) −T_C (n)
ｍはサブフレーム数、{I_ｓ,(i, T_IC(n))} は補間係数，ｆ_Iは１０、MAX_LAGは１４５+１１、そしてL_SF＝４０はサブフレームサイズである。補間値{ext(MAX_LAG+n), 0<=n<L_SF-17 +11} は、そのピッチラグが小さいときには再び補間するのに用いられるかもしれないことに注意を払われたい。一度補間が終わると、適応コードベクトルV_ａ=｛v_a（n），n=０から３９｝が補間値をコピーして得られる。

ｖ_a(n)= {ext(MAX_LAG+n), 0<=n<L_SF}
適応符号帳検索は、サブフレームごとに行われる。それは閉ループピッチラグ検索の実施から成り、ついで、選択された小数ピッチラグでの過去の励起を補間して適応コードベクトルを計算する。そのLTPパラメータ（あるいは適応符号帳パラメータ）はピッチラグ（あるいはディレイ）およびピッチフィルターのゲインである。検索ステージで、励起は、閉ループ検索を簡易化するために、LP残差によって拡大される。

１１．０ｋｂｐｓのビットレートについては、ピッチディレイは第１および第３のサブフレームについては９ビットでエンコードされ、その他のサブフレームの相対的ディレイについては６ビットでエンコードされる。小数ピッチディレイは、レンジ[17,93(4/6)]において1/6の分解能で第１および第３のサブフレームに用いられる。そして、整数はレンジ[95,145]おいてのみ用いられる。第２および第４のサブフレームについては、1/6のピッチ分解能が、[T₁-5(3/6),T₁+4(3/6)]のレンジでレート１１．０kbpsに対して用いられる。ここで、T_１は以前の（第１または第３の）サブフレームのピッチラグである。

閉ループピッチ検索は、原音声と合成音声の間の平均平方重み付け誤差の最小化により行われる。これは次項を最大とすることによって達成できる。

ここでT_gs(n)は目標信号であり、ｙ_ｋ(n)はディレイｋにおける過去のフィルター励起である（h(n)を畳み込んだ過去の励起）。その畳み込みｙ_ｋ(n)は、検索領域での最初のディレイｔ_min について計算され，検索領域のその他のディレイk=ｔ_min＋１,…ｔ_max については、再帰的関係を用いて更新される。
ｙ_ｋ(n) = y_k-1(n-1) + u(-)h(n)
ここで、u(n), n = -(143+11) から３９は励起バッファーである。

検索ステージでは、サンプルu(n), n = ０〜３９は使用可能ではなく、そして、４０以下のピッチディレイについて必要となることに注意して欲しい。
検索を簡易化するのに、LP残差はu(n)にコピーされ、すべてのディレイに有効な計算においての関係を作り出す。一度最適な整数ピッチディレイが決まれば、上に定義したような小数（フラクション）がその整数周辺で試験される。小数ピッチ検索は正規化された相関を補間する事により行われ、その検索は最大値まで行われる。

一度小数ピッチラグが決められると、適応符号帳ベクトルv(n)は特定のフェーズ（小数）で、過去の励起u(n)を補間して計算される。この補間は２つのFIRフィルター（Hammingウィンドウサイン関数）を用いておこなわれ、一つは小数ピッチラグを見出す計算のために補間され、他は前述のように、過去の励起を補間するのに用いられる。適応符号帳ゲインｇ_ｐは仮に次式で与えられる。

0<g_p<1.2に限定され y(n) = v(n) * h(n)はフィルターされた適応符号帳ベクトルである（v(n)へのH(z)W(z)のゼロ状態応答）。適応符号帳ゲインは、ゲイン、ゲイン正規化及び平滑化などの共同最適化によって再修正されてもよい。この項 y(n)は今後Cp(n)と記される。

従来のアプローチでは、ピッチラグ最大化相関は正当値の２倍以上の結果になりやすい。よって、そのような従来的アプローチでは、より短いピッチラグ候補は、一定の重み付け係数を持った他の候補の相関を重み付けされやすい。時に、このアプローチは２倍あるいは３倍のピッチラグを補正しない。なぜなら、重み付け係数が充分攻撃的（aggressive）でないと、強い重み付け係数によってピッチラグが半分になってしまうからである。

本発明の実施例では、これらの重み付け係数は現在の候補が先行ピッチラグ（先行フレームが音声であるとき）のそばにあり、より短いラグの候補がより長いラグ（それは相関を最大化する）を整数で除することによって得られた値の近傍にあるかどうかをチェックすることによって適応化される。

知覚的品質を改善するために、音声分類器（speech classifier）が固定符号帳（ブロック２７５および２７９に示した）の検索手順を指示するのに、またゲイン正規化（図４のブロック４０１に示す）を制御するのに用いられる。音声分類器は低いレートコーダーに対して背景雑音性能を改善し、ノイズレベル推定の迅速な立ち上げに役立つ。この音声分類器は、定常的ノイズ様セグメントを音声、音楽、音調様信号、非定常ノイズなどから判別する。

音声分類は２段階で行われる。最初の分類（speech_mode）は修正入力信号に基づいて得られ、最終分類 (exc_mode)は最初の分類と、ピッチ寄与を取り除いた後の残差信号とから得られる。この音声分類からの２つの出力は、励起モードexc_modeとパラメータβ_sub（ｎ）であり、サブフレームベースでのゲイン平滑化を制御するのに用いられる。

音声分類は入力信号の特性にしたがって、エンコーダを指示するのに用いられ、デコーダに伝送する必要はない。よって、ビット配分、符号帳、デコーディングは分類にまったく関係なく残る。エンコーダはインプット信号の知覚的に重要な特徴を、その特徴に応じるようにエンコーディングを適応させることによってサブフレームベースで強調する。ここで重要なことは、分類ミスは破滅的な音声品質の劣化とはならない点である。このように、VAD２３５と反対に、ブロック２７９（図２）で識別された音声分類器は適切な知覚品質に向けて幾分より積極的であるようにデザインされている。

最初の分類器（speech_classifier）は適応閾値を持ち６段階に作動する。

１．適応閾値

２．計算パラメータ
ピッチ相関

ピッチ相関の操作手段
ma_cp(n) = 0.9・ma_cp(n-1)＋0.1・cp
カレントピッチサイクルにおける信号振幅の最大値
max(n) =max{|~s(i)|, i=start,…,L_SF-1}
ここで
start = min(L_SF-lag,0)
現在ピッチサイクルにおける信号振幅の合計

相対的最大値の測定
max_mes = max(n)/ma_max_noise(n-1)
長期合計に対する最大値

過去１５サブフレームに対する3個のサブフレームのグループにおける最大値
max_group(n,k)= max{max(n-3(4-k)-j),j = 0,…,2},k=0,…4
先行４グループ最大値の最小値に対するグループ最大値
endmax2minmax = max_group(n,4)/min{max_group(n,k),k=0,...,3}
５グループ最大値の傾斜

３．サブフレームの分類

４．背景雑音レベルの変化、すなわち必要なリセットのチェック
レベルの減少に対するチェック：

レベルの増加に対するチェック：

５．クラス１のセグメント、すなわち定常ノイズの最大値の現在平均の更新

ここで k₁は第１の反射係数。

６．クラス２のセグメント、すなわち上記から続く音声、音楽、音調的信号、非定常的ノイズ、などの最大値の現在平均を更新

最終分類器(exc_preselect) は最終クラスexc_modeおよびサブフレームベースの平滑化パラメータβ_sub（ｎ）を与える。これは３つのステップを備える。

１．パラメータの計算
現在サブフレームにおける理想的励起の最大振幅
max_res2(n) = max{|res2(i)|, i=0,….L_SF-1}
相対的最大値の尺度
max_mes_res2 = max_res2(n)/ma_max_res2(n-1)

２．サブフレームの分類と平滑化の計算

３．最大値の現在平均の更新

このプロセスが終了したとき、最終サブフレームベース分類exc_modeと平滑化パラメータβ_ｓｕｂ（ｎ）は有効となる。

固定符号帳２６１の検索の質を向上させるために、ゲイン因子G_rを持つLTP寄与を一時的に減少させて目標信号T_g(n)が作られる。
T_g(n) = T_gs(n) - G_r ・g_p・ Y_a(n), n = 0,1,…,39
ここで、T_gs(n)は原目標信号２５３であり、Y_a(n)は適応符号帳からのフィルターにかけられた信号であり、ｇ_ｐは選択された適応符号帳ベクトル用のLTPゲインであり、このゲイン因子は正規化LTPゲインR_p，およびビットレートによって決定される。

ここで、正規化LTPゲインR_pは次のように定義される。

固定符号帳検索に用いられる制御ブロック２７５とゲイン正規化中のブロック４０１（第４図）で顧慮されるその他因子はノイズレベル＋“）”であり、これは次式で与えられる。
P_NSR = (max{(En-100),0.0}/Es)^1/2
ここで、E_sは背景雑音を含むカレントインプット信号のエネルギーであり、E_nは背景雑音の現在（running）平均エネルギーである。E_nはそのインプット信号が背景雑音であると検出されたときにのみ以下のように更新される。

if(最初の背景雑音フレームが真)
E_n＝０．７５Es
else if(背景雑音フレームが真)
E_n＝0．75E_{n_ｍ}＋０．２５Es
ここで，E_{n_ｍ}は背景雑音エネルギーの最終評価である。

各ビットレートモードについて、固定符号帳２６１（図２）は２つあるいはそれ以上のサブ符号帳からなり、それらは異なった構造で構成されている。例えば、本実施例のような高いレートにおいては、すべてのサブ符号帳はパルスのみを含んでいる。より低いレートでは、サブ符号帳の一つはガウスノイズで満たされている。低いビットレート（例えば、6.65，5.8，4.55ｋｂｐｓ）については、音声分類器は、定常的ノイズ様サブフレーム exc_mode=0の場合にはエンコーダにガウスサブ符号帳から選ばせる。exc_mode=１に対しては、すべてのサブ符号帳が適応重み付けを用いて検索される。

パルスサブ符号帳に対しては、サブ符号帳を選び、カレントサブフレームに対するコード語を選択するのに迅速な検索アプローチが使用される。同様な検索ルーチンが、異なったインプットパラメータを有するすべてのビットレートモードに対して用いられる。

特に、長期拡張フィルターF_p（ｚ）が選択されたパルス励起を通してフィルターに用いられる。このフィルターは、F_p(z) = 1/(1-βz^-T)と定義される。ここで、Ｔはカレントサブフレームの中心にあるピッチラグの整数部分であり、βは[0.2,1.0]の結合した先行サブフレームのピッチゲインである。符号帳の検索より先に、インパルス応答h(n)にフィルターF_p（z）を含める。

ガウスサブ符号帳については、その記憶要求と計算上の複雑性を低減させるために特殊な構造が用いられる。さらに、ピッチ強調はガウスサブ符号帳には適用されない。

このAMRコーダー実施例には、２種類のパルスサブ符号帳がある。すべてのパルスは＋１あるいは−１の振幅を持つ。各パルスは、パルスポジションを符号化するために、０，1，２，３あるいは４ビットを持つ。いくつかのパルスの記号は、１ビットが１つの記号を符号化しながらデコーダに伝送される。その他のパルスの記号はその符号化された記号とそれらのパルス位置に関連した方法で決定される。

パルスサブ符号帳の第１の種類では、各パルスは、パルス位置をコードするために３あるいは４ビットを有している。個々のパルスの可能な位置は二つの基本非正常トラックと最初のフェーズ（相）によって決められる。
POS(n_p,i) = TRACK(m_p,i) + PHAS(n_p,phas_mode)
ここで、i = 0,1,...,7 あるいは15（コード位置に対して3あるいは４ビットに対応する）は可能な位置インデクスであり、n_p = 0,...,N_p-1(N_pはパルスの総数である)は他のパルスと区別する。m_p=0あるいは1は２つのトラックを定め、phase_mode＝０あるいは１は、２つのフェーズモードを特定する。

パルスポジションを符号化する３ビットに対しては、２個の基礎トラックがある。
｛TRACK（0,i）｝=｛0,4,8,12,18,24,30,36｝と
｛TRACK（1,i）｝=｛0,6,12,18,22,26, 30, 34｝である。
もし各パルスポジションが４ビットで符号化されるとき、基礎トラックは次の通りである：
｛TRACK（0,i）｝=｛0,2,4,6,8,10,12,14,17,20,23,26,29,32,35,38｝と
｛TRACK（1,i）｝=｛0,3,6,9,12,15,18,21,23,25,27,29,31,33,35,37｝である。

各パルスの最初のフェーズは次のように決められる。
PHAS(n_p,0) = modulus（n_p/MAXPHAS）
PHAS(n_p,1) = PHAS(N_p-1- n_p ,0)
ここで、MAXPHASは最大フェーズ値である。

どんなパルスサブ符号帳についても、少なくとも最初のパルスに対する最初の記号SIGN(n_p), n_p =0は、そのゲインサインが埋め込まれるので符号化される。N_signをエンコードされたサインを有するパルスの数と仮定すれば、すなわち、n_p <N_sign<=N_pにおいては、SIGN(n_p)がエンコードされ、n_p>= N_sign においてはSIGN(n_p)はエンコードされない。一般にサインのすべては次のように決定される。

n_p>=N_sign においては SIGN(n_p) = -SIGN(n_p-1)
反復アプローチを用いて、パルスポジションがn_p=0からn_p＝N_p-1の順に検索されるためである。もし２個のパルスが同じトラックに位置していたら、トラック上の最初のパルスのサインのみがエンコードされる。一方、第２のパルスのサインは第１のパルスの位置に依存する。もし、第２のパルスの位置が小さかったら、それは、反対のサインとなるが、そうでなければ、第１のパルスのサインと同じサインになるだろう。

パルスサブ符号帳の第２の種類では、イノベーションベクトルは１０のサインを有するパルスを含む。各パルスはパルスポジションのコード化のために、０，１，又は２ビットを持つ。４０サンプル分の大きさを有する1個のサブフレームは、４サンプル分の長さの１０の小さなセグメントに分けられている。１０パルスはそれぞれ１０のセグメント内に置かれる。各パルスの位置は１個のセグメントに限定されるから、n_ｐで番号付けされたパルスに対する可能な位置はそれぞれ、パルスポジションをコードするための０，１，２ビットに対して, {4n_p}, {4n_p, 4n_p +2}あるいは {4n_p, 4n_p +1,4n_p +2,4n_p+3} である。１０パルスすべてに対してサインがエンコードされる。

重み付け入力音声と重み付け合成音声の間の平均自乗誤差を最小とすることによって固定符号帳２６１が検索される。LTP励起に用いた目標信号が適応符号帳寄与を差し引いて更新される。すなわち、
x₂(n) = x(n) - ^g_py(n), n =0,...,39
ここで、y(n)=v(n)*h(n)は適応符号帳ベクトル、^ｇ_ｐは修正（減少）LTPゲインである。

もし、ｃ_ｋが固定符号帳からのインデクスｋにおけるコードベクトルとすると、パルス符号帳は次項を最大化することにより検索される。

ここで、d＝H^tｘ_２は目標信号x₂(n) とインパルス応答h(n)間の相関である。Ｈは対角h(0)及びより低い対角h(1),...,h(39)を有するより低いテプリッツ畳み込み三角行列であり、またΦ＝Ｈ^tＨはh(n)の相関マトリクスである。ベクトルｄ（後方向へフィルターされた目標）とマトリクスΦは符号帳検索に先立って計算される。ベクトルｄの要素は次式によって計算される。

そして対称マトリクスΦの要素は次式で計算される。

分子中の相関は次式で与えられる。

ここで、m_iは i番目のパルスの位置であり、

はその振幅である。その複雑性のゆえに、すべての振幅

は＋１あるいは−１にセットする。すなわち、

分母におけるエネルギーは次式で与えられる。

検索処理を簡単化するために、パルスサインは、正規化ベクトルd（n）の重み付け総和と残差領域ｒｅｓ_２（ｎ）の正規化目標信号ｘ_２（ｎ）である信号b(n)を用いて前もってセットされる。

もし、ｍ_ｉに位置するｉ番目（ｉ＝ｎ_ｐ）のパルスがエンコードされたら、その位置に信号b(n)のサインがセットされる，すなわちＳＩＧＮ（ｉ）=ｓｉｇｎ［ｂ（ｍ_ｉ）］である。

本実施例では、固定符号帳２６１はエンコードビットレートのそれぞれについて２あるいは３のサブ符号帳を有する。勿論もっと多くのサブ符号帳が他の実例では用いられ得る。しかしいくつかの符号帳であっても、次の手法を用いれば固定符号帳２６１の検索は非常に迅速になる。最初の検索ターンでは、エンコーダプロセス回路は、現在あるすべてのパルスの影響を考慮しつつ最初のパルス（ｎ_ｐ＝０）から最後のパルス（ｎ_ｐ＝Ｎ_ｐ−１）までパルスポジションを順次検索する。

第２の検索ターンでは、エンコーダプロセス回路は各パルス位置を、カレントパルスの可能な位置に対するパルスに起因する基準値Ａ_ｋをチェックすることにより最初のパルスから最後のパルスまで順に補正する。第３のターンでは、第２の検索ターンが最後まで繰り返される。勿論、その先のターンも、さらに複雑になっても構わないならば有効である。

１つのパルスの位置のみが変化し、それはＡ_ｋの計算において、基準分子Cにおける１つの項の、および基準分母Ｅ_Ｄにおけるわずかな項の変化だけを導くので、上記検索アプローチは、きわめて効果的であることがわかる。一例として、パルス符号帳が、その位置をエンコードするためにパルスあたり３ビットのパルスで構成されているとする。判断基準A_ｋの僅か９６の簡易化計算（４パルス×２^３ポジション／パルス×３ターン＝９６）が実行される必要がある。

複雑性をさらに省くために、通常、固定符号帳２６１中のサブ符号帳の一つが最初の検索実施を終えたあと選ばれる。さらなる検索ターンは選ばれたサブ符号帳についてのみ実施される。別の実施形態では、第２の検索ターン終了後にのみ、サブ符号帳の一つが選ばれてもよく、あるいはその後に資源処理がなされるべきである。

ガウス符号帳は、記憶要求および計算の複雑度を減らすように構成されている。２個の基礎ベクトルを持ったくし型構造が用いられる。くし型構造では、基礎ベクトルは直交で、低複雑性検索を行う。AMRコーダーでは、第１の基礎ベクトルは偶数サンプル位置（０，２,…，３８）をとり、第２の基礎ベクトルは奇数サンプル位置（１，３,…，３９）をとる。

同じ符号帳が両方の基礎ベクトルに適用され、符号帳ベクトルの長さは２０サンプル（サブフレーム長さの半分）である。

すべてのレート（6.65、5.8および4.55ｋｂｐｓ）は同じガウス符号帳を使用する。ガウス符号帳CB_{Gａｕｓｓ}は僅か１０エントリを持つのみであり、このように記憶要求は１０・２０＝２００、１６ビット語である。１０入力から３２コードベクトルのような多数のものが生成される。１基礎ベクトル２２に対するインデクスidx_δには、コードベクトル対応部分C_idxδが次のように含まれる。

ここで、テーブル入力ｌ、シフトτはインデクスidx_δから次式によって計算される。

τ=ｔｒｕｎｃ｛ｉｄｘ_δ／１０｝
ｌ＝ idx_δ−１０・τ
そして、δは第１基礎ベクトルに対しては０、第２基礎ベクトルに対しては１である。さらに、サインは各基礎ベクトルに対して適用される。

基本的には、各ガウステーブルへの入力により２０もの多くののユニークなベクトルを生じ、環状シフトのためにすべてが同じエネルギーを持つ。１０入力はすべて正規化され同一エネルギー０.５を持つ。すなわち

これは、両方の基礎ベクトルが選択されたとき、その結合コードベクトルｃidx_δ,idx_lは単一のエネルギーを持ち、従ってガウスサブ符号帳からの候補ベクトルについてはピッチ増強が行われないのでガウス符号帳からの最終励起ベクトルは単一エネルギーを持つだろうということを意味する。

ガウス符号帳の検索は、低複雑性検索を実行するために符号帳の構造を利用する。最初に、理想的励起res_２に基づき独立的に２個の基礎ベクトルの候補が検索される。各基礎ベクトルに対しては、それぞれのサインと共に、平均自乗誤差によって２個の最良候補が見出される。これは、最良候補である、インデクスidx_δ、その符号ｓ_ｉｄｘを見出すための式によって実現される。

ここで、Ｎ_{Ｇａｕｓｓ}は基礎ベクトルに対する候補入力の数である。その他のパラメータは、上記のように表わされる。ガウス符号帳における入力の総数は２・２・N_{Gａｕｓｓ} ^２である。細密な検索は、予備選択からの２つの基礎ベクトルに対する候補の可能な結合を考慮して重み付け音声と重み付け合成音声の間の誤差を最小にする。もし、ｃ_ｋoｋ1が２つの基礎ベクトルに対するそれぞれのサインインデクスｋ_０およびｋ_１で表わされる候補ベクトルからのガウスコードベクトルであるなら、ついで最終ガウスコードベクトルが次項を候補ベクトルに対して最大にすることにより選ばれる。

d=Ｈ^tｘ₂は目標信号ｘ_２（ｎ）とインパルス応答ｈ（ｎ）（ピッチ増強なしで）の間の相関であり、またベクトルＨは対角ｈ（０）と低い側の対角ｈ（１），...,ｈ（３９）を持つより低いテプリッツ畳み込み三角行列であり、Φ=Ｈ^tＨはｈ（ｎ）の相関関係マトリクスである。

より具体的には、本実施形態では、２個のサブ符号帳が１１ｋｂｐｓのエンコードモードで３１ビットを有する固定符号帳２６１に含まれ（あるいは利用され）る。第１サブ符号帳には、イノベーションベクトルは８パルスを含む。各パルスはパルスポジションを記録するために３ビットを有する。６パルスのサインは６ビットのデコーダに伝送される。第２サブ符号帳は１０パルスからなるイノベーションベクトルを含む。各パルスの２ビットは１０のセグメントのうちの１個に限定されているパルスポジションを符号化するのに割り当てられる。１０ビットは１０パルスの１０のサインに使われる。固定符号帳２６１に用いられるサブ符号帳に対するビットの割り当ては下記のように要約できる。

サブ符号帳１：８パルス×３ビット／パルス＋６サイン＝３０ビット
サブ符号帳２：１０パルス×２ビット／パルス＋１０サイン＝３０ビット
２個のサブ符号帳のうちの1つはブロック２７５（図２）で、第１サブ符号帳からの基準値Ｆ１と、第２サブ符号帳からの基準値Ｆ２を比較した際に適用された適応重み付けを用いる第２のサブ符号帳を好適化することにより選ばれる。
If（Ｗ_ｃ・Ｆ１＞Ｆ２）、第一のサブ符号帳選択
else、第二のサブ符号帳選択

ここで重み付け０<W_c<=１は次のように定義される。

Ｐ_ＮＳＲは音声信号に対する背景雑音比（すなわち、ブロック２７９における「ノイズレベル」）、Ｒ_ｐは正規化LTPゲインであり、Ｐ_{ｓｈａｒｐ}は理想的励起res_２(n)の鮮明度パラメータ（すなわち、ブロック２７９における「鮮明度」）である。

８kbpsモードでは、２個のサブ符号帳が２０ビットを有する固定符号帳２６１に含まれる。第１サブ符号帳ではイノベーションベクトルは４パルスを含む。各パルスはパルスポジションをエンコードする４ビットを持つ。３パルスのサインは３ビットのデコーダに伝送される。第２サブ符号帳は１０パルスを持つイノベーションベクトルを含む。各９パルスの１ビットは１０セグメントの１個に限定されるパルスポジションを符号化するのに割り当てられる。１０ビットは１０パルスの１０のサインのために費やされる。サブ符号帳のビット割り当ては以下の通りである。

サブ符号帳１：４パルス×４ビット／パルス＋３サイン＝１９ビット
サブ符号帳２：９パルス×１ビット／パルス＋１パルス×０ビット＋１０サイン＝１９ビット
２個のサブ符号帳のうち１つは、１１ｋｂｐｓモードでのように第１サブ符号帳からの基準値Ｆ１と第２サブ符号帳からの基準値Ｆ２を比較した際に適用された適応重み付けを用いる第２サブ符号帳を好適化することにより選ばれる。重み付け、０<W_c<=１は次のように定義される。

W_c=１．０−０.６P_NSR（1.0−０.５R_p）・ｍｉｎ｛P_sharp+０．５，１．０｝
６．６５ｋｂｐｓモードは、長期前処理（PP）あるいは従来のLTPを用いて作動する。１８ビットのパルスサブ符号帳は、PPモードのときに使用される。１３ビットのすべては、操作がLTP−モードで行われるとき、３つのサブ符号帳に割り当てられる。サブ符号帳への割り当ては次のように要約できる。

PP−モード：
サブ符号帳：５パルス×３ビット／パルス＋３サイン＝１８ビット
LTP-モード：
サブ符号帳１：３パルス×３ビット／パルス＋３サイン＝１２ビット,phase_mode=１
サブ符号帳２：３パルス×３ビット／パルス＋２サイン＝１１ビット,phase_mode=０
サブ符号帳３：１１ビットのガウスサブ符号帳
この３つのサブ符号帳の一つが、LTP-モードで検索する際にガウスサブ符号帳を好適化することにより選ばれる。適応重み付けはモードで２つのサブ符号帳からの基準値をガウスサブ符号帳からの基準値とを比較して適用される。重み付け０<W_c<=１はつぎのように、定義される。

W_c=１．０−０.９P_NSR（1.0−０.５R_p）・ｍｉｎ｛P_sharp+０．５，１．０｝
if(ノイズ状無声(noise-like unvoiced)) W_ｃ<= W_c（0.2Ｒ_ｐ（1.0−R_{ｓｈａｒｐ}）＋0.8）
５.８kbpsエンコードモードは、長期前処理（PP）でのみ作動する。全１４ビットは３つのサブ符号帳に割り当てられる。このサブ符号帳ビット割り当ては次のように要約される。

サブ符号帳１：４パルス×３ビット／パルス＋１サイン＝１３ビット,phase_mode=１
サブ符号帳２：３パルス×３ビット／パルス＋３サイン＝１２ビット,phase_mode=０
サブ符号帳３：１２ビットのガウスサブ符号帳
この３つのサブ符号帳の１つが２つのパルスサブ符号帳からの基準値とガウスサブ符号帳からの基準値を比較するとき適用された適応重み付けを用いるガウスサブ符号帳を好適化することにより選ばれる。重み付け、０<W_ｃ<=１は次のように定義される。

W_ｃ=１．０−P_NSR（1.0−０.５R_p）・ｍｉｎ｛P_sharp+０．６，１．０｝
if(ノイズ状無声) W_ｃ<=W_ｃ（0.3R_ｐ（1.0−Ｐ_{ｓｈａｒｐ}）＋0.7）
この４.５５ｋｂｐｓビットレートモードは長期前処理（PP）でのみ作動する
。全１０ビットは３つのサブ符号帳に割り当てられる。このサブ符号帳へのビット割り当ては次のように要約される。

サブ符号帳１：２パルス×４ビット／パルス＋１サイン＝９ビット,phase_mode=１
サブ符号帳２：２パルス×３ビット／パルス＋２サイン＝８ビット,phase_mode=０
サブ符号帳３：８ビットのガウスサブ符号帳
この３つのサブ符号帳の１つが２つのパルスサブ符号帳からの基準値とガウスサブ符号帳からの基準値を比較するとき適用された適応重み付けを用いるガウスサブ符号帳を好適化することにより選ばれる。重み付け０<W_ｃ<=１は、次のように定義される。

W_ｃ=１．０−１．２P_NSR（1.0−０.５R_p）・ｍｉｎ｛P_sharp+０．６，１．０｝
if(ノイズ状無声) W_ｃ <= W_ｃ（0.6Ｒｐ（１．０−Ｒ_{ｓｈａｒｐ}）＋０．４）
４.５５、５.８、６．６５および８．０kbpsビットレートエンコードモードについては、ゲインの再最適化手法は適応および、固定符号帳ゲインそれぞれ、g_pおよびｇ_ｃを第３図で示したように結合し、最適化して行われる。最適化ゲインは次の関係から与えられる：
g_p = (R₁R₂-R₃R₄)/(R₅R₂-R₃R₃)
g_c = (R₄-g_pR₃)/R₂
ここで、R_１=< C_pバー,T_gsバー>, R₂ =<C_cバー,C_cバー >, R₃ =<C_pバー,C_cバー>, R₄ =<C_cバー ,Tgsバー>, R₅ =<C_pバー,C_pバー >である。C_cバー , C_pバー , T_gsバーは、フィルターされた固定符号帳励起、フィルターされた適応符号帳励起,適応符号帳検索用目標信号である。

１１kbpsビットレートエンコーディングについては、適応符号帳ゲインｇ_ｐが閉ループピッチ検索において計算したときと同じように残る。固定符号帳ゲインｇ_ｃは次のように得られる。
g_c = R₆/R₂
ここで、R₆ =< C_pバー,T_ｇバー>およびT_gバー= T_gsバー−g_pC_pバー

原CELPアルゴリズムは合成による分析（波形マッチング）の概念を基礎としている。低いビットレートあるいはノイズの多い音声を符号化するとき、波形マッチングはそのゲインが上下して困難になり、しばしば不自然な音となる。これらの問題を補うためには、閉ループ合成による分析で得られたゲインが修正あるいは正規化されることが必要である。

ゲインの正規化には、２つの基本的な手法がある。一つは開ループ手法と呼ばれるもので、合成された励起のエネルギーを量子化されていない残差信号のエネルギーに正規化する。もう一つは閉ループ手法で、これにより知覚的重み付けを考慮した正規化がなされる。ゲイン正規化の因子は、前記閉ループ手法の一つと前記開ループ手法の一つとの線形的な組合せである。その組合せに使用される重み付け係数は、前記ＬＰＣゲインにしたがって制御される。

次の条件の一つが満たされれば、ゲインの正規化を行う決定がなされる。

（ａ）ビットレートが８．０又は６．６５ｋｂｐｓで、雑音様の無声化された音
声が真。
（ｂ）雑音レベルＰ_NSRが０．５より大。
（ｃ）ビットレートが６．６５ｋｂｐｓで、雑音レベルＰ_NSRが０．２より大。
（ｄ）ビットレートが５．８又は４．４５ｋｂｐｓ。

残差エネルギーＥ_resと目標信号エネルギーＥ_Tgsとは、それぞれ次のように定義される。

そして、平滑化された開ループエネルギーと平滑化された閉ループエネルギーとは、次のように評価される。
If(第１サブフレームが真)
Ol_Eg = E_res
else
Ol_Eg <= β_sub・Ol_Eg + (1-β_sub)E_res
If(第１サブフレームが真)
Cl_Eg = E_Tgs
else
Cl_Eg <= β_sub・Cl_Eg + (1-β_sub)E_Tgs
βsubは、分類によって決定される平滑化係数である。基準エネルギーが得られたら、開ループゲインの平滑化因子を計算する。

C_olは、ビットレートが１１．０ｋｂｐｓの場合に０．８、他のレートについては０．７である。また、ν(n)は励起であって、
ν(n) = ν_a(n)g_p + ν_c(n)g_c, n=0,1,...,L_SF-1
ｇ_ｃ及びｇ_ｐは、量子化されていないゲインである。同様に、閉ループゲインの正規化因子は、

C_clは、ビットレートが１１．０ｋｂｐｓの場合に０．９、他のレートについてC_clは０．８である。ｙ(n)はフィルタされた信号（ｙ(n) = ν(n)*ｈ(n)）で、
ｙ(n) = ｙ_a(n)g_p + ｙ_c(n)g_c, n=0,1,...,L_SF-1
である。

最後のゲイン正規化因子ｇ_fは、Cl_g及びOl_gの組合せであり、ＬＰＣゲインパラメータＣ_LPCに関して制御される。

If(音声が真又はレートが１１ｋｂｐｓ)
ｇ_f = Ｃ_LPCOl_g + (1-Ｃ_LPC) Cl_g
ｇ_f = ＭＡＸ(1.0,ｇ_f)
ｇ_f = ＭＩＮ(ｇ_f, 1+Ｃ_LPC)
If(背景雑音が真でレートが１１ｋｂｐｓより小)
ｇ_f = 1.2 ＭＩＮ{Cl_g, Ol_g}
ここで、Ｃ_LPCは次のように定義される。

Ｃ_LPC = ＭＩＮ{sqrt(E_res/E_Tgs), 0.8}/0.8
いったんゲイン正規化因子が決定されると、量子化されていないゲインは修正される。
ｇ_p <= ｇ_p・ｇ_f

４．５５、５．８、６．６５及び８．０ｋｂｐｓビットレートエンコーディングについては、前記適応符号帳ゲインと固定符号帳ゲインとは、４．５５ｋｂｐｓの場合６ビット、他のレートの場合７ビットを用いて量子化されたベクトルである。ゲイン符号帳検索は、元の音声信号と再構築された音声信号との間の重み付き誤差Errの自乗平均を最小とすることによってなされる。
Err = ‖Ｔ_gsバー - ｇ_pＣ_pバー - ｇ_cＣ_cバー‖²
１１．０ｋｂｐｓのレートについては、スカラー量子化が行われ、適応符号帳ゲインｇ_pは４ビットを用いて、固定符号帳ゲインｇ_cは５ビットを用いてそれぞれ量子化される。

固定符号帳ゲインｇ_cは、以下のようにしてスケールされた固定符号帳励起のエネルギーをＭＡ予測することによって得られる。サブフレームｎにおけるスケールされた固定符号帳励起の平均除去エネルギーＥ(n)（ｄＢ）は、次式によって与えられる。

ｃ(i)はスケールされていない固定符号帳励起、Ｅバー = ３０ｄＢは、スケールされた固定符号帳励起の平均エネルギーである。

予測されたエネルギーは次式によって与えられる。

[ｂ₁ｂ₂ｂ₃ｂ₄] = [0.68 0.58 0.34 0.19]はＭＡ予測係数、^Ｒ(n)はサブフレームｎにおける量子化された予測誤差である。

予測されたエネルギーは、予測固定符号帳ゲインｇ_cドットを（Ｅ(n)を~Ｅ(n)により、ｇ_cをｇ_cドットにより置換して）計算するのに用いられる。これは、次のようにして行われる。まず、スケールされていない固定符号帳励起の平均エネルギーを計算する。

そして、予測されたゲインｇ_cドットを得る。
ｇ_cドット = １０^{（0.05(~E(n)+Eバー-Ei)）}
ゲインｇ_cと予測値ｇ_cドットとの間の修正因子は、次式によって与えられる。
γ = ｇ_c／ｇ_cドット
これはまた、予測誤差とも関連する。

Ｒ(n) = Ｅ(n) - ~Ｅ(n) = ２０logγ
エンコードビットレート４．５５、５．８、６．６５、及び８．０ｋｂｐｓについての符号帳検索は、２つのステップからなる。第１のステップでは、量子化された予測誤差を表す単式表（single entry table）のバイナリ検索が行われる。第２のステップでは、自乗平均誤差の意味で量子化されていない予測誤差に最も近い最適エントリのインデクスIndex_1が使用され、適応符号帳ゲインと予測誤差とを表す二次元ＶＱテーブルの検索を制限する。ＶＱテーブルの特定の配列及び順序を活用して、Index_1によって指示されるエントリの近辺で利用する候補がほとんどない、高速検索が実行される。実際、テストしたところ、ＶＱテーブルのエントリの約半分がIndex_2を持つ最適エントリへ通じている。Index_2のみが送信される。

１１．０ｋｂｐｓビットレートエンコーディングモードでは、両方のスカラーゲイン符号帳が完全検索されて、ｇ_p及びｇ_cを量子化する。ｇ_pについては、誤差Err = abs(ｇ_p - ｇ_pバー)を最小化することによって検索が行われる。一方、ｇ_cについては、誤差Err = ‖Ｔ_gsバー - ｇ_pバーＣ_pバー - ｇ_cＣ_cバー‖²
を最小化することによって検索が行われる。

次のサブフレームの目標信号を計算するために、合成及び重み付けフィルタの状態を更新する必要がある。２つのゲインを量子化した後に、現在のサブフレームの励起信号ｕ(n)を計算する。
ｕ(n) = ｇ_pバーν(n) + ｇ_cバーｃ(n), n = 0, 39
ｇ_pバー、ｇ_cバーは、それぞれ量子化された適応及び固定符号帳ゲインであり、ν(n)は適応符号帳励起（補間された過去の励起）、ｃ(n)は固定符号帳励起である。４０のサンプルサブフレームについて、フィルタ１／Ａ(z)バー及びＷ(z)を通じて信号ｒ(n) - ｕ(n)をフィルタリングすることにより、フィルタの状態を更新することができる。これには、通常、３回のフィルタリングが必要であろう。

１回のフィルタリングのみが必要とされる簡便な手法は、次のようである。エンコーダにおける局所的合成音声^ｓ(n)は、１／Ａ(z)バーを通して励起信号をフィルタリングすることにより計算される。入力ｒ(n) - ｕ(n)のため、フィルタの出力はｅ(n) = ｓ(n) - ^ｓ(n)と等価であり、合成フィルタ１／Ａ(z)バーの状態は、ｅ(n), n=0,39によって与えられる。このフィルタを通して誤差信号ｅ(n)をフィルタリングして知覚的に重み付けされた誤差ｅ_w(n)を見いだすことにより、フィルタＷ(z)の状態を更新することができる。しかし、信号ｅ_w(n)は、次式によって等価なものとして見いだされる。
ｅ_w(n) =Ｔ_gs(n) - ｇ_pバーＣ_p(n) - ｇ_cバーＣ_c(n)
重み付けフィルタの状態は、ｅ_w(n)をn=30から39までについて計算することにより更新される。

デコーダの機能は、送信されたパラメータ（ｄＬＰパラメータ、適応符号帳ベクトルとそのゲイン、固定符号帳ベクトルとそのゲイン）のデコードと、合成を実行して再構成された音声を得ることからなる。次いで再構成された音声は、ポストフィルタリング及びアップスケールされる。

デコード処理は、以下の順序で実行される。まず、ＬＰフィルタパラメータがエンコードされる。受信されたＬＳＦ量子化インデクスを使用して、量子化されたＬＳＦベクトルが再構成される。補間が行われ、４つの補間されたＬＳＦベクトル（４つのサブフレームに対応する）が得られる。各サブフレームについて、補間されたＬＳＦベクトルはＬＰフィルタ係数ドメインａ_kに変換され、サブフレーム内の再構成された音声を合成するのに使用される。

４．５５、５．８、及び６．６５（ＰＰ＿モード）ｋｂｐｓビットレートエンコーディングモードについて、受信されたピッチインデクスは、サブフレーム全体にわたってピッチラグを補間するのに使用される。各サブフレームについて、次の３つのステップが反復される。

１）ゲインのデコード
４．５５、５．８、６．６５、及び８．０ｋｂｐｓのビットレートについて、受信されたインデクスを用いて、二次元ＶＱテーブルから量子化された適応符号帳ゲインｇ_pバーを見いだす。同じインデクスを用いて、同じ量子化テーブルから固定符号帳ゲイン修正因子γバーを取得する。量子化された固定符号帳ゲインｇ_cバーは、以下のステップにしたがって得られる。

・予測されたエネルギーを計算する。

・スケールされていない固定符号帳励起のエネルギーを計算する。

・ｇ_cドット = １０^{（0.05(~E(n)+Eバー-Ei)）}として、予測されたゲインｇ_cドットを得る。

量子化された固定符号帳ゲインは、ｇ_cバー＝γバーｇ_cドットで与えられる。１１ｋｂｐｓビットレートについては、受信された適応符号帳ゲインのインデクスを用いて、量子化テーブルから容易に量子化された適応ゲインｇ_pバーが見いだされる。受信された固定符号帳ゲインインデクスは、固定符号帳ゲイン修正因子γドットを与える。量子化された固定符号帳ゲインｇ_cバーの計算は、他のレートの場合と同じステップに従う。

２）適応符号帳ベクトルのデコード
８．０、１１．０、及び６．６５（ＬＴＰ＿モード＝１の間）ｋｂｐｓビットレートエンコーディングモードについては、受信されたピッチインデクス（適応符号帳インデクス）を用いてピッチラグの整数部と小数部とが見いだされる。適応符号帳ν(n)は、ＦＩＲフィルタを用いて過去の励起ｕ(n)を（ピッチディレイにおいて）補間することによって見いだされる。

３）固定符号帳ベクトルのデコード
受信された符号帳インデクスを使用して、符号帳のタイプ（パルス又は）と、励起パルスの振幅及び位置又はガウス励起のベース及び符号雑音れかを抽出する。いずれの場合であっても、再構成された固定符号帳励起は、ｃ(n)と与えられる。ピッチラグの整数部がサブフレームサイズ４０よりも小で、選択された励起がパルスタイプであれば、ピッチシャープニングが適用される。これは、ｃ(n)をｃ(n)＝ｃ(n)＋βｃ（ｎ−Ｔ）と変更するように読み替えるもので、βは[0.2, 1.0]によって拘束される以前のサブフレームからのデコードされたピッチゲインｇ_pバーである。

合成フィルタの入力における励起は、ｕ(n) = ｇ_pバーν(n) + ｇ_cバーｃ(n), n = 0, 39で与えられる。音声合成の前に、励起要素の後処理が行われる。これは、励起全体が、適応符号帳ベクトルの寄与を強調することで修正されることを意味する。

適応ゲイン制御（ＡＧＣ）は、強調されていない励起ｕ(n)と強調されたｕ(n)バーとの間のゲインの相異を補償するために用いられる。強調された励起に対するゲインスケーリング因子ηは、次式により計算される。

ゲインがスケーリングされた強調された励起ｕ(n)バーは、
ｕ(n)’バー＝ηｕ(n)バーによって与えられる。再構成された音声は、

によって与えられ、ａ_iバーは補間されたＬＰフィルタの係数である。合成された音声ｓ(n)バーは、次いで、適応ポストフィルタを通過する。

後処理は、２つの機能からなる。適応ポストフィルタリングと信号のアップスケーリングである。適応ポストフィルタは、３つのフィルタ、すなわちフォルマントポストフィルタと２つのチルト（tilt）補償フィルタとのカスケード接続である。フォルマントポストフィルタは、
Ｈ_f(z)＝Ａ（ｚ／γ_ｎ）バー／Ａ（ｚ／γ_ｄ）バー
と与えられる。Ａ(z)バーは受信された量子化及び補間されたＬＰ逆フィルタであり、γ_ｎ及びγ_ｄは、フォルマントポストフィルタリングの量を制御する。

第１のチルト補償フィルタＨ_tl(z)は、フォルマントポストフィルタＨ_f(z)内部のチルトを補償するもので、次式で与えられる。
Ｈ_tl(z)＝（１−μｚ^−１）
μ＝γ_tlｋ₁はフォルマントポストフィルタｋ₁＝ｒ_h(1)／ｒ_h(0)のチルト因子で、ｋ₁は切頭インパルス応答ｈ_f(n)上で計算された第１の反射係数で、

ポストフィルタリング処理は、以下のように行われる。まず、合成された音声ｓ(n)バーがＡ（ｚ／γ_ｎ）バーを通じて逆フィルタされ、残差信号ｒ(n)バーを生成する。信号ｒ(n)バーは、合成フィルタ１／（Ａ（ｚ／γ_ｄ）バー）によってフィルタされ、第１のチルト補償フィルタｈ_tl(z)に渡されて、ポストフィルタリングされた音声信号ｓ_f(n)バーとなる。

適応ゲイン制御（ＡＧＣ）は、合成音声信号ｓ(n)バーとポストフィルタリングされた信号ｓ_f(n)バーとの間のゲインの差異を補償するのに用いられる。現在のサブフレームに対するゲインスケーリング因子γは、次のように計算される。

ゲインがスケーリングされ、ポストフィルタリングされた信号ｓ’(n)バーは、ｓ’(n)バー＝β(n)ｓ_f(n)バーによって与えられる。β(n)は、サンプルごとに更新され、次式で与えられる。

β(n)＝αβ(ｎ−１)＋（１−α）γ
αはＡＧＣ因子であり、その値は０．９である。最後に、アップスケーリングは、ポストフィルタリングされた音声に因子２を乗じて、入力信号に適用されていた２倍のダウンスケーリング（the down scaling by 2）を復元する（undo）ことからなる。

図６及び図７は、４ｋｂｐｓ音声コーデックについての代替実施例を示す図であり、また本発明の種々の態様を例示する。特に、図６は、本発明にしたがって製作された音声エンコーダ６０１のブロック図である。この音声エンコーダ６０１は、合成による分析の原理に基づいている。４ｋｂｐｓで有料サービスとしての品質を達成するために、音声エンコーダ６０１は、通常のＣＥＬＰ符号化器の厳密な波形一致判断基準からは逸脱しているが、入力信号の重要な知覚的特徴を捉えようとしているものである。

音声エンコーダ６０１は、フレームサイズ２０ｍｓで動作し、３つのサブフレーム（６．６２５ｍｓを２つと、６．７５ｍｓを１つ）を備える。１５ｍｓのルックアヘッドが用いられる。５５ｍｓまでのコーデックの一方向符号化遅れが加算される。

ブロック６１５では、スペクトル包絡が各フレームについて１０次のＬＰＣ分析によって表される。予測係数は、量子化のため、線スペクトル周波数（ＬＳＦｓ）に変換される。入力信号は、品質を損なうことなく符号化モデルにより適合するように修正される。この処理は、ブロック６２１によって示されているように、「信号修正（signal modification）」を意味している。再構成された信号の品質を改善するために、知覚的に重要な特徴が評価され、エンコードの過程で強調される。

ＬＰＣ合成フィルタ６２５の励起信号は、２つの従来の要素、１）ピッチ寄与と２）イノベーション寄与とから構成されている。ピッチ寄与は、適応符号帳６２７を利用することによって与えられる。イノベーション符号帳６２９は、広帯域の入力信号に対してロバストであるために、いくつかのサブ符号帳を有している。これら２つの寄与に対して、それぞれ励起信号を与えるゲインが適用される。すなわち、各符号帳ベクトルが乗じられて合計される。

ＬＳＦ及びピッチラグは、フレームをベースとして符号化され、残差パラメータ（イノベーション符号帳インデクス、ピッチゲイン、及びイノベーション符号帳ゲイン）は各サブフレームについて符号化される。ＬＳＦベクトルは、予測ベクトル量子化を用いて符号化される。ピッチラグは、ピッチ期間を構成する整数部と小数部とを有する。量子化されたピッチ期間は、不均一な分解能を持っており、遅れが小さいほど量子化された値の密度が高くなる。パラメータについてのビット割付を次表に示す。

１つのフレームについてのすべてのパラメータの量子化が完全であるとき、インデクスは多重化されて、シリアルビットストリームに対して８０ビットを形成する。

図７は、図６のエンコーダと対応する機能を備えたデコーダ７０１のブロック図である。デコーダ７０１は、デマルチプレクサ７１１から１フレームについて８０ビットを受信する。ビットを受信すると、デコーダ７０１は、不良フレームの指示につき、同期ワードをチェックする。そして、８０ビット全体を破棄してフレーム削除隠蔽（frame erasure concealment）を適用すべきかどうか決定する。そのフレームがフレーム削除を宣言されていないならば、前記８０ビットはコーデックのパラメータインデクスにマップされ、パラメータは図６のエンコーダの逆量子化方式を利用してそのインデクスからデコードされる。

ＬＳＦ、ピッチラグ、ピッチゲイン、イノベーションベクトル、及びイノベーションベクトルのゲインがデコードされると、ブロック７１５によって励起信号が再構成される。出力信号は、この再構成された励起信号をＬＰＣ合成フィルタ７２１を通過させることによって合成される。再構成された信号の知覚的な品質を向上させるため、ブロック７３１において、短期と長期との両方の後処理が適用される。

４ｋｂｐｓコーデックのビット割付に関し（先の表に示されるように）、ＬＳＦ及びピッチラグが、それぞれ２０ｍｓあたり２１ビット及び８ビットで量子化される。３つのサブフレームは異なるサイズであるが、残差ビットはそれらの中に均等に割付けられる。したがって、イノベーションベクトルは、サブフレームあたり１３ビットで量子化される。これを加算すると２０ｍｓにつきトータル８０ビットとなり、４ｋｂｐｓに相当する。

計画されている４ｋｂｐｓコーデックについて予想される複雑さの数（complexity number）は、次表に示されている。すべての数値は、このコーデックが全二重モードの市販されている１６ビット固定小数点（fixed point）ＤＳＰ上に実装する想定に基づいている。すべての記憶容量に関する数値は、１６ビットワードを仮定しており、複雑さは、前記コーデックの浮動小数点Ｃソースコードに基づいて見積もられている。

デコーダ７０１は、一般にソフトウェアの制御にしたがって動作するデコード処理回路を備える。同様に、エンコーダ６０１（図６）もまた、ソフトウェアの制御にしたがって動作するエンコーダ処理回路を備える。このような処理回路は、少なくともその一部を、シングルＤＳＰのような単一の処理ユニットの中に共存させることができる。

図８は、本発明を示す機能的なブロック図であり、一の実施例において、音声信号の識別された知覚的特性に応じて、適宜の符号化方式を選択する。特に、エンコーダ処理回路は、符号化選択処理８０１を利用して、与えられた音声信号に対して適切な符号化方式を選択する。ブロック８１０において、音声信号が分析され、少なくとも１つの知覚的な特性が識別される。この特性には、ピッチ、強さ、周期性、又は音声信号処理の分野における当業者にとっては周知の他の特性が含まれることがある。

ブロック８２０では、ブロック８１０で識別された特性が利用され、音声信号に対して適切な符号化方式を選択する。ブロック８３０では、ブロック８２０にて選択された符号化方式パラメータがデコーダへ伝送される。その符号化パラメータは、符号化パラメータがチャネルデコーダ１３１（図１ａ）へ搬送される通信チャネル（図１ａ）を介して伝送してもよい。あるいは、符号化パラメータは、いかなる通信媒体を介して伝送してもよい。

図９は、本発明の他の実施例を示す機能ブロック図である。特に、図９は、符号化選択システムを示しており、ブロック９１０において、アクティブな内容を持つかイナクティブな内容を持つかにより音声信号を分類する。ブロック９１０で実行される分類によって、第１又は第２の符号化方式が、ブロック９３０、９４０にてそれぞれ採用される。本発明には２以上の符号化方式を含めてもよく、それは本発明の範囲及び精神からなんら逸脱するものではない。種々の符号化方式からの選択は、決定ブロック９２０を用いて行うことができ、信号が持つ音声の活性（voice activity）が、特定の符号化方式を実行するについての主要な判断基準とされる。

図１０は、本発明の他の実施例を示す機能ブロック図である。特に、図１０は、他の実施例である符号化選択システム１０００を示している。ブロック１０１０では、入力音声信号ｓ(n)が重み付けフィルタＷ(z)を用いてフィルタリングされる。この重み付けフィルタには、知覚的重み付けフィルタ２１９（図２）又は重み付けフィルタ３０３（図３）と類似のフィルタを含めることができる。ブロック１０２０では、音声信号の音声パラメータが識別される。この音声パラメータには、ピッチ、強さ、周期性、又は音声信号処理の分野における当業者にとっては周知の他の特性等の音声特性が含まれることがある。

この特定の実施例にあっては、ブロック１０３０で、ブロック１０２０で識別された音声パラメータが処理され、音声信号がアクティブな音声内容を有しているか否か判定される。決定ブロック９２０は、ブロック１０４０に示すように、音声信号がボイスアクティブ（voice active）であると判明すれば、符号化選択システム１０００に符号励起線形予測を採用するように指令する。あるいは、音声信号がボイスイナクティブ（voice inactive）であると判明すれば、音声信号のエネルギーレベルとスペクトル情報とがブロック１０５０で識別される。しかし、励起については、エンコーディングに対してランダムな励起シーケンスが用いられる。ブロック１０６０では、ランダムな符号ベクトルが識別され、音声信号のエンコーディングに使用される。

図１１は、音声コーデックのシステム図であって、雑音、パルス様音声、及び雑音様音声の符号化及び復号化に関する本発明の種々の態様を示している。雑音は、雑音様の信号を表すものと解釈してもよく、背景雑音や実際の音声信号が含まれることがある。一定の実施例にあっては、音声信号はそれ自体雑音様の音声であることがあり、また単に雑音様の信号の特性を含んでいる場合もある。いわば、音声信号の一定の特性により、それが実質的に雑音様の音声であることになる場合がある。他の場合には、音声信号はかなりの量のパルス様の信号を含んでいる。一定のパルス様の音声は、背景雑音、例えばパルス様の特性を備えた街頭の背景雑音と類似した特性を含んでいる。

特に、低ビットレートであることを要する実施例における音声の符号化及び復号化では、その音声信号自体の特性に基づいて、入力音声信号に異なった処理をする必要があることになる。例えば、背景雑音は、音声を符号化／復号化するのに用いられる最適な手法とは異なる特別の手法を用いて、より効果的に符号化及び復号化することができる。同様に、雑音様の音声は、再生品質をより高めるために、パルス様の音声とは異なった処理をしてもよい。また、音声信号の雑音様信号成分も、他のタイプの音声とは異なった別の方法で処理することができ、それにより提供される音声の符号化及び復号化は、与えられた音声信号自体の特定の特性に対して決定論的である。

この種の、そして他のタイプの音声を分類し補償するのに用いることが可能な手法は多様である。一定の実施例では、音声信号の分類に雑音様信号又はパルス様信号の１つ又は他のものである音声信号の「ハードな（hard）」分類が含まれる。他の実施例では「ソフトな（soft）」分類が適用され、音声信号の中に存在するパルス様信号及び／又は雑音様信号の量を識別することが含まれる。

同様に、雑音補償は、「ハードな」方法又は「ソフトな」方法で適用することができる。実際、必須というわけではないが、「ハード」、「ソフト」いずれの手法も同一のコーデック内で異なる符号化機能に対して使用することができる。例えば、同一の符号体系内では、ゲイン平滑化、ＬＳＦ平滑化、及びエネルギー正規化に「ソフトな」手法を利用することができ、ソースエンコーディングのタイプを選択するには「ハードな」手法を用いることができる。

より詳細には、コーデックは単に音声信号中の雑音様信号の有無を検出しているだけの実施例もある。あるいは、まず音声信号中における雑音様信号の存在を判定し、次いで、その雑音様信号の相対的なあるいは固有の量を決定することによってコーデックが適応する。この情報を用いて、前記相対的又は固有の量を検出することに基づいて、引き続き一定の「補償ステップ」を実行するかどうかを決定することもできるであろう。引き続くステップの一つに雑音の補償が含まれる。雑音補償には多様な方法が含まれ、特に、雑音様の音声信号、雑音が含まれている音声信号、及び背景雑音について、再生される音声信号の高度な知覚的品質を確保するのに用いられる。知覚の上では、再生された音声信号は、人の耳で聞いた場合、元の音声信号とほとんど差が感じ取れないように聞こえる。雑音補償は、音声コーデックのエンコーダ又はデコーダのいずれかで実行される。他の実施例では、音声コーデックのエンコーダとデコーダとの両方で実行される。

雑音補償は、雑音挿入を用いて行うことができる。雑音挿入は、種々の実施例において、多様な方法で行うことが可能である。１つの実施例では、デコーダにおいて、所定の量の平坦な、帯域が限定された、又はフィルタリングされた雑音信号を合成された信号に加える。雑音挿入を行う他の方法では、雑音様の符号帳を用いて雑音様の残差信号を符号化するか、あるいは、少なくとも知覚上元の雑音様信号とかなり似ているある合成された信号に対して、単にデコーダの励起として雑音様の信号を採用する。

他の雑音補償を行う方法では、パルス様の信号を修正することが行われる。ある実施例では、パルス様の信号を用いて励起信号を再生する。エンコーダでの計算が簡単になり、有声音の音声についての知覚的な品質が高まるからである。検出された信号については、エンコーダから伝送されるパルス様信号の知覚的品質は一般に低い。この欠点を克服するため、パルス様の励起又は合成された信号はデコーダで修正されて、再生された音声信号が知覚上より雑音らしく聞こえ、またあまり尖鋭的（spiky）に聞こえないようにする。この修正は、時間領域又は周波数領域のいずれかにおいて、異なった方法で実行することができるであろう。この修正を実行する代替の方法としては、この発明にしたがって行われるエネルギー拡張（energy spreading）、位相拡散（phase dispersing）、又はパルスピークのカッティング（pulse-peak cutting）がある。

雑音補償を行う他の方法は、ゲイン、すなわちエネルギーと、スペクトルとを平滑化することである。雑音様の信号は、それに付随しているエネルギーが急速に変化する遷移の状態にあるならば、知覚上、パルス信号と類似して聞こえることがある。逆に言えば、パルス様の信号も、その付随するエネルギーが平滑化されていたときは、少なくとも知覚の上では雑音信号とほとんど同じように聞こえる。平滑化することで、定常的な信号の知覚上の品質が効果的に向上される。

雑音補償をすべての音声信号について行う必要はないから、雑音検出を用いて本発明の種々の実施例において行われる雑音補償の度合が制御される。明示的に列挙していないが、再生信号の知覚上の自然な品質を維持するのを支援する雑音補償を行う代替の方法もまた本発明の範囲と精神とに包含されることは、当業者の認識するところであろう。

一例として、図１１では、音声コーデック１１００はエンコーダ及びデコーダ（図示せず）を有しており、ブロック１１１１で表されるように、音声信号１１０７の分類を行う。そして、雑音補償を行うブロック１１１３で表されるように、出力信号１１０９の再生品質を高めるべくエンコード及び／又はデコード処理によって補償を行う。特に、それと関連する種々のタイプの音声及び／又は雑音補償方式の分類は、全体として、音声コーデック１１００のエンコーダ又はデコーダの内部に置くことができる。あるいは、その分類及び／又は雑音補償をエンコーダとデコーダとに分担させてもよい。前述の通り、このエンコーダは、変化する（「分類された」）音声特性について、使用される複数のエンコード方式の１つを選択することによって、例えば雑音様又はパルス様符号帳励起ベクトルを選択することによって、分類及び雑音補償を実行する回路とそれに関連するソフトウェアとを含むことができる。

雑音補償１１１３及び分類１１１１の処理は、段階的なものであってもよいし、あるいはより即時的なものであってもよい。例えば、分類１１１１は、現在の音声部分が背景雑音を含んでいるという（安全率を見込んだ）可能性を表す重み付け因子を生成することができる。同一の又は他の重み付け因子が、音声部分が雑音様又はパルス様の音声を含む確度を表してもよい。そして、このような一又は複数の重み付け因子は、雑音補償１１１３の処理において使用することができる。重み付け因子は、デコード処理中にデコーダが雑音を挿入するのに使用することができ、重み付け因子の大きさが大きいほど雑音挿入の量も大きくなる。より段階的でないか又は即時的な手法では、その一又は複数の重み付け因子に閾値を適用して雑音を挿入するかどうかを決定するようにしてもよい。

代替として、すでに述べたように、雑音補償１１１３には、分類された音声信号にもっともよく対応する異なったエンコード方式の選択等、エンコーダ内部の処理を含めてもよい。このような実施例では、例えば重み付け、閾値化（thresholding）等の、前記段階的な又はより即時的な手法を適用してもよい。

他の実施例では、雑音補償１１１３には、エンコード又はデコード処理中に音声信号を修正する処理が含まれる。分類１１１１及び雑音補償１１１３は、エンコーダ又はデコーダのいずれかで実行してよく、あるいはそれら両方の間で分散させて行うようにしてもよい。このような修正としては、音声再生に使用されるゲインの平滑化があるであろう。それにはまた、あるいは代替として、なんらかのＬＳＦ平滑化、エネルギー正規化、又はデコーダにおいて実行されるあるフィルタリングが含まれる。前記修正では、また、例えば雑音挿入フィルタリングを行う、及び／又はそのパルス様信号を雑音様信号で置き換えるなど、パルス様の信号に雑音を部分的に加えてもよい。このような補償方式を用いて、再生音声信号の知覚的品質が改善される。

図１２は、図１１の音声コーデックを例示する実施例であり、音声信号の少なくとも１つの特性を分類し、補償することを示している。一定の実施例にあっては、これは、種々のタイプの雑音を分類し、知覚的には区別することができない音声の再生においてモデル化された雑音を補償することを含む。特に、エンコーダ１２１０内部で、分類１２４０及び雑音補償１２５０の処理が動作し、音声信号内に雑音が存在することを識別し、音声信号の処理中に雑音を補償すべきかどうか判定する。同様に、デコーダ１２３０内では、分類１２６０及び雑音補償１２７０の処理が動作し、音声信号内に雑音が存在することを識別し、なんらかの存在する雑音を補償すべきかどうか判定する。分類処理１２４０と１２６０とは独立して動作する。同様に、本実施例にあっては、雑音補償処理１２５０と１２７０とは独立して動作し、音声信号を再生するために、存在するいかなる雑音も全量ともに補償する。

本発明のある実施例においては、分類処理１２４０と分類処理１２６０とは関連して動作し、音声信号の中の雑音を検出する。分類処理１２４０は、音声全体の分類、すなわち音声信号中の雑音検出を行う際に、通信リンク１２２０を介して分類処理１２６０と通信する。ここで用いる「雑音」という用語には、厳密には背景雑音あるいは音声信号自体の内部の（背景又はそうでない）雑音である可能性のある「雑音様の信号」が含まれる。信号は、雑音として分類されるべき雑音様の信号の特性を備えることだけが必要である。

同様に、雑音補償処理１２５０及び１２７０は、共同して動作し、音声信号を再生すべく雑音を補償することができる。雑音処理１２５０は、音声信号の再生において雑音挿入を行う際に、通信リンク１２２０を介して雑音補償処理１２７０と通信する。もちろん、他の実施例にあっては、分類処理１２４０と１２６０とが独立して動作することができる場合であっても、雑音補償処理１２５０及び１２７０は共同で動作することができる。また、雑音補償処理１２５０及び１２７０が独立して動作することができる場合であっても、分類処理１２４０と１２６０とは共同で動作することができる。

ある実施例においては、エンコーダ１２１０の雑音補償処理１２５０を用いて音声信号をエンコードする際に雑音を挿入してもよい。このような実施例では、その挿入された雑音は、エンコードされた後に、通信リンク１２２０を通じてデコーダ１２３０へ伝送されるであろう。その代わりに、デコーダ１２３０の雑音補償処理１２７０を用いて音声信号をデコードする間に、雑音を挿入してもよい。所望であれば、デコーダ１２３０を用いて音声信号を再生する前又は後に雑音を挿入することもできる。

例えば、雑音補償処理１１５０及び１１７０は、前述したように、音声信号を実際に再生する前に、種々のタイプの雑音の所定の符号帳を用いて行われることとなる雑音挿入を提供することが可能である。このような実施例では、特定のタイプの雑音に対する特定のコードベクトルが、実際の音声信号を再生するために使用されているコードベクトルの上に重畳される。他の実施例では、雑音をメモリに格納し、再生された音声の上に単純に重畳させることもできる。

前記したような種々の態様を組合せたいずれかのあるいは複数の実施例においては、エンコーダ１２１０とデコーダ１２３０とが協働して、音声信号及び再生された音声信号内の雑音の検出と補償との両方を実行することができる。

図１３は、本発明を図示するシステム図であり、一実施例として、エンコーダ１３１０とデコーダ１３３０とを両方備えた音声コーデック１３００である。特に、図１３は、音声コーデック１３００のデコーダ１３３０において雑音検出と雑音補償とを専属して実行するシステムを例示している。

本発明の一定の実施例においては、雑音検出１２６０及び雑音補償１３７０がデコーダ１３３０内で実行され、音声信号内の雑音の存在を識別し、音声信号を処理する間に雑音を補償すべきかどうかを判定するように動作する。この特定の実施例では、エンコーダ１３１０は、図１２の実施例では分類処理１２４０及び補償処理１２５０機能ブロックにおいて実行可能であったように雑音検出又は雑音補償を行わない。音声信号はエンコーダ１３１０を用いてエンコードされ、次いで通信リンク１２２０を介してデコーダ１３３０へ伝送される。デコーダ１３３０では、雑音検出１３６０が音声信号の中になんらかの雑音が存在するかどうかを判定する。そして、雑音補償１３７０は、必要であれば、いかなる雑音も補償し、元の音声信号と知覚上はほとんど区別ができないように音声を再生する。図１２の実施例と同様に、デコーダ１３３０を用いて音声信号を再生する前又は後に雑音を補償することができる。

図１４は、本発明の一実施例を図示するシステム図であり、エンコーダ１４１０とデコーダ１３３０とを両方備えた音声コーデック１４００である。特に、図１４は、音声コーデック１４００のエンコーダ１４１０とデコーダ１３３０との両方において雑音検出１４４０及び１３６０を実行するが、雑音補償１３７０は音声コーデック１４００のデコーダで専属して実行するシステムを例示している。

本発明の一定の実施例においては、雑音検出１４４０はエンコーダ１４１０内で実行され、音声信号内の雑音の存在を識別すべく動作する。また、雑音検出１３６０及び雑音補償１３７０がデコーダ１３３０内で実行され、音声信号内の雑音の存在を識別し、音声信号を処理する間に雑音を補償すべきかどうかを判定するように動作する。この特定の実施例では、エンコーダ１４１０は、雑音検出１４４０を実行するが、雑音補償を実行しない。音声信号はエンコーダ１４１０を用いてエンコードされ、次いで通信リンク１２２０を介してデコーダ１３３０へ伝送される。デコーダ１３３０では、雑音検出１３６０がエンコーダ１４１０の雑音検出１４４０と共同して動作し、音声信号の中になんらかの雑音が存在するかどうかを判定する。そして、雑音補償１３７０は、必要であれば、いかなる雑音も挿入して、元の音声信号と知覚上はほとんど区別ができないように音声を再生する。図１２及び図１３の実施例と同様に、雑音補償１３７０は、デコーダ１３３０を用いて音声信号を再生する前又は後に実行することができる。

図１５は、図１１、図１２、図１３、及び図１４の種々の実施例において記載されている雑音検出及び補償の特定の実施例を例示している。とりわけ、雑音処理システム１５００を用いて、音声信号内の雑音の識別だけでなく、出力励起信号１５５０を用いて、音声信号を適正にエンコードし再生するために雑音をモデリングする適当な方法を実行することができる。この出力励起信号１５５０は、本発明にしたがったコードベクトルであってもよく、次いで音声信号を再生するのに用いられる。あるいは、出力励起信号１５５０は、それ自体再生された音声信号であってもよい。

本発明の一定の実施例にあっては、音声信号に対応する音声パラメータ１５１０は雑音分類器１５３０へ伝達される。また、励起信号１５２０は、雑音補償１５４０を実行するブロックへ伝達される。励起信号は、本発明にしたがった励起コードベクトルとすることができる。励起コードベクトルは、符号励起線形予測を用いて採用されるのと同様のパルス励起コードベクトルであってもよい。一定の実施例にあっては、雑音分類器１５３０を用いて雑音補償１５４０の動作を制御してもよい。一の実施例においては、雑音分類器１５３０は、雑音補償１５４０が動作するかどうかを完全に制御することができる。

音声パラメータ１５１０は、雑音分類器１５１０を通過した後で、音声信号が雑音フィルタリングを要求していないことを示す場合には、雑音補償１５４０は、音声パラメータ１５１０又は励起信号１５２０になんら作用的なフィルタリングを及ぼさない単なる通過デバイスとしての役割を果たすことになろう。

このような実施例では、出力励起信号１５５０はいかなる雑音挿入も含まない
であろう。

しかし、音声信号を分類して雑音のフィルタリングが必要であったら、雑音補償１５４０はフィルタリングを実行する作用をするであろう。そして、出力励起信号１５５０は雑音補償されるであろう。あるいは、雑音補償１５４０の作用の攻撃性（aggressiveness）を、雑音分類器１５３０を用いて実行される雑音分類の関数として決定してもよい。言い換えれば、雑音フィルタリングが雑音補償１５４０を用いて実行する度合又は範囲は、雑音分類を行うのに採用される少なくとも一の特性によって制御されるであろう。他の実施例にあっては、雑音分類１５４０は、雑音補償１５４０の応答が追加の入力信号（図示せず）の関数として修正されうる適応パルスフィルタとして動作することができる。

雑音補償１５４０は、音声パラメータ１５１０の雑音分類に応答して入力励起信号１５２０の高周波数スペクトル成分を移相するように動作しうる。励起信号１５２０の高周波数スペクトル成分を移相することで、ある実施例においては知覚的な効果が与えられる。このような具体化が、知覚的に高品質の音声再生を提供する。

他にも多くの修正や変形が可能であることはもちろんである。前記本発明の詳細な説明及び添付図面を参照して、このような他の修正及び変形は、当業者にとって明らかとなるであろう。また、このような修正や変形が、本発明の精神と範囲とから逸脱することなく実施しうることも明白である。

さらに、以下の付録Ａは、この出願で使用される多くの定義、記号、及び略号のリストである。付録Ｂ及びＣはそれぞれ、本発明の一実施例で使用される種々のエンコードビットレートでのソース及びチャネルビットの順序付け情報を示す。付録Ａ、Ｂ、及びＣは、本出願の詳細な説明の一部をなし、そうでなければ、その全体が本出願に援用される。

付録Ａ
以下の符号、定義および略語が、本願のために用いられる。
適応符号帳（adaptive codebook）：適応符号帳は、各サブフレーム全てに適用される励起ベクトル（excitation vector）を含む。適応符号帳は、長期フィルタ状態から得られる。ピッチラグ値は、適応符号帳へのインデクスとして見ることができる。
適応ポストフィルタ（adaptive postfilter）：適応ポストフィルタは、再構築された音声の知覚的品質を向上させるために、短期合成フィルタの出力に適用される。適応マルチレートコーデック（ＡＭＲ）においては、適応ポストフィルタは、フォルマントポストフィルタおよびチルト補償フィルタの二つのフィルタのカスケード接続（cascade）である。

適応マルチレートコーデック（Adaptive Multi Rate codec）：適応マルチレートコード（ＡＭＲ）は、１１．４ｋｂｐｓ（「ハーフレート」）および２２．８ｋｂｐｓ（「フルレート」）の総ビットレートにて動作することのできる音声およびチャネルコーデックである。さらに、コーデックは、各チャネルモードに応じて、音声およびチャネル符号化（コーデックモード）のビットレートの種々の組合せにて動作することもできる。
ＡＭＲハンドオーバー（AMR handover）：ＡＭＲ動作を最適化するための、フルレートおよびハーフレートのチャネルモード間のハンドオーバーである。

チャネルモード（channel mode）：ハーフレート（ＨＲ）またはフルレート（ＦＲ）の動作である。

チャネルモード適応（channel mode adaptation）：（ＦＲまたはＨＲ）チャネルモードの制御および選択である。
チャネルリパッキング（channel repacking）：セル内においてより高い容量を達成するための、所定のラジオセルのＨＲ（およびＦＲ）ラジオチャネルのリパッキングである。

閉ループピッチ分析（closed-loop pitch analysis）：これは適応符号帳の検索である。すなわち、重み付けされた入力音声および長期フィルタ状態からピッチ（ラグ）値を概算するプロセスである。閉ループ検索においては、ラグは、誤差最小化ループ（合成による分析）を用いて検索される。適応マルチレートコーデックにおいては、閉ループピッチ検索は、各サブフレーム全てにつき実行される。
コーデックモード（codec mode）：所定のチャネルモードについての、音声およびチャネルコーデック間のビットパーティショニングである。

コーデックモード適応（codec mode adaptation）：コーデックモードのビットレートの制御および選択である。通常、チャネルモードの変更を伴わない。
ダイレクトフォーム係数（direct form coefficients）：短期フィルタパラメータを記憶するためのフォーマットの一つである。適応マルチレートコーデックにおいては、音声サンプルを変更するために用いられる全てのフィルタは、ダイレクトフォーム係数を用いる。

固定符号帳（fixed codebook）：固定符号帳は、音声合成フィルタのための励起ベクトルを含む。符号帳の内容は、非適応型（すなわち固定）である。適応マルチレートコーデックにおいては、特定のレートについての固定符号帳は、マルチファンクション符号帳を用いて実行される。
分数のラグ（fractional lags）：サブサンプル分解能を有するラグ値のセットである。適応マルチレートコーデックにおいては、サンプルの１／６ないし１．０の間のサブサンプル分解能が用いられる。

フルレート（ＦＲ）（full-rate）：フルレートのチャネルまたはチャネルモードである。
フレーム（frame）：２０ｍｓ（８ｋＨｚのサンプリングレートにて１６０サンプル）に相当する時間間隔である。

総ビットレート（gross bit-rate）：選択されたチャネルモード（２２．８ｋｂｐｓまたは１１．４ｋｂｐｓ）のビットレートである。
ハーフレート（ＨＲ）（half-rate）：ハーフレートのチャネルまたはチャネルモードである。

帯域内信号法（in-band signaling）：トラヒック内において搬送されるＤＴＸ、リンク制御、チャネルおよびコーデックモード変更等の信号法である。
整数のラグ（integer lags）：全サンプル分解能を有するラグ値のセットである。

補間フィルタ（interpolating filter）：整数サンプル分解能でサンプルされた入力を与えられた、サブサンプル分解能サンプルの概算を生成するのに用いられるＦＩＲフィルタである。

逆フィルタ（inverse filter）：このフィルタは、音声信号から短期相関を取り除くものである。フィルタは、声道の逆周波数応答をモデルとする。
ラグ（lag）：長期フィルタのディレイである。これは、典型的に、真のピッチ期間、またはその倍数または約数である。

線スペクトル周波数（Line Spectral Frequencies）：（線スペクトル対を参照。）
線スペクトル対（Line Spectral Pair）：ＬＰＣパラメータの変形である。線スペクトル対は、逆フィルタ伝達関数Ａ（ｚ）を、一方が偶の対称を有し他方が奇の対称を有するような二つの伝達関数のセットに分解能することにより得られる。線スペクトル対（線スペクトル周波数とも称する）は、ｚ−単位円上の多項式の根である。

ＬＰ分析ウィンドウ（LP analysis window）：各フレームについて、短期フィルタ係数は、高域フィルタされた音声サンプルを用いて分析ウィンドウ内にて計算される。適応マルチレートコーデックにおいては、分析ウィンドウの長さは常に２４０サンプルである。各フレームについて、二つの非対称ウィンドウが、知覚的重み付けフィルタを構成すべくＬＳＦ領域において補間されたＬＰ係数を２セット生成するのに用いられる。合成フィルタを得るために、一フレームにつき一つのセットのＬＰ係数のみが量子化されデコーダへ伝送される。ＨＲおよびＦＲの両者について、２５サンプルのルックアヘッドが用いられる。
ＬＰ係数（LP coefficients）：線形予測（ＬＰ）係数（線形予測符号化（ＬＰＣ）係数とも称する）は、短期フィルタ係数を記すための総称的な記述用語である。

ＬＴＰモード（LTP Mode）：コーデックは従来のＬＴＰとともに動作する。

モード（mode）：単独で使用した場合、ソースコーデックモード、すなわち、ＡＭＲコーデックにおいて用いられるソースコーデックの一つを意味する。（コーデックモードおよびチャネルモードを参照されたい。）
マルチファンクション符号帳（multi-function codebook）：異なる種類のパルスイノベーションベクトル構造およびノイズイノベーションベクトルにより構成されたいくつかのサブ符号帳からなる固定符号帳である。符号帳からのコードワードが励起ベクトルを合成するために用いられる。

開ループピッチ検索（open-loop pitch search）：重み付けされた入力音声から直接、最適に近いピッチラグを概算するプロセスである。これはピッチ分析を簡略化し、閉ループピッチ検索を開ループ概算ラグ周辺の少数のラグに限定するためになされる。適応マルチレートコーデックにおいては、開ループピッチ検索は、ＰＰモードについては各フレームにつき一度、ＬＴＰモードについては各フレームにつき二度実行される。
帯域外信号法（out-of-band signaling）：リンク制御を支持するための、ＧＳＭ制御チャネル上の信号法である。

ＰＰモード（PP Mode）：コーデックは、ピッチ前処理（pitch preprocessing）とともに動作する。
残差（residual）：逆フィルタ動作の結果の出力信号である。
短期合成フィルタ（short term synthesis filter）：このフィルタは、励起信号に対し、声道のインパルス応答をモデルとする短期相関を導入する。

知覚的重み付けフィルタ（perceptual weighting filter）：このフィルタは、符号帳の合成による分析の検索において用いられる。フィルタは、フォルマント周波数に近い範囲においては少なく、そこから遠い範囲においては多く、誤差を重み付けすることにより、フォルマント（声道共鳴）のノイズのマスキング特性を活用する。
サブフレーム（subframe）：５〜１０ｍｓ（８ｋＨｚサンプリングレートにて４０〜８０サンプル）に相当する時間間隔である。

ベクトル量子化（vector quantization）：幾つかのパラメータをベクトル
にグループ化し、それらを同時に量子化する方法である。
ゼロ入力応答（zero input response）：過去の入力に起因する、すなわち、ゼロの入力が付与されると想定すればフィルタの現在の状態に起因するフィルタの出力である。

ゼロ状態応答（zero state response）：過去に入力が付与されていないと想定すれば、すなわち、フィルタにおける状態情報が全てゼロであると想定すれば、現在の入力に起因するフィルタの出力である。

Ａ（ｚ）
量子化されていない係数での逆フィルタ
＾Ａ（ｚ）
量子化された係数での逆フィルタ
Ｈ（ｚ）＝１／＾Ａ（ｚ）
量子化された係数での音声合成フィルタ
ａ_ｉ
量子化されていない線形予測パラメータ（ダイレクトフォーム係数）
＾ａ_ｉ
量子化された線形予測パラメータ
１／Ｂ（ｚ）
長期合成フィルタ
Ｗ（ｚ）
知覚的重み付けフィルタ（量子化されていない係数）
γ_１、γ_２
知覚的重み付け因子
Ｆ_Ｅ（ｚ）
適応プレフィルタ
Ｔ
サブフレームの閉ループ分数ピッチラグに最も近い整数のピッチラグ
β
適応プレフィルタ係数（量子化されたピッチゲイン）
Ｈ_ｆ（ｚ）＝＾Ａ（ｚ／γ_ｎ）／＾Ａ（ｚ／γ_ｄ）
フォルマントポストフィルタ
γ_ｎ
フォルマントポストフィルタリングの量についての制御係数
γ_ｄ
フォルマントポストフィルタリングの量についての制御係数
Ｈ_ｔ（ｚ）
チルト補償フィルタ
γ_ｔ
チルト補償フィルタリングの量についての制御係数
μ＝γ_ｔｋ_１’
ｋ_１’が第一反射係数であるチルト因子
ｈ_ｆ（ｎ）
フォルマントポストフィルタの打切りインパルス応答
Ｌ_ｈ
ｈ_ｆ（ｎ）の長さ
ｒ_ｈ（ｉ）
ｈ_ｆ（ｎ）の自己相関
＾Ａ（ｚ／γ_ｎ）
フォルマントポストフィルタの逆フィルタ（分子）部分
１／＾Ａ（ｚ／γ_ｄ）
フォルマントポストフィルタの合成フィルタ（分母）部分
＾ｒ（ｎ）
逆フィルタ＾Ａ（ｚ／γ_ｎ）の残差信号
ｈ_ｔ（ｚ）
チルト補償フィルタのインパルス応答
β_ｓｃ（ｎ）
適応ポストフィルタのＡＧＣ制御されたゲインスケーリング因子
α
適応ポストフィルタのＡＧＣ因子
Ｈ_ｈｌ（ｚ）
予備処理高域フィルタ
ｗ_Ｉ（ｎ）、ｗ_ＩＩ（ｎ）
ＬＰ分析ウィンドウ
Ｌ_１ ^（Ｉ）
ＬＰ分析ウィンドウｗ_Ｉ（ｎ）の第一部分の長さ
Ｌ_２ ^（Ｉ）
ＬＰ分析ウィンドウｗ_Ｉ（ｎ）の第二部分の長さ
Ｌ_１ ^（ＩＩ）
ＬＰ分析ウィンドウｗ_ＩＩ（ｎ）の第一部分の長さ
Ｌ_２ ^（ＩＩ）
ＬＰ分析ウィンドウｗ_ＩＩ（ｎ）の第二部分の長さ
ｒ_ａｃ（ｋ）
ウィンドウされた音声ｓ’（ｎ）の自己相関
ｗ_ｌａｇ（ｉ）
自己相関（６０Ｈｚの帯域幅拡大）についてのラグウィンドウ
ｆ_０
Ｈｚでの帯域幅拡大
ｆ_ｓ
Ｈｚでのサンプリング周波数
ｒ’_ａｃ（ｋ）
変更された（帯域幅拡大された）自己相関
Ｅ_ＬＤ（ｉ）
レビンソンアルゴリズムのｉ番目の反復における予測誤差
ｋ_ｉ
ｉ番目の反射係数
ａ_ｊ ^（ｉ）
レビンソンアルゴリズムのｉ番目の反復におけるｊ番目のダイレクトフォーム係数
Ｆ_１’（ｚ）
対称ＬＳＦ多項式
Ｆ_２’（ｚ）
反対称ＬＳＦ多項式
Ｆ_１（ｚ）
ｚ＝−１の根が除かれた多項式Ｆ_１’（ｚ）
Ｆ_２（ｚ）
ｚ＝１の根が除かれた多項式Ｆ_２’（ｚ）
ｑ_ｉ
余弦領域における線スペクトル対（ＬＳＦ）
ベクトルｑ
余弦領域におけるＬＳＦベクトル
ベクトル＾ｑ_ｉ ^（ｎ）
フレームｎのｉ番目のサブフレームでの量子化されたＬＳＦベクトル
ω_ｉ
線スペクトル周波数（ＬＳＦ）
Ｔ_ｍ（ｘ）
次数ｍのチェビシェフ多項式
ｆ_１（ｉ）、ｆ_２（ｉ）
多項式Ｆ_１（ｚ）およびＦ_２（ｚ）の係数
ｆ_１’（ｉ）、ｆ_２’（ｉ）
多項式Ｆ_１’（ｚ）およびＦ_２’（ｚ）の係数
ｆ（ｉ）
Ｆ_１（ｚ）またはＦ_２（ｚ）のいずれかの係数
Ｃ（ｘ）
チェビシェフ多項式の総和の多項式
ｘ
角周波数ωの余弦
λ_ｋ
チェビシェフ多項式評価についての反復係数
ｆ_ｉ
Ｈｚでの線スペクトル周波数（ＬＳＦ）
ベクトルｆ_ｔ＝［ｆ_１ｆ_２．．．ｆ_１０］
ＨｚでのＬＳＦのベクトル表現
ベクトルｚ^（１）（ｎ）、ベクトルｚ^（２）（ｎ）
フレームｎでの平均の除かれたＬＳＦベクトル
ベクトルｒ^（１）（ｎ）、ベクトルｒ^（２）（ｎ）
フレームｎでのＬＳＦ予測残差ベクトル
ベクトルｐ（ｎ）
フレームｎでの予測されたＬＳＦベクトル
ベクトル＾ｒ^（２）（ｎ−１）
過去のフレームでの量子化された第二の残差ベクトル
ベクトル＾ｆ^ｋ
量子化インデクスｋでの量子化されたＬＳＦベクトル
Ｅ_ＬＳＰ
ＬＳＦ量子化誤差
ｗ_ｉ、ｉ＝１、．．．、１０、
ＬＳＦ量子化重み付け因子
ｄ_ｉ
線スペクトル周波数ｆ_ｉ＋１およびｆ_ｉ−１間の距離
ｈ（ｎ）
重み付けされた合成フィルタのインパルス応答
Ｏ_ｋ
ディレイｋでの開ループピッチ分析の相関最大
Ｏ_ｔｉ、ｉ＝１、．．．、３
ディレイｔ_ｉ、ｉ＝１、．．．、３での相関最大
（Ｍ_ｉ、ｔ_ｉ）、ｉ＝１、．．．、３
正規化された相関最大Ｍ_ｉと、対応するディレイｔ_ｉ、ｉ＝１、．．．、３
Ｈ（ｚ）Ｗ（ｚ）＝Ａ（ｚ／γ_１）／＾Ａ（ｚ）Ａ（ｚ／γ_２）
重み付けされた合成フィルタ
Ａ（ｚ／γ_１）
知覚的重み付けフィルタの分子
１／Ａ（ｚ／γ_２）
知覚的重み付けフィルタの分母
Ｔ_１
前の（１番目または３番目の）サブフレームの分数ピッチラグに最も近い整数
ｓ’（ｎ）
ウィンドウされた音声信号
ｓ_ｗ（ｎ）
重み付けされた音声信号
＾ｓ（ｎ）
再構築された音声信号
＾ｓ’（ｎ）
ゲインスケールされポストフィルタされた信号
＾ｓ_ｆ（ｎ）
ポストフィルタされた音声信号（スケーリング前）
ｘ（ｎ）
適応符号帳検索のためのターゲット信号
ｘ_２（ｎ）、ベクトルｘ^ｔ _２
固定符号帳検索のためのターゲット信号
ｒｅｓ_ＬＰ（ｎ）
ＬＰ残差信号
ｃ（ｎ）
固定符号帳ベクトル
ｖ（ｎ）
適応符号帳ベクトル
ｙ（ｎ）＝ｖ（ｎ）＊ｈ（ｎ）
フィルタされた適応符号帳ベクトル
フィルタされた固定符号帳ベクトル
ｙ_ｋ（ｎ）
過去のフィルタされた励起
ｕ（ｎ）
励起信号
＾ｕ（ｎ）
完全に量子化された励起信号
＾ｕ’（ｎ）
ゲインスケールされエンファシスされた励起信号
Ｔ_ｏｐ
最適な開ループラグ
ｔ_ｍｉｎ
最小のラグ検索値
ｔ_ｍａｘ
最大のラグ検索値
Ｒ（ｋ）
適応符号帳検索において最大化されるべき相関ターム
Ｒ（ｋ）_ｔ
整数ディレイｋおよび分数ｔについて、補間されたＲ（ｋ）値
Ａ_ｋ
インデクスｋでの代数的符号帳検索において最大化されるべき相関ターム
Ｃ_ｋ
インデクスｋでのＡ_ｋの分子における相関
Ｅ_Ｄｋ
インデクスｋでのＡ_ｋの分母におけるエネルギー
ｄ＝Ｈ^ｔｘ_２
ターゲット信号ｘ_２（ｎ）とインパルス応答ｈ（ｎ）すなわち後方向へフィルタされたターゲットとの間の相関
行列Ｈ
対角ｈ（０）およびより低い対角ｈ（１）、．．．、ｈ（３９）の、より低いテプリッツ畳み込み三角行列
行列Φ＝Ｈ^ｔＨ
ｈ（ｎ）の相関の行列
ｄ（ｎ）
ベクトルｄの要素
φ（ｉ、ｊ）
対称行列Φの要素
ベクトルｃ_ｋ
イノベーションベクトル
Ｃ
Ａ_ｋの分子における相関
ｍ_ｉ
ｉ番目のパルスの位置

ｉ番目のパルスの振幅
Ｎ_ｐ
固定符号帳励起におけるパルス数
Ｅ_Ｄ
Ａ_ｋの分母におけるエネルギー
ｒｅｓ_ＬＴＰ（ｎ）
正規化された長期予測残差
ｂ（ｎ）
正規化されたｄ（ｎ）ベクトルおよび正規化された長期予測残差ｒｅｓ_ＬＴＰ（ｎ）の和
ｓ_ｂ（ｎ）
代数的符号帳検索についてのサイン信号
ベクトルｚ^ｔ、ｚ（ｎ）
ｈ（ｎ）でコンボルブされた固定符号帳ベクトル
Ｅ（ｎ）
平均の除かれたイノベーションエネルギー（ｄＢ）
Ｅバー
イノベーションエネルギーの平均
〜Ｅ（ｎ）
予測されたエネルギー
［ｂ_１ｂ_２ｂ_３ｂ_４］
ＭＡ予測係数
＾Ｒ（ｋ）
サブフレームｋでの量子化された予測誤差
Ｅ_Ｉ
平均イノベーションエネルギー
Ｒ（ｎ）
固定符号帳ゲイン量子化の予測誤差
Ｅ_Ｑ
固定符号帳ゲイン量子化の量子化誤差
ｅ（ｎ）
合成フィルタ１／＾Ａ（ｚ）の状態
ｅ_ｗ（ｎ）
合成による分析の検索の知覚的重み付けされた誤差
η
エンファシスされた励起についてのゲインスケーリング因子
ｇ_ｃ
固定符号帳ゲイン
ｇ_ｃドット
予測された固定符号帳ゲイン
＾ｇ_ｃ
量子化された固定符号帳ゲイン
ｇ_ｐ
適応符号帳ゲイン
＾ｇ_ｐ
量子化された適応符号帳ゲイン
γ_ｇｃ＝ｇ_ｃ／ｇ_ｃドット
ゲインｇ_ｃおよび概算された一のｇ_ｃドットの間の修正因子
＾γ_ｇｃ
γ_ｇｃについての最適値
γ_ｓｃ
ゲインスケーリング因子
ＡＧＣ
適応ゲイン制御
ＡＭＲ
適応マルチレート
ＣＥＬＰ
符号励起線形予測
Ｃ／Ｉ
キャリア対インタフィアラ比
ＤＴＸ
非連続伝送
ＥＦＲ
エンハンスされたフルレート
ＦＩＲ
有限インパルス応答
ＦＲ
フルレート
ＨＲ
ハーフレート
ＬＰ
線形予測
ＬＰＣ
線形予測符号化
ＬＳＦ
線スペクトル周波数
ＬＳＦ
線スペクトル対
ＬＴＰ
長期予測子（または長期予測）
ＭＡ
移動平均
ＴＦＯ
タンデムフリー動作
ＶＡＤ
無音圧縮

Claims

入力音声信号（２１１）の符号化方法であって、
前記入力音声信号に高域フィルタ（２１５）を適用して、高域フィルタ処理された音声信号を生成することと、
前記高域フィルタ処理された音声信号に知覚的重み付けフィルタ（２１９）を適用して第１のターゲット信号を生成することと、
前記第１のターゲット信号を用いて適応符号帳から適応符号帳ベクトル（２５７）を特定することと、
前記適応符号帳ベクトルをフィルタ処理して、フィルタ処理された適応符号帳ベクトルを生成することと、
前記適応符号帳ベクトル用の適応符号帳ゲインを算定することと、
前記第１のターゲット信号と前記フィルタ処理された適応符号帳ベクトルとの相互関係に基づいて前記適応符号帳ゲインを選択的に低減し（２４７）、低減された適応符号帳ゲインを生成することと、
少なくとも前記第１のターゲット信号に基づいて第２のターゲット信号を生成することと、
前記第２のターゲット信号に基づいて前記入力音声信号を符号化した音声に変換すること
を備える符号化方法。
前記第１のターゲット信号と前記フィルタ処理された適応符号帳ベクトルと前記低減された適応符号帳ゲインとに基づいて前記第２のターゲット信号を生成する請求項１に記載の方法。
適応符号帳寄与を生成するべく長期予測ゲインに基づいてゲイン因子を算定することと前記低減された適応符号帳ゲインを前記フィルタ処理された適応符号帳ベクトルに適用することをさらに備え、前記ゲイン因子を用いて前記適応符号帳ゲインを選択的に低減し、前記第１のターゲット信号と前記適応符号帳寄与との差として前記第２のターゲット信号を生成する請求項１に記載の方法。
前記適応符号帳ゲインを選択的に低減することは、さらに前記入力音声信号の前記符号化した音声への前記変換に使用する符号化ビットレートに基づいている請求項１から３のいずれかに記載の方法。
入力音声信号（２１１）を符号化する音声符号器であって、
適応符号帳（２５７）と、
前記入力音声信号に高域フィルタ（２１５）を適用して高域フィルタ処理された音声信号を生成し、
前記高域フィルタ処理された音声信号に知覚的重み付けフィルタ（２１９）を適用して第１のターゲット信号（２２９）を生成し、
前記第１のターゲット信号を使用して前記適応符号帳から適応符号帳ベクトル（２５７）を特定し、
前記適応符号帳ベクトル用の適応符号帳ゲインを算定し、
前記適応符号帳ベクトルをフィルタ処理して、フィルタ処理された適応符号帳ベクトルを生成し、
前記第１のターゲット信号と前記フィルタ処理された適応符号帳ベクトルとの相互関係に基づいて前記適応符号帳ゲインを選択的に低減（２４７）して低減された適応符号帳ゲインを生成し、
少なくとも前記第１のターゲット信号に基づいて第２のターゲット信号を生成し、
前記第２のターゲット信号に基づいて前記入力音声信号を符号化した音声に変換する
ように構成された処理回路と
を備える音声符号器。
前記処理回路が、さらに、前記第１のターゲット信号と前記フィルタ処理された適応符号帳ベクトルと前記低減された適応符号帳ゲインとに基づいて前記第２のターゲット信号を生成するように構成されている請求項５に記載の音声符号器。
前記処理回路が、さらに、長期予測ゲインに基づいてゲイン因子を算定し、前記ゲイン因子を用いて前記適応符号帳を選択的に低減し、前記低減された適応符号帳ゲインを前記フィルタ処理された適応符号帳ベクトルに適用し、これらにより、適応符号帳寄与および、前記第１のターゲット信号と前記適応符号帳寄与との差としての前記第２のターゲット信号を生成するように構成されている請求項５に記載の音声符号器。
前記処理回路が、さらに、前記入力音声信号の前記符号化した音声への変換に用いる符号化ビットレートに基づいて前記適応符号帳ゲインを選択的に低減するように構成されている請求項５から７のいずれかに記載の音声符号器。