JP3770925B2

JP3770925B2 - 信号符号化方法とその装置

Info

Publication number: JP3770925B2
Application number: JP34203493A
Authority: JP
Inventors: バスチアンクレイジュンウイレム
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1992-12-14
Filing date: 1993-12-14
Publication date: 2006-04-26
Anticipated expiration: 2021-04-26
Also published as: CA2102080C; CA2102080A1; ES2136649T3; MX9307743A; DE69326126T2; EP0602826A2; EP0602826A3; EP0602826B1; JPH06214600A; DE69326126D1

Description

【０００１】
【産業上の利用分野】
本発明は、一般的に音声符号化システムに関し、特に、合成による分析音声符号化システムにおける必要帯域幅の削減に関する。
【０００２】
【従来の技術】
音声符号化システムは、システム受信器に、チャネルまたは通信網を通じての通信のための音声信号コードワード表現を提供するように機能する。各システム受信器は、受信したコードワードから音声信号を再構成する。与えられた期間内にシステムにより伝達されるコードワード情報量は、システム帯域幅の限界を定め、システム受信器が再生する音声品質に影響を及ぼす。
【０００３】
音声符号化システムの設計者は、しばしば、できるだけ狭い帯域幅を使用して、高品質の音声再生能力を提供しようとする。しかし、高品質音声を求めることと帯域幅を狭くすることとは、矛盾する虞があるので、設計過程においてエンジニアリングのトレードオフとなりうる。しかし、これにもかかわらず、狭いチャネル帯域幅で合格音声品質を与える音声符号化技術がこれまで開発されている。この中に、合成による分析音声符号化技術がある。合成による分析音声符号化技術によれば、音声信号は、波形合成手法を通して符号化される。候補音声信号は、符号化しようとする原音声信号との比較のため、１個以上のパラメータから合成される。パラメータを変化させることにより、種々の合成された候補音声信号が決定される。ついで、最も類似した候補音声信号のパラメータが原音声信号を表現するのに使用される。
【０００４】
多数の合成による分析符号器（例えば、大部分の符号励振形線形予測（ＣＥＬＰ）符号器）は、音声信号中の長時間相関をモデル化する長時間予測器（ＬＴＰ）を使用する。「音声信号」という語は、実音声または合成による分析符号器中に存在する残差信号および励振信号を意味する。合成過程中、長時間予測器は、通常、全極形フィルタまたは利得基準化付適応コードブックとして実現される。一般的事柄として、音声信号中の長時間相関は、過去に再構成された音声信号が現時音声信号の近似信号として機能するのを可能とする。長時間予測器は、（すでに符号化されている）個々の過去音声信号を現時（原）音声信号と比較するように動作する。このような比較により、長時間予測器は、いずれの過去音声信号が原音声信号に最近似するかを決定する。過去音声信号は、該過去音声信号が（現時刻から）どの程度の過去に見出されるかを示す遅延値によって識別されうる。長時間予測器を使用する符号器は、現時音声信号から最も整合度の高い音声信号（すなわち、最良近似信号）の基準化された版を差引くことにより、長時間相関の小さい信号を生じる。ついで、この信号は、代表的な場合、固定確率コードブック（ＦＳＣＢ）を使用して、符号化される。固定確率コードブックの指標および長時間予測器遅延値は、他のパラメータと一緒に、これらのパラメータから推定原音声を復元しうる符号励振形線形予測復号器へ伝送される。
【０００５】
【発明が解決しようとする課題】
音声の長時間相関をモデル化することにより、復号器での再構成音声品質は、改善されうる。しかし、この改善は、帯域幅の有意の拡大なしには達成されない。例えば、音声の長時間相関をモデル化するために、通常符号励振形線形予測符号器は、５または７．５ｍｓ（サブフレームという）毎に８ビット遅延情報を伝送しうる。このような時間変化形遅延パラメータは、帯域幅１秒毎に、例えば、１〜２ｋｂを余分に必要とする。長時間予測器遅延値の変動は、時間全体に亘って予測されえない（すなわち、長時間予測器遅延値列は、本質的に確率的である）ので、改良された遅延パラメータ符号化により追加必要帯域幅を減らすのは、困難であることが判る。
【０００６】
長時間予測器を使用する合成による分析の追加必要帯域幅削減の一方策は、長時間予測器遅延値を伝送する頻度を減し、補間により中間長時間予測器遅延値を決定することであろう。しかし、補間は、音声信号の個別サブフレームにおいて、長時間予測器により最適と言えない遅延値が使用されることになる虞がある。例えば、遅延値が最適と言えないときは、長時間予測器は、最適と言えない方法で過去音声信号を現時点に写像することになる。結果として、現時点に写像された過去音声信号と原音声信号との差は、他の手段による場合のものに比べて大きくなる。この場合、固定確率コードブックは、波形を改良するという正常機能を行うよりも、上記の最適と言えない時間軸シフトの効果を無効とするように動作する。結果として、有意可聴歪みが生じうる。
【０００７】
本発明は、合成による分析の符号化システムにおいて、必要帯域幅を減らす方法および装置を提供する。
【０００８】
【課題を解決するための手段】
本発明によれば、汎用合成による分析符号化は、原信号を変化させることにより提供される。原信号の異形群を試原信号という。合成による分析符号化において、原信号の代りに、または、原信号使用の補充として、試原信号を使用するので、符号化誤差および必要ビットレートが削減される。音声符号化において、符号化誤差が小さくなれば、長時間予測器遅延情報の伝送頻度を低くすることができ、再構成音声品質の低下がほとんど無い、または、全く無い、遅延値補間が可能となる。本発明は、とりわけ、無線電話網（例えば、セルラー式）および通常電話網のような音声情報通信網に適用されうる。
【０００９】
音声符号化に関して、試原信号は、説明として、知覚（例えば、聴覚）的に実原信号に類似した信号である。試原信号と実原信号との聴覚的類似度は、符号化ビットレートおよび受信器により合成される音声の品質に影響しうる（例えば、類似度が低いほど、ビットレートも低くなり、音声品質も低くなる虞がある）。原信号（したがって、試原信号）は、実原音声信号、または、合成による分析符号器中に存在する残差もしくは励振信号の形を取りうる。
【００１０】
本発明の実施例によれば、試原信号は、実音声信号セグメントの時間軸シフト版として生成される。試原信号と適応コードブックの補助情報との類似度（例えば、相互相関）が評価される。全試原信号のひとつ、または、原もしくは試原信号の異形と同一の試原信号が１個以上の評価類似度に基づいて決定される。先に生成された諸試原信号のうちのひとつの異形の場合には、決定された試原信号（すなわち、上記異形）は、先に生成された諸試原信号を生成した諸時間軸シフトに対応する。原信号の符号化表現をもたらす信号が決定された上記試原信号に基づいて生成される。
【００１１】
【実施例】
実施例のハードウェア
説明を分かり易くするため、本発明の一実施例は、（「プロセッサ」と名づけられた機能ブロックを含む）個々の機能ブロックからなるものとして示される。これらのブロックが表わす機能は、（ソフトウェアを実行しうるハードウェアを含むが、このハードウェアに限定されない）共用ハードウェアまたは専用ハードウェアの使用により実現されうる。例えば、図４および図６に示されたプロセッサの機能は、１個の共用プロセッサによって与えられうる。明細書中、「プロセッサ」という用語の使用は、ソフトウェアを実行する能力を有するハードウェアのみを指すものと解釈されるべきでない。
【００１２】
本発明の実施例は、ＡＴ＆ＴＤＳＰ１６もしくはＤＳＰ３２Ｃのような（ＤＳＰ）ハードウェア、後述する動作を遂行するソフトウェアを格納する読出し専用メモリ（ＲＯＭ）、およびディジタル信号プロセッサの結果を記憶するランダムアクセスメモリ（ＲＡＭ）からなる。超大規模集積回路（ＶＬＳＩ）ハードウェアの実施例が汎用ディジタル信号プロセッサ回路と組合わせたカスタム超大規模集積回路と同様に提供される。
【００１３】
従来の符号励振形線形予測に関する説明
従来の合成による分析用符号励振形線形予測符号器が図１４に示されている。標本化された音声信号ｓ（ｉ）（ｉは、標本指標である）は、現時音声セグメントに対して最適化されたＮ次の短時間線形予測フィルタ（ＳＴＰ）２０に与えられる。信号ｘ（ｉ）は、短時間線形予測フィルタによるろ波後に得られた励振である。
【００１４】
【数１】

【００１５】
数式中、パラメータａn は、線形予測分析器１０により供給される。Ｎは、（８ｋＨｚのの標本化率について）通常、標本約１０個であるから、励振信号ｘ（ｉ）は、一般的に、原信号ｓ（ｉ）の短時間周期性を保持する。この冗長性を除去するために、長時間予測器３０が設けられている。
【００１６】
ｘ（ｉ）の値は、通常、ブロック基準で決定される。各ブロックは、サブフレームと名づけられている。線形予測係数ａn は、線形予測分析器１０により、フレーム毎基準で決定される。フレームは、一般的に、サブフレーム持続時間の整数倍である一定持続時間を有し、通常２０〜３０ｍｓの長さである。ａn のサブフレーム値は、通常、補間により決定される。（代表的な場合、適応コードブックにより実現される）長時間予測器は、使用利得λ（ｉ）と使用遅延値ｄ（ｉ）とを以下のように決定する。
【００１７】
【数２】

【００１８】
数式中、山付ｘ（ｉ−ｄ（ｉ））は、先のサブフレーム内で合成された（すなわち再構成された）音声信号の標本である。このようにして、長時間予測器３０は、量λ（ｉ）・山付ｘ（ｉ−ｄ（ｉ））を与える。信号ｒ（ｉ）は、λ（ｉ）・山付ｘ（ｉ−ｄ（ｉ））がｘ（ｉ）から差引かれた後に残る励振信号である。ついで、信号ｒ（ｉ）は、固定確率コードブック４０を使用して符号化される。固定確率コードブック４０は、コードブックベクトル指標μ（ｉ）と同伴基準化因数とをを生じる。これらの量は、一体となって、最近似の励振ｒ（ｉ）を与える。
【００１９】
各音声サブフレームを表わすデータ、すなわち、長時間予測器パラメータλ
（ｉ）およびｄ（ｉ）と固定確率コードブック指標とは、フレームに等しくなる整数個のサブフレームについて集められる。上記データフレームは、線形予測係数ａn と一緒に、データフレームが音声の再構成に使用される符号励振形線形予測復号器に伝送される。
【００２０】
符号励振形線形予測復号器は、上述した符号化過程と逆の過程を行う。固定確率コードブック指標は、受信器（合成器ともいう）の固定確率コードブックによって受入れられ、同伴ベクトルｅ（ｉ）（励振信号）がコードブックから選び出される。励振信号ｅ（ｉ）は、逆長時間予測器過程（長時間相関が与えられる）を励起するのに使用され、量子化されたｘ（ｉ）の等価情報、山付ｘ（ｉ）を生じる。再構成音声信号ｙ（ｉ）は、（短時間相関が与えられる）逆短時間線形予測フィル過程を使用して山付ｘ（ｉ）をろ波することにより得られる。
【００２１】
一般的に、再構成励振信号、山付ｘ（ｉ）は、適応コードブックおよび固定コードブックの基準化された補助情報の和と解釈されうる。これらのコードブックからベクトルを選び出すため、聴覚適合誤差基準が使用されうる。これは、人間の聴覚系に存在するスペクトルマスキングを利用することにより信号と再構成音声信号とを使用する代りに、上記聴覚適合誤差基準は、聴覚重み付き信号の差を判断する。
【００２２】
信号の聴覚重み付けは、音声中に存在するホルマントに重点をおかない。本範例によれば、全ての極を内側に移動することにより、スペクトルデエンファシスを得ることができる全極型フィルタにより記述される。これは、予測係数ａ1 ，ａ2 ，…，ａN を有するフィルタを係数γａ1 ，γ2 ａ2 ，…γN ａN （γは、通常、約０．８の値に設定される聴覚重み付け因数である）を有するフィルタにより置き換えるのと等価である。
【００２３】
聴覚重み付け領域での標本化誤差信号ｇ（ｉ）は、以下の通りである。
【００２４】
【数３】

【００２５】
合成による分析符号器の誤差基準は、サブフレーム毎に定式化される。標本Ｌ個のサブフレーム長について、通常使用される基準は、以下の通りである。
【００２６】
【数４】

【００２７】
数式中、山付ｉは、サブフレームの最初の標本である。この基準は、サブフレーム全体に亘って、励振標本を不等に重み付けする。標本、山付ｘ・（山付ｉ＋Ｌ−１）は、ｇ（山付ｉ＋Ｌ−１）のみに作用し、山付ｘ（山付ｉ）は、本サブフレーム中のｇ（ｉ）の全ての標本に作用する。
【００２８】
数式（４）の基準は、上記山付ｉに先行して（すなわち、本サブフレームの始まりに先行して）ｘ（ｉ）と上記山付ｘ（ｉ）との差の効果を含む。本サブフレーム内での励起を定義することにより、重み付けされた合成フィルタの零入力応答を表現することが便利である。
【００２９】
【数５】

【００３０】
数式中、ｚ（ｉ）は、本サブフレームに先行して、ｘ（ｉ）−山付ｘ（ｉ）により励振されたときの聴覚重み付け合成フィルタの本サブフレーム内の零入力応答である。
【００３１】
時間領域においては、因数γによるスペクトルデエンファシスは、全極形フィルタのインパルス応答を、より速やかに減衰させることになる。実際上、８ｋＨｚの標本化率とγ＝０．８とについて、インパルス応答は、標本２０個を越えて、エネルギの有意部を有しない。
【００３２】
減衰が速いので、全極形フィルタ１／（１−γａ₁ ｚ^-1，…，−γ^N ａ_N ｚ^-N）
のインパルス応答は、有限インパルス応答フィルタによって近似しうる。有限インパルス応答フィルタのインパルス応答をｈ0 ，ｈ1 ，…，ｈR-1 とする。これにより、聴覚重み付けされた音声に作用する誤差基準のベクトル表記法が可能となる。符号器は、サブフレーム毎に動作するので、標本中のサブフレームの長さＬでベクトルを定義することが便利である。例えば、励振信号について、
【００３３】
【数６】

【００３４】
また、スペクトル重み付け行列Ｈは、以下のように定義される。
【００３５】
【数７】

【００３６】
Ｈは、元（Ｌ＋Ｒ−１）×Ｌを有する。これにより、ベクトルＨ・山付ｘ（ｉ）は、ベクトル、山付ｘ（ｉ）に対する無限インパルス応答フィルタ１／（１−γａ₁ ｚ^-1，…，γ^N ａ_N ｚ^-N）の全応答を近似する。これらの定義を使用すれば、聴覚重み付けされた最適基準は、以下の通りである。
【００３７】
【数８】

【００３８】
Ｈの現時定義を使用すれば、数式（８）の誤差基準は、自己相関型（ＨT Ｈは、テープリッツ（Toeplitz）であることに留意してほしい）。行列Ｈが正方行列Ｌ×Ｌとなるように裁断されたときは、数式（８）は、原符号励振形線形予測に使用される、より普通の共分散基準である数式（４）に等しくなる。
【００３９】
符号励振形線形予測符号化の実施例
図１は、符号励振形線形予測符号化に適用された本発明の実施例を示す。ディジタル形の音声信号ｓ（ｉ）は、符号化に供される。信号ｓ（ｉ）は、線形予測係数ａn を生成する従来形線形予測分析器１００に与えられる。信号ｓ（ｉ）は、数式（１）により記述される過程に従って動作する従来形線形予測フィルタ（すなわち、「短時間予測器」（ＳＴＰ））１２０と従来形遅延値推定器１４０とに供給される。特定の標本時刻において妥当な遅延情報を決定するため、遅延値推定器１４０は、ｓ（ｉ）の複数個の標本からなる（当特定標本てと隣合う中心を有する）窓の従来相関を行う。多数の窓のそれぞれは、同一長さを有する。この相関に関係する窓は、図２に示されている。
【００４０】
図２は、複数個のフレームＦと信号ｓ（ｉ）の複数個の標本からなる成分のサブフレームＳＦとの境界確定を示す（ｓ（ｉ）の実標本値は、説明を判り易くするため、省略されている）。３個のフレームＦn-1 （過去フレーム）、Ｆn （現時フレーム）およびＦn+1 （次フレーム）が示されている。これらのフレームのそれぞれは、信号ｓ（ｉ）の標本１６０個からなる。
【００４１】
フレーム境界の位置決めは、後述する時間軸シフトプロセッサ２００により行われる。時間軸シフトプロセッサ２００は、原音声信号ｓ（ｉ）のサブフレームの終端を示す標本位置ｄｐ１′を与える。遅延値推定器１４０は、フレーム境界に到達する時を知るため、原音声のサブフレーム境界のトラックを保持するだけである（このようなフレーム境界は、整数個のサブフレーム境界に位置する）。遅延値推定器１４０は、時間軸シフトプロセッサ２００が音声フレームに作用する前に該音声フレームに作用するので、遅延値推定器１４０は、未来フレーム境界の位置を予測しなければならない。遅延値推定器１４０は、時間軸シフトプロセッサ２００により供給される最後フレーム境界にフレーム長（例えば、標本１６０個）に等しい一定個数の標本を追加することにより、上記予測を行う。
【００４２】
遅延値推定器１４０が信号ｓ（ｉ）の現時フレームと次フレームとの境界Ｍ（ＦＢn+1 ）で妥当な遅延値Ｍを決定すると仮定する。これの決定を行うため、遅延値推定器１４０は、この境界の両側に存在する、標本１６０個からなる窓を自らのメモリ内に記憶する（遅延値推定器１４０は、次フレーム内で妥当な信号ｓ（ｉ）標本を受け入れるために待機しなければならない）。この標本窓は、窓Ａと名づけられる。ついで、遅延値推定器１４０は、１４０個の他の信号ｓ（ｉ）の窓のうちの最初の窓である窓Ｂ1 内の信号ｓ（ｉ）の標本を使用して相関算出を行う。窓Ｂ1 は、窓Ａの始まりよりも標本２０個分早く始まり、窓Ａの終端よりも標本２０個分早く終了する標本１６０個の窓である。窓Ｂ1 に同伴する相関値は、メモリ内に記憶される。相関過程は、窓Ｂ1 より標本１個分早く開始される標本１６０個分の窓である窓Ｂ2 について繰返される。相関算出は、次の１３８個の窓のそれぞれについて行われる。各窓は、標本１個分先行する窓から距てられている。
【００４３】
図２に示されているように、遅延値推定器１４０は、ほぼ２個の信号標本フレームを記憶するのに十分なメモリを有しなければならない。Ｄが最長許容遅延値であるときは、メモリは、窓Ａの始まりに先行して、標本Ｄ個分拡張するべきである。Ｄ＝１６０のときは、遅延値推定器１４０は、ＦＢn+1 で妥当な推定遅延値を算出するために、フレームＦn-1 の３番目のサブフレームＳＦ2 の始まりからフレームＦn+1 の２番目のサブフレームＳＦ1 の終端までの、信号ｓ（ｉ）の標本を記憶しなければならない。遅延値Ｍは、窓Ａの全ての標本と最大相関を有する標本窓Ｂに基づいて遅延値推定器１４０により決定される。すなわち、遅延値は、最も相関度の高い窓Ｂが窓Ａから時間的にシフトされる標本の数に等しい。遅延値推定器１４０は、フレーム毎に１回、フレーム境界遅延推定値Ｍを決定する。また、遅延値推定器１４０は、フレーム境界において妥当な遅延値の通常線形補間により、各サブフレーム内に入った一定個数の標本（例えば、標本１０個）において妥当な遅延値ｍを決定する。この目的のため、次フレームへ入った標本１０個において必要な遅延値は、フレーム境界における遅延値に等しく設定される。
【００４４】
遅延値推定器１４０により供給された遅延値とに同伴するタイミングが図３に示されている。図３に示されているように、フレームｎの両側のフレーム境界において妥当な遅延値は、Ｍ（ＦＢn ）およびＭ（ＦＢn+1 ）である。フレームｎ内の各サブフレーム境界（ＳＢ）の後の一定個数の標本において妥当な遅延値は、ｍn （ｋ）、ｋ＝０，１，２，３として示されている。ｍn （ｋ）のこれらの値は、上述の通り、補間により決定される。遅延値ｍn （ｋ）は、適応コードブックプロセッサ１５０に供給される。後述するように、適応コードブックプロセッサ１５０は、この遅延情報を使用することにより、時間軸シフトプロセッサ２００へ適応コードブック補助情報を供給する。
【００４５】
適応コードブックプロセッサ
適応コードブックプロセッサ１５０は、遅延値推定器１４０から出力された遅延推定値ｍn （ｋ）と符号励振形線形予測プロセッサから得られた過去再構成音声信号とに基づいて、（符号化しようとする）現時音声サブフレームの推定値を時間軸シフトプロセッサ２００に供給する。適応コードブックプロセッサ１５０は、遅延値ｍn （ｋ）を使用することにより、適応コードブックプロセッサ１５０のメモリに記憶された過去再構成音声信号に対する遅延ポインタｄ（ｉ）を決定するように動作する。ついで、選択された過去音声標本、山付ｘ（ｉ）は、符号化しようとする推定現時音声サブフレームとして時間軸シフトプロセッサ２００に供給される。符号化しようとする各原音声サブフレームについて、適応コードブックプロセッサ１５０は、対応する音声標本サブフレームと次サブフレーム内に入った一定個数の超過標本とを供給する。例えば、この超過標本の一定個数は、１０に等しい。
【００４６】
図４は、適応コードブックプロセッサ１５０の一実施例を示す。この適応コードブックプロセッサ１５０は、プロセッサ１５５とＲＡＭ１５７とを含む。プロセッサ１５５は、過去再構成音声信号、山付ｘ（ｉ）を受入れ、現時サブフレーム音声標本と次サブフレーム音声標本とを算出するのに使用するため、上記過去再構成音声信号をＲＡＭ１５７に記憶する。プロセッサ１５５は、上記のような標本値の算出に使用される、遅延値推定器１４０から出力された遅延値ｍn （ｋ）をも受入れるプロセッサ１５５は、試原信号の生成に使用するため、上記算出標本値、山付ｘ（ｉ）を時間軸シフトプロセッサ２００に供給する。
【００４７】
時間軸シフトプロセッサ２００に供給された各音声標本値は、以下のように決定される。まず、当標本（すなわち、時間軸シフトプロセッサ２００に供給されようとする標本）について妥当な遅延ポインタｄ（ｉ）がプロセッサ１５５により決定される。これは、当標本の両側に存在する（遅延値推定器１４０により供給された）１対の遅延値ｍn （ｋ）による補間により行われる。遅延ポインタｄ（ｉ）を供給するためにプロセッサ１５５により使用される補間法は、供給された遅延値ｍn （ｋ）による通常線形補間である。ついで、プロセッサ１５５は、（当標本について妥当な）遅延ポインタｄ（ｉ）を、当標本の値として現時フレーム内で使用されるべき先の音声標本の後向きポインタとして使用する。このような先の標本は、ＲＡＭ１５７に記憶されている。一般的に、遅延ポインタｄ（ｉ）は、過去標本そのものを指し示さず、連続する過去標本間のどこかを指し示しがちである。このような状況では、プロセッサ１５５は、過去標本を補間することにより、遅延ポインタが関係する時点で妥当な過去標本値を決定する。過去標本値を決定するのにプロセッサ１５５により使用される補間技術は、ラビナー（Ｒabiner）とシェイファー（Ｓchafer）とによりのべ述べられた「音声信号のディジタル処理」、２６〜３１頁（１９７８）のような通常帯域限定補間法である。プロセッサ１５５によって実現される補間は、遅延値によって示される時刻に最も近い過去標本のいずれの側にも２０個のタップを使用する。
【００４８】
図５の（ａ）〜（ｃ）は、適応コードブックプロセッサ１５０が現時サブフレーム（および次フレーム）内で使用するために、過去標本を選択する過程を示す。図示を分り易くするため、図５の（ａ）〜（ｃ）は、算出値ｄ（ｉ）が過去値間の一点ではなく、過去標本値そのものを指し示すと仮定する。また、遅延値がサブフレーム長より短いことが一般性を損うことなく仮定される。
【００４９】
図５（ａ）に示されているように、時間軸シフトプロセッサ２００に供給されようとする標本には、現時サブフレーム内の標本と次サブフレーム内の一定個数の標本とが含まれる。プロセッサ１５５は、現時サブフレームの遅延値ｍcurrを遅延値推定器１４０から受取り、先のサブフレームの遅延値ｍprevを自らのメモリＲＡＭ１５７に記憶している。ｍcurrが妥当となる時点より前に位置決めされた現時サブフレームの各標本の値である山付ｘ（ｉ）を決定するため、プロセッサ１５５は、当標本の標本時刻ｉにおいて妥当な遅延ポインタｄ（ｉ）を決定する。これは、遅延値ｍcurrと遅延値推定器１４０から受入れた最新遅延値ｍprevとを使用することにより、標本が妥当となる時点を線形補間することにより行われる。この遅延ポインタｄ（ｉ）が決定された後、プロセッサ１５５は、自らのＲＡＭ１５７内の標本の帯域幅限定補間により、当標本より標本ｄ（ｉ）個前の時点において妥当な標本値である山付ｘ（ｉ−ｄ（ｉ））を算出する。ついで、この標本値は、現時サブフレームの当標本のための指定記憶場所に挿入される。
【００５０】
図５の範例によれば、サブフレーム長は、遅延値より長い。現時サブフレーム内の与えられた標本が決定される過程は、遅延ポインタを決定し、上記与えられた標本として使用しようとする標本値を時間的に遡って探すことに基づく。このように、再構成音声セグメントは、現時サブフレーム内での帯域幅限定補間を使用することにより、ほぼ再生される。したがって、例えば、図５（ｂ）において、与えられた標本、山付ｘ（ｉ）は、その値を、時間的に遅延値ｄ（ｉ）だけ先行する、先に決定された標本、山付ｘ（ｉ−ｄ（ｉ））から得る。この遅延値は、現時サブフレームからの遅延値ｍcurrと次サブフレームからの遅延値ｍnextとは、標本、山付ｘ（ｉ）の両側に存在するので、補間された遅延値がこれらの遅延値であることを除いて、上記の通り決定される。遅延値がサブフレーム長より短いときに、一定利得での信号セグメントの再生は、適応コードブック手法を長時間予測器ろ波手法から区別するものである。
【００５１】
図５（ｃ）に示されているように、次フレーム内の超過標本は、図５（ｂ）内の超過標本と同一方法で決定される。この場合、現時サブフレームから得られた標本は、次サブフレーム内の標本の値を与えるのに使用される。
【００５２】
実際には、適応コードブックプロセッサ１５０の上記処理手順は、まず、現時サブフレームと当次サブフレームの一部の全ての標本時刻の全ての遅延ポインタ値ｄ（ｉ）を算出することにより実現される。ついで、標本値を必要とする現時サブフレームまたは次サブフレームの各標本時刻ｉについて、ｄ（ｉ）は、標本が「配置」された過去時刻ｉ−ｄ（ｉ）への参照記号として使用される。一般的に、時刻ｉ−ｄ（ｉ）に配置された標本は、存在しない。したがって、時刻ｉ−ｄ（ｉ）の両側に存在する標本の帯域限定補間が必要となる。時刻ｉ−ｄ（ｉ）に標本を生成する帯域限定補間が行われると、この標本値は、時刻ｉに割当てられる。この過程は、必要に応じて、現時サブフレームまたは次サブフレーム内の各標本の回帰過程において繰返される。
【００５３】
適応コードブックプロセッサ１５０が現時サブフレームと次サブフレームの一定部分とにおいて使用するための標本を決定すると、これらの標本は、符号励振形線形予測符号化過程において使用する時間軸シフト済原信号を決定する基準として使用するために、時間軸シフトプロセッサ２００へ供給される。時間軸シフトプロセッサへ供給された標本は、符号励振形線形予測符号化の合成による分析過程に対する適応コードブック補助情報といわれる。
【００５４】
長時間予測器の実現適応コードブックの代りに、全極型フィルタが使用されることを理解するべきである。しかし、適応コードブックの実現は、ここに説明するように、特に、遅延値が総じてサブフレーム長より短い状況に適合する。これは、適応コードブックの実現が現時サブフレーム内の長時間予測器補助情報を供給するためにのみ長時間予測器利得（ここでは、コードブック利得）の決定値を必要とすることがないからである。この利得は、後に決定しうる。適応コードブックの場合と違って、長時間予測器の実現全極型フィルタは、遅延値がサブフレーム長より短いときのフィルタ利得値を得る非線形等式の解を必要とする。
【００５５】
時間軸シフトプロセッサ
時間軸シフトプロセッサ２００は、原音声信号が符号化のために常に使用されたとした場合よりも小さい誤差で（符号励振形線形予測のような合成による分析符号化法により）符号化されるように、原音声信号セグメントをシフトする方法を決定する。原音声信号の時間軸シフトのために、時間軸シフトプロセッサ２００は、まず、原音声信号内で原音声信号エネルギの極大値を識別する。上記実施例によれば、時間軸シフトプロセッサ２００は、原音声信号の複数の重なり合ったセグメントを選択する。これらセグメントのそれぞれは、識別された極大信号エネルギを有する。時間軸シフトプロセッサ２００は、選択された各セグメントを（適応コードブックプロセッサ１５０により供給された）適応コードブック補助情報セグメントと比較する。この比較が行われることにより、適応コードブック補助情報のセグメントに最も近似する原音声信号セグメントが決定される。適応コードブック補助情報のセグメントに最も近似した原音声信号のセグメントが決定されると、この原音声セグメントは、符号励振形線形予測法による符号化のための時間軸シフト済原音声信号の形成に使用される。
【００５６】
図１に示されているように、時間軸シフトプロセッサ２００は、短時間予測フィルタ１２０から原残差音声信号ｘ（ｉ）を受入れ、符号励振形線形予測符号化法に使用する時間軸シフト済プロセッサ残差音声信号、山付ｘ（ｉ）を供給する。図６に示されているように、時間軸シフトプロセッサ２００は、プロセッサ２１０、通常型緩衝メモリ２２０，２３０および２４０、プロセッサ２１０のプログラムを格納するため通常型ＲＯＭ２５０、および、プロセッサ２１０の結果を格納する通常型ＲＡＭ２６０からなる。
【００５７】
時間軸シフトプロセッサ２００の動作を、音声信号に対する時間軸シフトプロセッサ２００の動作の開始点を示す図７とプロセッサ２１０の動作のフローチャートを示す図８および図９とを参照して説明する。
【００５８】
図７に示されているように、時間軸シフトプロセッサ２００は、適応コードブックプロセッサ１５０から出力された適応コードブック補助情報を表わす、再構成音声バッファ２２０を受入れた後、動作し始める。上述した通り、この適応コードブック補助情報は、適応コードブックプロセッサ１５０により、現時サブフレームと次サブフレームの一定部分との中へ写像された過去再構成音声標本（図５および関連記述参照）とからなる。この再構成音声バッファは、プロセッサ２１０による使用のため、ＲＡＭ２６０内へロードされる。ポインタｄｐ１は、適応コードブックと固定確率コードブック補助情報との両方が決定される最後サブフレームの終端を示すため、プロセッサ２１０により保持され、ＲＡＭ２６０に記憶される。上記サブフレームの長さsubframe-1は、一定であり、メモリ（例えば、ＲＯＭ２５０）内に保持される。プロセッサ２１０の先の動作に基づいて、時間軸シフト残差、波付ｘ（ｉ）がポインタｄｐｍにより特定された時点までに、新規作成される（ポインタｄｐｍは、常に、ポインタｄｐ１以上である）。また、現時サブフレームに同伴する原残差信号を含む、原残差信号ｘ（ｉ）の一部は、緩衝記憶装置２３０に入力され、ＲＡＭ２６０内に記憶される。プロセッサ２１０は、時間軸シフト済信号内の最新標本と原残差音声信号内の対応する標本との標本ずれ（すなわち、累積シフト）を表わす値 acc-shiftを（ＲＡＭ２６０内に）保持する。初期化により、上記状態は、ｄｐｍ＝ｄｐ１および、 acc-shift＝０を含むように修正される。
【００５９】
この１組の条件が与えられると、時間軸シフトプロセッサ２００は、適応コードブック補助情報に最も整合する、現時サブフレームの時間軸シフト済残差信号（事情により、次サブフレームの一部）を決定するように動作する。
【００６０】
図８および図９は、図６に示されたプロセッサ２１０の動作を示すフローチャートを示す。図８によれば、プロセッサ２１０により行われる最初のタスクは、時間軸シフト済残差、波付ｘ（ｉ）が現時サブフレームの終端まで達するか、または、この終端の後まで伸びているかを決定することである。図７に示されているように、時間軸シフト済残差が拡大した範囲は、ポインタｄｐｍにより与えられる。現時サブフレームの終端は、現時サブフレームポインタｄｐ１と固定サブフレーム長subframe-1との和により示される。ｄｐｍ＜ｄｐ１＋subframe-1のときは、時間軸シフト済残差を拡大するために、追加処理が行われる。上記条件が成立しないときは、現時サブフレームについて追加のシフト処理は必要とされない（ステップ３０５参照）。追加のシフト処理が必要なときは、プロセッサ２１０は、原残差音声信号ｘ（ｉ）のセグメント内の最大エネルギ一を決定する。通常、最大エネルギ位置は、有声音のピッチパルスの位置に対応する。しかし、これは、必ずしも、事実ではない。最大エネルギがピッチパルスまたは信号の他の特徴（例えば、エネルギノイズ）に関連するか否かにかかわらず、最大エネルギ位置の探索は、原信号のシフトが原音声内のエネルギ的特徴を適応コードブック補助情報の有意特徴と最も一致するように、行われる。
【００６１】
探索されようとする原残差音声信号のセグメントの始まりは、原残差音声信号標本のポインタに関連して定義される。この標本は、シフト済残差信号内のポインタｄｐｍにより特定された標本に対応する。この残差音声信号標本ポインタｄｐｍ′は、標本ポインタｄｐｍと、波付ｘ（ｉ）およびｘ（ｉ）間の累積シフトとの和として決定され、ｄｐｍ′＝ｄｐｍ＋ acc-shiftとなる（ステップ３１０参照）。ついで、ポインタ offsetにより指定されて、探索されようとする時間間隔の始まりが算出される（ステップ３１５参照）。ついで、探索されようとする間隔の長さが決定される（ステップ３２０参照）。
【００６２】
ついで、信号ｘ（ｉ）のセグメント内の最大エネルギ位置が決定される（ステップ３２５参照）。この決定は、標本５個長窓を使用することにより行われる。原残差音声信号のｉ番目の標本と隣合う中心を有する上記標本５個長窓は、エネルギ算出に使用される原残差音声信号の標本を決定する。標本位置ｉにおけるエネルギは、窓内の全ての標本の自乗の和によって決定される。（ｉ＋１）番目の標本位置におけるエネルギも同一方法で決定される。しかし、窓は、窓の中心位置が（ｉ＋１）番目の標本を含むように、標本１個分、時間的に後の方へ移動される。再び、エネルギは、窓内の全ての標本値の自乗の和として決定される。セグメント内の各標本位置のエネルギも同一方法で決定される。現時窓内の標本のエネルギは、直近の過去標本窓のエネルギ−窓外へシフト済標本のエネルギ＋窓内へシフト済標本のエネルギとして決定されうる。この方法で決定された最大エネルギを同伴する標本位置は、ポインタlocationにより識別される。
【００６３】
原残差信号ｘ（ｉ）のセグメントがセグメント内に最大エネルギを有する標本について探索されると、プロセッサ２１０は、この最大エネルギ標本が先のサブフレーム内で判断された標本であるか否かを決定する（したがって、最大関心事出はない）。これは、locationがｄｐｍ′に先行するか否かを決定することにより行われる（ステップ３３０参照）。
【００６４】
locationがｄｐｍ′に先行するときは、他の探索がプロセッサ２１０により行われる。しかし、この場合、探索されたセグメントは、offset（相対位置）＝location＋０．７５遅延値（ステップ３３５参照）として指定される標本から始まり、０．５遅延値分持続する。遅延値は、遅延値推定器１４０により、現時サブフレームＭ（ＦＢn ）の始まり時に妥当な遅延値として与えられる。原残差信号内の諸有意ピッチパルスエネルギ特徴は、多分、一遅延値分距てられるので、新しいoffsetの算出により、探索が前方へ（０．７５遅延値）飛越すことができるようになり、多分、０．５遅延値の長さのセグメント内での最大エネルギ特徴を見付けられる。最大エネルギを有する標本位置は、ステップ３２５に関係して上述した通りに決定される（ステップ３４５参照）。
【００６５】
locationがｄｐｍ′に先行しないときは、多分、ｄｐｍ′後の最初のピッチパルスが見付けられているので、制御の流れは、ステップ３５０に飛ぶ。
【００６６】
ステップ３２５またはステップ３４５において決定された最大信号エネルギの位置がｄｐｍ′＋遅延値となる時は、（確実ではないが）多分、ｄｐｍ′の後であって、ｄｐｍ′＋遅延値より前に位置するピッチパルスは、プロセッサ２１０によりこの時刻まで行われた探索により、検出されていない（ステップ３５０）。この場合、原残差信号の他のセグメントが定められ、このセグメント内で最大エネルギ位置が決定される。ステップ３２５または３４５で決定された最大信号エネルギ位置がｄｐｍ′＋遅延値に先行するときは、制御の流れは、ステップ３８０に飛ぶ。ステップ３５０が原残差音声信号の他のセグメントを探索しなければならない結果になったと仮定すれば、このセグメントは、offset＝location-1−２５遅延値（ステップ３５５参照）から始まり、長さ＝０．５遅延値分前向きシフトする（ステップ３６０参照）ように決定される。最大エネルギ位置は、ステップ３２５に関係して上述した通りに決定される。ただし、この位置の標本ポインタは、location 2に記憶される（ステップ３６５参照）。
【００６７】
最大エネルギ位置（location 2）がｄｐｍ′より後のときは、location 2は、ｄｐｍ′より後の最初のピッチパルスの位置を識別し、locationは、location 2に等しくなるように設定される（ステップ３７０および３７５参照）。他方、最大エネルギ位置がｄｐｍ′の後でないときは、location 2は、ｄｐｍ′より後の最初のピッチパルスでなく、locationは、ステップ３２５または３４５において割当てられた値に設定されたままである（このような状況においては、ポインタであるlocationは、ステップ３６５での動作により上書きされない。
【００６８】
この時点で、原残差信号のセグメント内の最初のピッチパルス（すなわち、最大エネルギ）位置が見付けられる。今度は、この位置を含む原残差信号のセグメントが信号内の標本にある一定のポインタを設定することにより、プロセッサ２１０により定められる。これらのポインタは、決定されたlocationを含む上記セグメントの始まり（sfstart）と終端（sfend）とを指定する。このセグメントは、後に使用するため、適応コードブック補助情報に最も整合するように原残差信号を調整（すなわち、シフト）する過程の一部として定義される。
【００６９】
まず、セグメントポインタの省略時値は、プロセッサ２１０により設定される。
ポインタsfstartは、ｄｐｍ′に等しくなるように設定されるので、標本位置は、ｄｐｍ＋ acc-shoftに対応する（ステップ３８０参照）。sfstartのこの値は、
ｘ（ｉ）と０となる波付ｘ（ｉ）との間の追加累積シフトに対応する。すなわち、
ｄｐｍ′（＝sfstart）から始まる、ｘ（ｉ）の一部を使用しても、原信号とシフト済残差信号との間の累積シフトは、まったく増加しない。
【００７０】
ポインタsfendは、location＋extraに設定される。extra値は、メモリ（例えば、ＲＯＭ２５０）内に記憶された定数であり、標本の一定数（例えば、標本１０個）に等しい。extraを使用すれば、原残差音声のピッチパルス（すなわち、最大エネルギ）がこれらのポインタにより識別された原残差音声のセグメントの終端に来ることのないように保証される（ステップ３８０参照）。
【００７１】
ポインタsfendの省略時値は、一定の状況の下で、上書きされうる。sfendの省略時値が、原残差音声のセグメントが適応コードブック補助情報の終端を越えて有意に前向きにシフトすることを意味するときは、ポインタsfendは、ｄｐ１′＋subframe-1＋ extra（ただし、subframe-1は、上述した通り、固定適応コードブックサブフレーム内の標本の数に等しい定数である）で終わるように設定される（ステップ３８５および３９０参照）。
【００７２】
識別されたピッチパルス（すなわち、主エネルギ）の位置が適応コードブックのサブフレームの終端を有意に越えるときは、sfendの値は、さらに、上書きされうる。このような状況の下では、セグメントは、適応コードブックサブフレーム境界の終端において終ると判断される（ステップ３９５および４００参照）。このようなsfendの定義は、ピッチパルス（すなわち、主エネルギ）位置がセグメントの終端より後になることを意味する。したがって、セグメントは、もはや、ピッチパルスを含まない。
【００７３】
この時点で、識別されたピッチパルス（すなわち、最大エネルギ）の位置は、sfstartで始まり、sfend-1で終る標本範囲の外に来るか否かを決定するために、検査される（ステップ４０５参照）。識別されたピッチパルスの位置が上記標本範囲の外に来るときは、波付ｘ（ｉ）は、acc-shiftを変更することなく、ｘ（ｉ）の帯域限定補間により得られた標本で伸ばしうる（すなわち、制御の流れは、ステップ４８０に飛びうる）。その他のときは、シフトが行われる（ステップ４１０〜４７５参照）。
【００７４】
識別されたピッチパルス（すなわち、主エネルギ）の位置が上記範囲の外にないときは、適応コードブック補助情報のＬ長部（ｄｐｍから始まり、ｄｐｍ＋Ｌで終る）に最も密接に整合する、ｘ（ｉ）の標本（sfstartおよびsfendにより区切られたセグメントに隣合う指定標本範囲内の）Ｌ個の集合（すなわち、セグメント）がプロセッサ２１０により決定される。
【００７５】
ｘ（ｉ）の上記Ｌ長セグメントは、ｘ（ｉ）の与えられたＬ長セグメントが山付ｘ（ｉ）のＬ長部に整合する程度によって、sfstartとsfendとにより区切られたｘ（ｉ）のセグメントの上記Ｌ個の標本からなり、または、sfstartとsfendとに関してシフトされたセグメントの（帯域限定補間により得られた）標本からなる。この決定に関する述語として、可能標本シフトの範囲の制限（ステップ４１０参照）と標本長Ｌとが決定される（ステップ４１５参照）。ｘ（ｉ）のＬ長セグメントと適応コードブック補助情報、山付ｘ（ｉ）との「密接度」（すなわち、類似度）の決定は、これらの信号の相互相関過程を通じて行われる（差信号または誤差信号のような他の類似度も使用しうることも理解されよう）。山付ｘ（ｉ）のセグメントとの相互相関に使用するためのｘ（ｉ）のＬ長セグメントの選択は、図１０に関して説明する。
【００７６】
図１０は、ステップ３１０〜４００に関係して上記した通りに配置された原残差音声信号ｘ（ｉ）のセグメントの一例を示す。セグメントは、標本sfstartから始まり、標本sfendで終る。ピッチパルスは、標本 locationに存在する。標本 location と標本sfendとの距離は、extraに等しい。上述した通り、ポインタsfstartとポインタsfendとにより区切られたセグメント内に入るｘ（ｉ）の標本は、零シフトに対応する。ｘ（ｉ）のシフト済セグメントは、この零シフト位置との関係で定義される。各シフト済セグメントは、長さＬであり、零シフト位置との関係で一定の正数または負数の標本長（または、小数の標本長）から始まる（および終る）換言すれば、各シフト済セグメントは、 ststart＋shiftで始まり、 sfend＋shiftで終る。図１０に示されているように、siftの可能シフト値の範囲は、±limitである。
【００７７】
したがって、例えば、一の可能シフト値は、shift＝−limitとなる。この場合、このようなシフトで定義されたｘ（ｉ）のＬ長セグメントは、位置 sfstart−limitで始まり、位置 sfend−limitで終る。同様に、他の一の可能シフト値は、shift＝＋limitとなる。この場合、このようなシフトで定義されたｘ（ｉ）のＬ長セグメントは、位置 sfstart＋limitで始まり、位置 sfend＋limitで終る。上述した通り、±limitは、可能シフト範囲を指定する。したがって、sstepの大きさのシフト幅寸法（すなわち、シフト精度）が与えられれば、shiftは、範囲（−limit≦shift≦＋limit）内の値を取りうる。シフト幅寸法sstepは、一例として、標本０．５個に設定されうる。小数で表わされるシフトから生じる標本値は、通常の帯域限定補間により決定される。原残差信号ｘ（ｉ）の複数個の２×limit／sstepセグメントは、この方法で定義されうる。全てが±limit内のＬ長セグメントである。ただし、各セグメントは、その近接セグメントと重なり合うとともに、最近接セグメントから標本sstep2分ずれている。
【００７８】
limitとextraの相対寸法は、システム性能に影響する。例えば、extraが小さくなるにつれて、符号化遅延値は、小さくなる。しかし、shiftがｘ（ｉ）のＬ長セグメントからピッチパルスを除外する値を取る確率が高くなる。この除外が生じたときは、音声信号中に可聴歪みが生じる。また、除外確率は、limitが大きくなるにつれて高くなる。除外が生じないように保証するのを助けるため、limitの値は、extraの値より小さくするべきである。例えば、extraの値が１０のときは、limitの値は、６に設定されうる。
【００７９】
上記の通り識別された、ｘ（ｉ）の上記Ｌ長セグメントのそれぞれについて、セグメントと適応コードブック補助情報のＬ長セグメント、山付ｘ（ｉ）との類似度が算出される。この算出は、一例として、相互相関である。各相互相関に使用される適応コードブックセグメントは、ｄｐｍで始まり、ｄｐｍ＋Ｌで終る（図７参照）。相互相関は、sstepに等しいシフト幅寸法で行われる（sstepが非整数値に等しいときは、ｘ（ｉ）および山付ｘ（ｉ）の全てのセグメントについて必要標本値を供給するため、山付ｘ（ｉ）の通常、帯域限定補間が先行して行われる）。各相互相関は、相互相関値（すなわち、類似度）を生じる。このような全ての相互相関は、sstepだけ時間的に距てられた相互相関値集合を形成する。したがって、この集合の各相互相関値は、この値の算出に使用されるｘ（ｉ）のＬ長セグメントに対応するshiftと関連する。
【００８０】
相互相関値集合が決定されると、適応コードブックセグメントと最大相互相関を有する、原残差信号のセグメントが増大した時間分解能により決定される（ステップ４５０参照）。一例として、これは、３個の連続相互相関値からなる各集合について２次多項式曲線を決定する（３個の値からなる集合は、その最近接集合から１個の値だけ、ずれている）。集合中のこれら３個の相互相関値の中央値は、上記の通り、シフト済原残差信号に対応する。３個の相互相関値からなる集合（したがって、同伴多項式曲線）は、上記中央値とその同伴シフトとにより識別される。このような各曲線について、最大値とこの最大値位置（loc-max）とが決定される。最大値位置loc-maxが上記３個の値からなる範囲の外に存在するときは、これら３個の値と同伴曲線とは、無視される。最も大きい最大値を有する曲線は、適応コードブック補助情報のセグメントとの最良整合を生じる原残差信号のシフトを識別する。
【００８１】
最良整合を生じる原残差信号シフトは、最も大きな最大値を有する多項式曲線の最大値の位置を知ることにより改良される。上記曲線に同伴する、３個の相互相関値の中央値の位置に関して定められた最大値を使用すれば、shiftは、shift＝shift＋sstep＊loc-maxと改良されうる。
【００８２】
この時点で、原残差信号の最良シフトが決定されている。ついで、このシフトは、シフト済残差信号、波付ｘ（ｉ）を持続時間Ｌだけ前向きシフトさせるのに使用されうる。このシフトは既知であるから、原残差信号ｘ（ｉ）とシフト済残差信号、波付ｘ（ｉ）との間の累積シフトは、acc-shift＝acc-shift＋shiftとして更新される（ステップ４７５参照）。
【００８３】
累積シフトが更新されると、シフト済残差信号ｘ（ｉ）は、acc-shiftを、shift に対応する、原残差信号のセグメントの使用に整合させるために、前向きシフトされる。原残差標本値は、原信号標本時刻においてのみ、入手可能であることに留意してほしい。しかし、原残差信号の最適シフト決定によればアップサンプリングが相互相関の算出前に行われており、（一般的に、非整数である）値loc-maxが決定されている。一般的に、これは、シフト済残差信号、波付ｘ（ｉ）とシフト済残差信号を前向きシフトするのに使用されるべき原残差信号ｘ（ｉ）との間の非整数的標本時刻関係を生じる。したがって、シフト済残差信号の標本と時刻一致する原信号の標本値を供給するために、原信号のＬ長セグメントの帯域限定補間が使用される。このような時刻一致が行われると、この時刻一致済信号の全ての標本は、既存のシフト済信号と連結されうる（ステップ４８０参照）
。
【００８４】
制御の流れは、累積シフトを更新することなく、ステップ４８０に飛び越えることができたことに留意してほしい。この場合、標本Ｌ個の長さの原信号は、補間されることにより、シフト済残差信号の標本に、先行シフト済残差セグメントと同一acc-shift値を供給する。
【００８５】
いずれの場合にも、ｄｐｍは、波付ｘ（ｉ）の前向きシフトを表わすように更新される（ステップ４９０参照）。
【００８６】
図８および図９に示されているように、ｄｐｍが更新されると、制御の流れは、
ステップ３０５に戻る。上述した通り、ステップ３０５は、シフト済残差信号が現時サブフレームの終端を越えて前向きシフトするのに、追加処理が必要か否かを決定する。追加処理が必要なときは、シフト済残差の追加の前向きシフトが行われるように、再び、制御は、図８および図９に示されたステップ３１０〜４９０に示された過程を経る。ステップ３１０〜４９０は、ステップ３０５の条件が満されるまで、繰返される。シフト済残差が現時適応コードブックサブフレームの終端まで、または、越えて前向きシフトされると、適応コードブックサブフレームの終端のポインタは、更新され（ステップ５００参照）、原残差の時間軸シフトに伴う処理は、終了する。
【００８７】
波付ｘ（ｉ）が時間軸シフトプロセッサ２００により決定されると、基準化因数λ（ｉ）がプロセッサ２１０により、以下の通り決定される。
【００８８】
【数１３】

【００８９】
数式中、波付ｘ（ｉ）および山付ｘ（ｉ）は、サブフレームと等しい長さの信号である。この基準化因数は、山付ｘ（ｉ）に乗じられ、プロセッサ２００から出力される。
【００９０】
再び図１を参照すれば分るように、波付ｘ（ｉ）と適応コードブック推定値λ（ｉ）・山付ｘ（ｉ）とは、修正された原信号、波付ｘ（ｉ）から推定値λ（ｉ）・山付ｘ（ｉ）を差引く回路１６０に供給される。結果は、固定確率コードブック検索プロセッサ１７０に供給される励振残差信号γ（ｉ）となる。
【００９１】
コードブック検索プロセッサ１７０は、因数μ（ｉ）により基準化された全ての固定確率コードブックベクトルｚ（ｉ）のうち、いずれが最小２乗され聴覚重み付けされた意味で、最も密接にｒ（ｉ）に整合するかを決定するように、通常通り動作する。選定され基準化された固定コードブックベクトルμ（ｉ）ｚmin （ｉ）は、基準化された適応コードブックベクトルλ（ｉ）・山付ｘ（ｉ）に追加されることにより、現時再構成音声信号の最良推定値、山付ｘ（ｉ）を生じる。この最良推定値、山付ｘ（ｉ）は、適応コードブックプロセッサ１５０により、そのメモリ内に記憶される。
【００９２】
通常音声符号器の場合のように、適応コードブック遅延値および基準化因数λおよびＭ、固定確率コードブック指標ＩFC、および、利得μ（ｉ）および線形予測係数ａn は、通常符号励振形線形予測復号器（受信器）により、再構成用チャネルを通じて伝送される（図１３参照）。この伝送は、上記パラメータをもたらす信号の形を有する。本発明の実施例の作用により（符号化過程においての）誤差が少なくなるので、サブフレーム毎に１回でなく、フレーム毎に１回適応コードブック遅延情報を伝送することが可能である。サブフレーム遅延値は、発信器の遅延値推定器１４０により行われたのと全く同一の方法で遅延値を補間することにより、受信器側で提供しうる。
【００９３】
サブフレーム毎でなくフレーム毎に適応コードブック遅延情報を発信することにより、遅延に伴う必要帯域幅は、有意に削減しうる。
【００９４】
図９に示されたステップ４７５に関連して上述したように、 acc-shiftは、原信号ｘ（ｉ）とシフト済信号、波付ｘ（ｉ）との間の時間的累積シフトを表わす。これらの信号の常に増大する非同期性を防止するため、遅延値推定器１４０は、時間についてＭの計算値を調整しうる。遅延値推定器１４０により達成されるこの目的に適した調整過程は、図１２に関連して説明する。
【００９５】
図１２は、状態Ａ，ＢおよびＣを有する有限状態機械を示す。この機械の状態は、常に増大する非同期性を防止するために、Ｍの計算値に対する調整量を表わす。状態間の遷移は、時間軸シフトプロセッサ２００により供給される acc-shiftの値に基づく。機械が状態Ａの時は、目標遅延値ｍn （ｋ）を決定するのに使用される遅延値Ｍ（ＦＢn+1 ）は、調整されない。状態Ｂのときは、機械は、Ｍ（ＦＢn+1 ）を以下の通り調整する。
【００９６】
【数１４】

【００９７】
数式中、δは、説明のため、１標本時間に等しい。状態Ｃのときは、機械は、Ｍ（ＦＢn+1 ）を以下の通り調整する。
【００９８】
【数１５】

【００９９】
初期状態（Ａ，ＢまたはＣ）が与えられると、有限状態機械は、 acc-shiftの値のトラックを保持することにより、動作する。 acc-shiftの値が現時状態と他の状態との間の遷移条件を満すものであるときは、上記他の状態への遷移が生じる。例えば、機械が（遅延値推定器１４０の説明のための初期状態である）状態Ａにあり、−３ｍｓ＜ acc-shift＜３ｍｓであると仮定すれば、機械は、状態Ａのままであり、Ｍ（ＦＢn+1 ）は、修正されない。 acc-shiftの値が３ｍｓより大きいときは、機械は、状態Ｃへ遷移し、Ｍ（ＦＢn+1 ）は、 acc-shiftにより示された非同期性を相殺するのを助けるため、１標本時間だけ増加される。他方、状態Ａのときに、 acc-shiftが−３ｍｓより小さくなるときは、機械は、状態Ｂへ遷移し、Ｍ（ＦＢn+1 ）は、非同期性を相殺するのを助けるため、１標本文減少される。この動作は、状態ＢおよびＣについても同様である。
【０１００】
他の実施例
図１に示された実施例に対する追加の実施例が図１１に示されている。この実施例によれば、試原信号生成器６１０は、原ディジタル音声信号ｘ（ｉ）を受入れ、複数の試原信号、波付ｘ（ｉ）を生成する。試原信号生成器６１０は、図１，６，８および９に示されたものと類似の時間軸シフトプロセッサからなる。しかし、この時間軸シフトプロセッサは、試原信号と適応コードブック補助情報との相関を行わない。すなわち、この時間軸シフトプロセッサは、原音声信号ｘ（ｉ）の複数回のシフトに基づいて複数個のＬ長試原信号を供給するのみである。図１０に関連して上述したように、これらの試原信号は、標本sfstartから始まり標本sfendで終るＬ長セグメントに関係して、±limitの範囲に亘ってシフト幅寸法sstepのシフトにより決定された、原信号のＬ長セグメントである。試原信号生成器６１０は、原残差信号と試原信号との相互相関を行わないので、自らは、符号化のための試原信号を選択しない。試原信号生成器６１０は、試原信号を供給するよりも、むしろ、処理のために符号（すなわち、合成）器６２０に対して生成する。
【０１０１】
符号器６２０は、図１４に示された符号励振形線形予測のような従来型合成による分析符号器からなる。合成（すなわち、再構成）原信号、山付ｘ（ｉ）は、適応コードブック出力信号と固定コードブック出力信号の和ｅ（ｉ）＋λ（ｉ）ｘ（ｉ−ｄ（ｉ））として図１４に示された信号である（図１４に示された回路４５参照）。符号励振形線形予測符号の分析処理により決定された、（合成信号、山付ｘ（ｉ）が生成される）符号化された信号パラメータは、後の使用のため、ＲＡＭに記憶されうる。したがって、符号器６２０の出力、山付ｘ（ｉ）は、与えられた試原信号、波付ｘ（ｉ）に基づく原信号ｘ（ｉ）の推定値である。ついで、この、原信号の推定値は、推定原信号、山付ｘ（ｉ）と試原信号、波付ｘ（ｉ）との類似度を決定するため、試原信号と比較される。この類似度は、２個の信号間の差（すなわち、誤差）信号Ｅ（ｉ）を決定する差回路６３０に供給される。誤差信号Ｅ（ｉ）は、与えられた試原信号に同伴する誤差のトラックを保持する試原信号生成器６１０に供給される。すべての試原信号が上記の方法で処理されると、試原信号生成器６１０は、いずれの試原信号、波付ｘ（ｉ）が最高類似度（例えば、最小誤差）を生じたかを決定しうる。ついで、試原信号生成器６１０は、符号器６２０に信号を供給することにより、最小誤差を有する試原信号に同伴する、記憶された符号パラメータを使用させる。これらのパラメータは、原信号ｘ（ｉ）の符号化表現として受信器に伝送されうる。
【０１０２】
当業者であれば、「原」信号、「再構成」信号等の信号について言われたことは、これらの信号のセグメントにも言いうることを理解するであろう。また、与えられた信号がアップサンプリングされるか否かは、その「原」信号、「試原」信号等としての性格を変えない。したがって、例えば、「原信号」に関係して「標本」の語を使用することは、アップサンプリングにより供給された信号の標本値、アップサンプリングの結果でない標本、または、この両方を含みうる。
【０１０３】
表の説明
上記第１実施例に関係するソフトウェアプログラム集合は、明細書の一部を成す。この集合のすべてのソフトウェアプログラムは、「Ｃ」プログラミング言語で書かれている。本発明の具体化は、汎用コンピュータ（例えば、シリコングラフィックス社から販売されているアイリスインディゴという名のワークステーション上で上記プログラムを実行することにより、行いうる。サブルーチン「cshiftframe」および「modifyorig」は、全体として、図８および図９に示された関数に対応する。
【０１０４】
【表１】

【０１０５】
【表２】

【０１０６】
【表３】

【０１０７】
【表４】

【０１０８】
【表５】

【０１０９】
【表６】

【０１１０】
【表７】

【０１１１】
【表８】

【０１１２】
【表９】

【０１１３】
【表１０】

【０１１４】
【発明の効果】
本発明によれば、合成による分析の符号化において、必要帯域幅を減らすことができる。また、本発明によれば、原信号の代りに、または、原信号使用の補充として、原信号を変化させた試原信号を使用するので、符号化誤差および必要ビットレートが削減される。音声符号化において、符号化誤差が小さくなれば、長時間予測器遅延情報の伝送頻度を低くすることができ、再構成音声品質の低下がほとんど無い、または、全く無い、遅延値補間が可能となる。本発明は、特に、無線電話網（例えば、セルラー式）および通常電話網のような音声情報通信網に適用されうる。
【図面の簡単な説明】
【図１】本発明の一実施例のブロック線図である。
【図２】開ループ遅延値を推定する相関過程に使用される標本の窓を示すタイミング図である。
【図３】図１に示された実施例に使用される遅延値の時間関係を示すタイミング図である。
【図４】適応コードブックプロセッサの一例を示すブロック線図である。
【図５】図１に示された実施例の適応コードブックの動作について標本時刻関係を示すタイミング図である。
【図６】図１に示された実施例の時間軸シフトプロセッサの一例を示すブロック線図である。
【図７】図６に示された時間シフトの動作について初期条件集合の一例を示すタイミング図である。
【図８】図６に示された時間シフトの動作を示すフローチャートである。
【図９】図６に示された時間シフトの動作を示す、図８に連続するフローチャートである。
【図１０】時間シフトにより試原音声信号を生成するのに使用される原音声セグメントを示すグラフである。
【図１１】本発明の他の実施例を示すブロック線図である。
【図１２】原信号と時間シフト済信号との同時性に関して、遅延値推定器の動作を説明する有限状態機械を示す説明図である。
【図１３】図１および図１１に示された符号器の実施例に使用される受信器／復号器のブロック線図である。
【図１４】従来の符号励振形線形予測符号器のブロック線図である。
【符号の説明】
１００線形予測分析器
１２０短時間予測フィルタ
１４０遅延値推定器
１５０適応コードブックプロセッサ
１７０コードブック探索プロセッサ
１８０固定コードブック
２００時間軸シフトプロセッサ
６１０試信号生成器
６２０符号（合成）器
７００固定確率コードブック
７３０短時間予測フィルタ−１
７５０適応コードブック
７６０補間プロセッサ

Claims

ａ．標本識別基準に基づいて、原信号の標本を識別するステップと、
ｂ．識別された標本のうちの１個以上の標本を含む、原信号のセグメントを選択して、試原信号を形成するステップと、
ｃ．複数個の試原信号のそれぞれについて、試原信号と合成信号との類似度を評価するステップと、
ｄ．評価された類似度に基づいて、符号化に使用される試原信号を決定するステップと、
ｅ．決定された試原信号に基づいて、原信号の符号化表現を表す信号を生成するステップとからなることを特徴とする信号符号化方法。
試原信号を分析して該試原信号を表現するパラメータを生成するステップと、
前記パラメータのうちの１個以上のパラメータに基づいて、原信号を推定する信号を合成するステップとをさらに含むことを特徴とする請求項１に記載の方法。
前記ステップａは、
原信号を分析することにより、極大エネルギの位置を決定するステップを含むことを特徴とする請求項１に記載の方法。
選択される原信号のセグメントは、識別された標本以外の原信号標本からなることを特徴とする請求項１に記載の方法。
選択されるセグメントは、他の原信号標本に先行する識別された標本からなることを特徴とする請求項４に記載の方法。
前記ステップｂは、
原信号の１個以上の標本に関して時間軸シフトを決定するステップと、
前記時間軸シフトに基づいて、原信号標本集合を決定するステップとを含むことを特徴とする請求項１に記載の方法。
前記ステップｃは、
試原信号と合成信号との相互相関を形成するステップを含むことを特徴とする請求項１に記載の方法。
前記ステップｄは、
評価された複数の類似度の比較に基づいて、前記複数個の試原信号のうちから試原信号を選択するステップを含むことを特徴とする請求項１に記載の方法。
前記ステップｄは、
ｆ．評価された複数の類似度の比較に基づいて、試原信号を生成するステップを含むことを特徴とする請求項１に記載の方法。
前記ステップｆは、
複数個の試原信号類似度のうちから、実質的最大類似度を決定するステップと、
実質的最大類似度をもたらす時間軸シフトを決定するステップとを含むことを特徴とする請求項９に記載の方法。
前記ステップｆは、
形成された試原信号と時間軸シフトとに基づいて、試原信号用標本値を決定するステップをさらに含むことを特徴とする請求項１０に記載の方法。
前記ステップｆは、
原信号と時間軸シフトとに基づいて、試原信号用標本値を決定するステップをさらに含むことを特徴とする請求項１０に記載の方法。
前記ステップｅは、
ｇ．１個以上の決定された試原信号を符号化するステップを含むことを特徴とする請求項１に記載の方法。
前記ステップｇは、
ｈ．合成による分析符号化を行うステップを含むことを特徴とする請求項１３に記載の方法。
前記ステップｈは、
符号励振形線形予測符号化を行うステップを含むことを特徴とする請求項１４に記載の方法。
ａ．標本識別基準に基づいて、原信号の標本を識別する手段と、
ｂ．識別された標本のうちの１個以上の標本を含む、原信号のセグメントを選択して、試原信号を形成する手段と、
ｃ．複数個の試原信号のそれぞれについて、試原信号と合成信号との類似度を評価する手段と、
ｄ．評価された類似度に基づいて、符号化に使用される試原信号を決定する手段と、
ｅ．決定された試原信号に基づいて、原信号の符号化表現を表す信号を生成する手段とからなることを特徴とする信号符号化装置。
試原信号を分析して該試原信号を表現するパラメータを生成する手段と、
前記パラメータのうちの１個以上のパラメータに基づいて、原信号を推定する信号を合成する手段とをさらに含むことを特徴とする請求項１６に記載の装置。
前記手段ａは、
原信号を分析することにより、極大エネルギの位置を決定する手段を含むことを特徴とする請求項１６に記載の装置。
前記手段ｂは、
原信号の１個以上の標本に関して時間軸シフトを決定する手段と、
前記時間軸シフトに基づいて、原信号標本集合を決定する手段とを含むことを特徴とする請求項１６に記載の装置。
前記手段ｅは、
ｇ．１個以上の決定された試原信号を符号化する手段を含むことを特徴とする請求項１６に記載の装置。
前記手段ｇは、
ｈ．合成による分析符号化を行う手段を含むことを特徴とする請求項２０に記載の装置。
前記手段ｈは、
符号励振形線形予測符号化を行う手段を含むことを特徴とする請求項２１に記載の装置。