JP3662597B2

JP3662597B2 - 一般化された合成による分析音声符号化方法と装置

Info

Publication number: JP3662597B2
Application number: JP28480892A
Authority: JP
Inventors: バスティアンクレイジンウィレム
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1991-10-25
Filing date: 1992-10-23
Publication date: 2005-06-22
Anticipated expiration: 2020-06-22
Also published as: DE69225293D1; JPH05232995A; EP0539103B1; DE69225293T2; EP0539103A3; EP0539103A2; ES2115646T3

Description

【０００１】
【技術分野】
本発明は一般に音声符号化システム、特に合成による分析音声符号化システムの帯域要求の減少に関する。
【０００２】
【背景技術】
音声符号化システムは、チャネルあるいはネットワークを通してひとつあるいはそれ以上のシステム受信機に通信するために音声信号の符号語による表現を提供する。各システム受信機は受信された符号語から音声信号を再構成する。与えられた時間の中でシステムによって通信される符号語情報の量がシステムの帯域幅を規定し、システム受信機によって再生される音声の品質に影響を与える。
【０００３】
音声符号化システムの設計者は、できるだけ小さい帯域幅を利用して高品質の音声再生能力を求める。しかし高品質音声の要求と低帯域幅の要求とは相反するものであり、従って設計過程でのかね合いが必要である。しかし、本音声符号化手法は許容できる音声品質を減少したチャネル帯域幅で提供するように開発されたものである。その中には、合成による分析音声符号化手法が含まれている。
【０００４】
合成による分析音声符号化手法では、音声信号は波形一致手続によって符号化される。候補となる音声信号は、ひとつあるいはそれ以上のパラメータから合成されて符号化されるべき元の音声信号と比較される。パラメータを変化させて異る合成された候補音声信号が判定される。最も良く一致する候補音声信号のパラメータを元の音声信号を表わすために使用する。
【０００５】
多くの合成による分析符号器、例えば符号励振線形予測（ＣＥＬＰ）符号器は音声信号の長期相関をモデル化するために長期予測器（ＬＴＰ）を使用する（ここで“音声信号”という用語は実際の音声あるいは合成による分析符号器のいずれかの励振信号を意味する。）。一般的に、相関によって過去の音声信号を現在の音声信号の近似として使うことができる。ＬＰＴによっていくつかの過去の音声信号（これはすでに符号化されている）を現在の（元の）音声信号と比較できる。このような比較によって、ＬＴＰは過去の信号の中のいずれが、元の信号に最も良く一致するかを判定する。過去の音声信号は遅延によって識別できるが、これはどの位の過去にその信号があったかを示すものである。ＬＴＰを用いた符号器は、最も整合する過去の音声信号のスケーリングしたもの（すなわち最適近似）を現在の音声信号から引算信号（これは残留分あるいは励振と呼ばれる）を減少した長期相関と共に生ずる。この信号は次に典型的には固定統計的コードブック（ＦＳＣＢ）で符号化される。ＦＳＣＢインデクスとＬＴＰ遅延は、他の情報と共にＣＥＬＰ復号器に送信され、これは元の音声信号の指定値をこれらのパラメータから回復する。
【０００６】
音声の長期相関をモデル化することによって、復号器における再生された音声の品質を向上することができる。しかしこの改善は帯域の大幅な増大なしには達成されない。例えば、音声の長期相関をモデル化するために、従来のＣＥＬＰ符号器は５ミリ秒あるいは７．５ミリ秒（これをサブフレームと呼ぶ）ごとに８ビットの遅延情報を伝送する。このような時間変化をする遅延パラメータは、例えば帯域で１kb／s から２kb／s を増大することになる。ＬＴＰ遅延の変化は、時間的に予測できないかもしれないから（すなわち、ＬＴＰ遅延の値のシーケンスは統計的性質を持つから）、遅延パラメータの符号化によって追加の帯域の要求を削減することは困難かもしれない。
【０００７】
ＬＴＰを保った合成による分析符号器が余分の帯域を必要とすることを減少する方法のひとつは、ＬＴＰ遅延値をより低頻度で伝送し内挿によって中間のＬＴＰ遅延を決定することである。しかし、内挿を行なえば音声信号の個々のサブフレームでＬＴＰによって部分最適の遅延値が使用されることになる。例えば、もし遅延が部分最適であれば、ＬＴＰは過去の音声信号を現在の音声信号に部分最適に写像することになる。この結果として、残留励振信号は他の場合に比べて大きくなる。この場合ＦＳＣＢは、波形を整えるというその通常の機能を実行するのではなく、その部分最適の時間シフトの効果を修正するように動作しなければならない。このような修正が行なわれなければ、耳に聴える大幅な歪みが生ずることになる。
【０００８】
【発明の要約】
本発明は合成による分析音声符号化システムにおける帯域要求を減少する方法と装置を提供する。本発明は符号化されるべき実際の原信号（original signal)に基づいて、多数の試行原信号（trial original signal)を提供する。これらの試行原信号は実際の原信号に似た聴取特性を持つように制約され、符号化に際して実際の原信号の代りにあるいはその補助として使用される。原信号、従って試行原信号は実際の音声信号の形をとっても良いし、合成による分析符号器に存在する励振信号の形をとっても良い。本発明によって元の音声信号の変化を許して符号化誤差とビット周波数とを削減することにより、一般化された合成による分析符号化を可能にする。本発明は他の応用と共に、セル状の、あるいは通常の電話ネットワークのような音声情報通信用のネットワークに適用できる。
【０００９】
本発明の一実施例においては、試行原信号は符号化プロセスと合成プロセスで使用され、再構成された原信号を生ずる。試行原信号と再構成された信号との間の誤差信号が形成される。最小の誤差を生ずると判定された試行原信号は、符号化と受信機への通信のための符号化の基礎として使用される。この方法で誤差を小さくすることによって、所望のシステム帯域を減少するように符号化プロセスが変更される。
【００１０】
ＣＥＬＰ符号器用の本発明の他に図示する実施例においては、実際の原信号に対してタイムワープのコードブックを応用することによって、ひとつあるいはそれ以上の試行原信号が与えられる。ＣＥＬＰ符号器のＬＴＰ手続においては、試行原信号は適応コードブックによって提供される過去の音声信号の候補と比較される。候補に最も近い試行原信号が識別される。ＬＴＰプロセスの一部として、候補は識別された試行原信号から引算されて、残余を形成する。次にこの残余が固定統計的コードブックを適用して符号化される。ＬＴＰ手続において多数の試行原信号を使用する結果として、本発明の一実施例は過去の信号の現在の信号への写像を改善し、その結果として残留誤差を小さくする。このようにして残留誤差を小さくすることによってＬＴＰ遅延情報の伝送頻度を低くすることができ、再構成された音声の劣化なしに、あるいはわずかの劣化で遅延内挿ができるようになる。
【００１１】
本発明の他の実施例では、時間シフト手法によって多数の試行原信号を提供する。
【００１２】
【詳細な記述】
序論
図１は本発明の一実施例を図示したものである。符号化されるべき原信号ｓ(i) は試行原信号発生器１０に与えられる。
【００１３】
【外１】

【００１４】
符号化過程における誤差を減少するように原信号を変化することを認めることによって、本発明は従来の合成による分析符号器を一般化することになる。従って符号器／合成器１５は従来のＣＥＬＰのような任意の従来の合成による分析符号器でよい。
【００１５】
従来のＣＥＬＰ
図２は従来の合成による分析ＣＥＬＰ符号器を図示する。標本化された音声信号ｓ(i) （ｉはサンプルの添字）が現在の音声セグメントについて最適化されたＮ次の短期線形予測フィルタ（ＳＴＰ）２０に与えられる。信号ｘ(i) はＳＴＰによるフィルタの後の励振である。
【００１６】
【数１】

ここでパラメータａ_nは線形予測分析器１０によって与えられる。Ｎは通常１０サンプル程度であるから（８kHz のサンプリング周波数の場合）、励振信号ｘ(i) は原信号ｓ(i) の長期周期性を保存している。ＬＴＰ３０はこの冗長性を除くために設けられる。
【００１７】
ｘ(i) の値はブロックごとに決定される。各ブロックはサブフレームと呼ばれる。線形予測係数ａ_n は分析器１０によってフレーム毎に決定される。フレームは固定長を持ち、これは一段にサブフレーム長の整数倍で、通常２０−３０ミリ秒の長さを持つ。線形予測係数ａ_n についてのサブフレームの値は通常は内挿によって決定される。
【００１８】
ＬＴＰは次のように使用する利得λ(i) と遅延ｄ(i) を決定する。
【００１９】
【数２】

【００２０】
【外２】

【００２１】
音声の各サブフレームのデータ表現、すなわちＬＴＰパラメータλ(i) とｄ(i) およびＦＳＣＢインデクスはフレームに等しいサブフレームの数だけ集められる（典型的には２，４あるいは６）。係数ａ_nと共に、このデータのフレームはＣＥＬＰ復号器に通知され、ここでこれを利用して音声の再構成が行なわれる。
【００２２】
【外３】

【００２３】
【外４】

このコードブックからベクトルを選択するために、知覚に関連した誤差条件を使っても良い。これは人間の聴覚に存在するスペクトルマスクを利用して行なうことができる。このようにして、原音声信号と再構成された音声信号の差を使う代りに、この誤差条件は知覚で重み付けられた差を使うことになる。
【００２４】
信号の知覚重み付けは音声に存在するフォーマットにデ・エンファシスを与えることになる。この例では、フォーマットはスペクトルのデ・エンファシスを極を内側に移動して実現するような全極フィルタとして記述できる。これは予測係数ａ₁,ａ₂,・・・,ａ_Nを持つフィルタを係数γａ₁,γ²ａ₂,・・・,γ^Nａ_Nを持つフィルタに置き換えることに対応するが、ここでγは知覚重み付け係数である。（通常０．８程度の値をとる。）
【００２５】
知覚重み付けされた領域におけるサンプルされた誤差信号ｇ(i) は
【００２６】
【数３】

である。合成による分析符号器の誤差条件はサブフレームごとに形成される。Ｌサンプル長のサブフレームでは一般に使用される条件は
【００２７】
【数４】

【００２８】
【外５】

【００２９】
【外６】

【００３０】
時間領域においては、係数γによるスペクトルのデ・エンファシスによって全極フィルタのインパルス応答が速く減衰するようになる。実際的には、８kHz のサンプリング周波数の場合γ＝０．８ではインパルス応答は２０サンプル先には意味のあるエネルギーは持たなくなる。
【００３１】
このように急速に減衰させることによって、全極フィルタのインパルス応答１／（１−γａ₁z^-1・・・ γ^Na _Nz ^-N) は有限インパルス応答フィルタで近似できることになる。このフィルタのインパルス応答をｈ₀,h₁, ・・・, h_R-1で表わすことにしよう。これによって知覚重み付けした音声に対する誤差条件の操作をベクトル表示することができることになる。符号器はサブフレームごとに動作するから、サブフレームの長さに合せてベクトルをそのサンプルＬで定義するのが便利である。例えば、励振信号については
【００３２】
【数５】

となる。さらにスペクトル重み付けマトリクスＨは、次のように定義される。
【００３３】
【外７】

もし行列ＨがＬ×Ｌの矩形に区切られたとすると、式（８）は式（４）を近似することになり、これは元々のＣＥＬＰに使われているような一般の共分散条件に近づく。
【００３４】
ＣＥＬＰ符号化の図示の実施例
図３は本発明の一実施例をＣＥＬＰ符号化に適用する場合を図示する。サンプルされた音声信号ｓ(i) が符号化のために与えられる。信号ｓ(i) は線形予測係数ａ_nを生ずる線形予測分析器１００に与えられる。信号ｓ(i) はまたＳＴＰ１２０に与えられ、これは式（１）に示すプロセスに従って動作する。信号ｓ(i) は遅延推定器１４０にも与えられる。
【００３５】
遅延推定器１４０はｓ(i) の最近の履歴（例えば過去の２０と１６０の間のサンプル）を探索し、符号化されるべき現在の音声のサブフレームｓ(i) に最も良く整合する連続した過去のサンプルの集合（サブフレーム長に等しい長さの）を決定する。遅延推定器１４０は現在のサブフレームとｉ−１６０＜ｉ＜ｉ−２０の過去のサンプルｓ(i) の値の連続した集合との相関手続きを通してその判定を行なうかもしれない。相関技法の例としてはＣＥＬＰ符号器に用いられる通常のオープンループＬＴＰによって使用される手法を使っても良い（ここでオープンループという用語は再生された過去の音声信号ではなく、原信号を使用するＬＴＰ遅延推定プロセスについて述べている。又、再生された音声信号を使う遅延推定プロセスはクローズドループと呼ぶ。）。遅延推定器１４０は上述した手続きによってフレームに１回遅延推定値を決定する。遅延推定器１４０はフレーム境界で決められた遅延値の内挿によって各サンプルフレームの遅延の値Ｍを計算する。
【００３６】
【外８】

【００３７】
【外９】

【００３８】
上述したように、ＬＴＰプロセスは符号化された音声の長期相関を小さくするために、現在の音声信号と最も良く整合する過去の音声信号を識別するように動作する。図３の実施例において、多数の試行原信号がＬＴＰプロセスに与えられる。このような多数の試行原信号はタイムワープ処理機能１３０によって与えられる。
【００３９】
図４に示すタイムワープ関数１３０は原信号に適用するためのタイムワープ（ＴＷＣＢ）処理用のコードブック１３３を与え多数の試行原信号を生ずる。原理的にはタイムワープ処理機能１３０のコードブック１３３は任意のタイムワープ
【００４０】
【数６】

を含み、これは原信号の知覚品質を変化することはない。
【００４１】
【数７】

ここでｔ_jとτ_jは原領域とワープ領域におけるサブフレームｊの開始を含む。
【００４２】
ワーププロセスの安定性を増大するために、主要なピッチパルスがサブフレームの右方の境界の近くに入ることが望ましい。これはこのようなサブフレームの境界を、周知の手法を使用してこのようなパルスのちょうど右方に入るように定義することによって実現される。符号化されるべき音声信号のピッチパルスが境界点にあると仮定すれば、ワーピング関数が次式を満足するようにすることが望ましい。
【００４３】
【数１】

もしピッチパルスがサブフレーム境界のいくらか前にあれば、ζ(t) はその終りの値をサブフレーム境界の近傍に保つようにするべきである。もし式（１０）が満足されないときには振動的なワープとなる。タイムワープのコードブックを実現するためにタイムワープ処理機能を表わす関数（ワーピング関数）の次のようなファミリーを使用しても良い。
【００４４】
【数２】

ここでＡ，Ｂ，Ｃ，σ_B およびσ_C は定数である。ｔが増大するにつれてタイムワープ処理機能を表わすこのワーピング関数はＡに収束する。ｔ_j ではこのワーピング関数の値はＡ＋Ｂである。Ｃの値は式（１０）を正確に満足するのに使用される。連続タイムワープのコードブックは１）Ａの値を選択する（典型的には０．９５と１．０５の間）、２）σ_B とσ_C の値を選択する（典型的には２．５ｍ秒）、３）ｔ_j の境界条件を満足するようＢを使用する（ここでζ（ｔ_j ）＝Ａ＋Ｂ）、４）式（１０）の境界条件を満足するようＣを選択する、ことによって発生される。ワーピイングコードブックに関する情報は伝送されないことに注意していただきたい。その大きさは計算上の要求によってだけ決められる。
【００４５】
図４を参照すれば、原音声信号ｘ(i)はタイムワーピングプロセス１３０によって受信されて、メモリ１３１に記憶される。原音声信号ｘ(i)は必要に応じてワーピングプロセス１３２に利用できる。ワープ処理はタイムワープコードブック１３３からワーピング関数ζ(t) を受け取り、その関数を式(9)に従って原信号に適用する。タイムワープされた原音声信号ｘ^〜(i)は試行信号と呼ばれるが、次式に従って平行誤差即ち誤差量ε’を次式に従って決定するプロセスに与えられる。
【００４６】
【数１０】

式（１２）は式（８）に似ているが、式（８）とは異り、式（１２）は正規化されており、従って最小平方誤差プロセスは形の差にだけ感度を持つようになっている。
【００４７】
【外１１】

【００４８】
【外１２】

【００４９】
【外１３】

【００５０】
【外１４】

【００５１】
従来の音声符号器と同様に、ＬＴＰ遅延、スケールファクタ値λおよびＭ、ＦＳＣＢインデクスおよび線形予測係数ａ_nは回線を通して復号器に与えられて、従来のＣＥＬＰ受信機によって再構成される。しかし、本発明の図示の実施例によって実現される誤差の低下のために（符号化プロセスにおける）、ＬＴＰ遅延情報はサブフレームに１回でなく、フレームに１回送信すればよいことになる。Ｍのサブフレーム値は送信機の遅延推定器１４０によって行なわれると同様の方法で、遅延値を内挿することによって受信機で提供される。
【００５２】
ＬＴＰ遅延情報Ｍをサブフレームごとではなく、フレームごとに送信することによって、遅延に関連した帯域要求は大幅に小さくなる。
【００５３】
連続遅延輪郭を持つＬＴＰ
従来のＬＴＰでは、遅延は各サブフレームで一定で、サブフレームの境界で不連続的に変化する。この不連続的な振舞は（階段状に変化する）ステップ遅延輪郭と呼ばれる。ステップ遅延輪郭を持つ場合には、サブフレーム間の遅延の不連続な変化は過去の励振の現在に対するＬＴＰマッピングの不連続性に対応する。このような不連続性は内挿によって変更でき、円滑に変化するピッチサイクル波形を持つ信号の再生を妨げないようにする。上述した実施例では、遅延値の内挿が要求されるから、内挿を便利にするために連続的遅延輪郭を有するＬＴＰを与えることが有利であることが言える。この再構成されたＬＴＰは、不連続性のない遅延輪郭を与えるから、これは連続遅延輪郭のＬＴＰと呼ばれる。
【００５４】
適応的コードブックを提供する連続遅延輪郭の遅延値を与えるプロセスは上述した遅延推定器にとって代る。ＬＴＰの連続遅延輪郭を与えるために現在のサブフレームの可能な輪郭の最良の集合が選択される。各々の輪郭は先のサブフレームｄ（ｔ_j）の遅延輪郭の終りの値で開始する。現在の実施例においては、集合の各々の遅延輪郭はサブフレーム内で線形であるように選択される。従って現在のＮサンプルのサブフレームｊでは（サンプリング間隔Ｔの間をおいている）、ｔ_j＜ｔ＜ｔ_j+1の間にあるが、瞬時遅延ｄ(t) は次の形をとる。
【００５５】
【数１１】

ここでαは一定である。ｄ(t) を与えられると、過去の音声信号（ＬＴＰ利得でスケーリングしていない）のＬＴＰによる現在への写像は、
【００５６】
【数１２】

【００５７】
【外１５】

【００５８】
過去の信号の時間スケールしたものを得るための連続遅延輪郭と共にＬＴＰを使用するときには、遅延輪郭の勾配を１より小さくｄ(t) ＜１としておくことが望ましい。もしこの条件が乱されると、写像された波形の時間反転が生ずるかもしれない。また、連続遅延輪郭ではピッチダブリングを正確に記述できない。ピッチダブリングをモデル化するためには、遅延輪郭は不連続でなければならない。再び式（１４）の遅延輪郭を考える。各々のピッチ周期は通常エネルギーのひとつの大きな中心（ピッチパルス）に支配されるから、遅延輪郭にはピッチサイクル毎にひとつの自由度が存在することが望ましい。従って、図示の連続遅延輪郭ＬＴＰは、ほぼ１ピッチサイクルの適応的長さを持つサブフレームを与える。この適応的長さはピッチパルスの直後に置かれるサブフレーム境界を与えるのに使用される。このようにすることによって、振動的な遅延輪郭が生ずることを防止する。ＬＴＰパラメータは固定時間間隔で送信されるから、サブフレームの大きさはビット周波数に影響することはない。図示の実施例においては、ピッチパルスすなわち遅延フレーム境界を位置決めする周知の手法が適正できる。これらの手法は適応コードブックプロセス１５０の一部として応用される。
【００５９】
タイムシフトを伴うＣＥＬＰ符号化の実施例
上述したタイムワーピングの実施例に加えて、本発明のタイムシフトの実施例を用いることもできる。図示の例としては、タイムシフトの実施例は図５に示される。これは図３と類似しているが、タイムワープ処理機能１３０がタイムシフト処理機能２００に置き換えられている。
【００６０】
タイムワープ処理機能１３０と同様に、タイムシフト処理機能２００は符号化されるべき原信号と聴覚的に類似した多数の試行原信号を与える。タイムワープ処理機能１３０と同様に、タイムシフト処理機能２００はどの試行原信号が識別された過去の音声信号と最も近い形を持つかを判定する。しかしタイムワープ処理機能１３０とは異り、タイムシフト処理機能は原音声信号、望ましいことには励振信号をθ_min ＜θ＜θ_max の範囲にある時間θだけ時間的にずらし、過去の音声信号と比較したときに最小誤差を生ずるような原信号の位置を決定するように動作する（典型的には｜θ_min ｜＝｜θ_max ｜＝２．５サンプルで、アップサンプリングが行なわれるときに達成される。）。原音声信号のシフトをθだけ右に（すなわち時間的に遅らせる）移動することは前のサブフレームの長さθの最後の区間を繰返し、これによって原音声サブフレームの左のエッジにパッドすることによって実行される。原音声信号をθだけ左にシフトする動作は単にサブフレームの左縁からθに等しい長さの信号を除く（すなわち省略する）ここによって実行される。
【００６１】
サブフレームの大きさはピッチ周期の関数としておく必要はないことに注意していただきたい。しかし、サブフレームの大きさを常にピッチ周期より小さくしておくことが望ましい。こうすれば、各ピッチパルスの位置を独立に決定することができる。２．５ミリ秒の大きさのサブフレームも使用できる。ＬＴＰパラメータは固定時間間隔で送信されるから、サブフレームの大きさがビット周波数に影響することはない。サブフレームがピッチパルスの間に入ることを防止するために、シフトの変更は適切に制約しておく必要がある（２．５ミリ秒のサブフレームに対して０．２５ミリ秒程度）。この代りに周囲のサブフレームよりエネルギーが大幅に小さいサブフレームについては遅延を一定に保つことができる。
【００６２】
タイムシフト関数２００の例を図６に図示する。関数２００は上述したタイムワープ関数１３０に似ているか、パッド／省略プロセス２３２がワーピングプロセス１３２と関連するコードブック１３３の代りに設けられている。
関数２００によって実行されるシフト手続きは、
【００６３】
【数１３】

である。ここで、ｔ_jは原信号の現在のフレームｊの開始である。閉ループあてはめ手続きが式（１２）に似た誤り条件を最小化するθ_min ＜θ＜θ_maxの値を探索する。
【００６４】
【数１４】

この手続きはプロセス２３４（これは式（１７）に従ってε′を決定する）と誤り評価器１３５（これはε′_minを決定する）によって実行される。
【００６５】
サブフレームｊの最適値θはε′_minに対応するそのθであり、θ_jと表記される。サブフレーム長Ｌ_subframe については原音声のサブフレームｊ＋１の開始は次式で決定される。
【００６６】
【数１５】

再構成された信号については時刻τ_j+1は単に次式となる。
【００６７】
【数１６】

上述した図示の実施例のように、本発明のこの実施例はスケーリングと遅延情報、線形予測係数および通常のＣＥＬＰ受信機の固定統計的コードブックインデクスを与える。この場合にも、本発明による符号化誤差の低下のために、遅延情報は各サブフレームではなく、各フレームに送信される。受信機は遅延情報を内挿し、受信機の遅延推定器１４０で行なわれたように個々のサブフレームについて遅延値を決定する。
【００６８】
階段状に変化するステップ遅延輪郭の場合の内挿は次のように実行される。ｔ_A とｔ_B で原信号についての現在の内挿期間のはじめと終りを表わす。さらにインテックスｊ_A で現在の内挿期間の第１のＬＴＰサブフレームを、ｊ_B で次の内挿期間の第１のＬＴＰサブフレームを表わす。まず現在の内挿間隔ｄ_B の終りで、遅延の開ループ推定値は、例えば、過去の音声信号と現在の音声信号の相互相関プロセスによって得られる（実際、この目的のためのｔ_B に使用する値は推定値である。なぜならその最終的な値は内挿の終りで得られる。）。先の内挿期間の終りでの遅延をｄ_A で表現する。このときには、サブフレームｊの遅延は単に
【００６９】
【数１７】

で与えられる。励振に対するＬＴＰのスケーリングしていない寄与分は次式で与えられる。
【００７０】
【数１８】

ここでτ_jは再構成された信号についてのサブフレームｊのはじめである。
【００７１】
遅延ピッチの２倍化と半分化
合成による分析符号器では連続したピッチサイクルが類似していると遅延の２倍化、半分化といった現象が生じやすい。しかし、本発明に関しては、遅延の２倍化と半分化は次のようにして対処される。第１ステップとして今の内挿期間の終端におけるオープンループ遅延推定値が先の内挿間隔の最終の遅延に比較される。これが先の内挿期間の終端の値の倍数もしくは約数に近いときには、遅延の倍数化あるいは約数化が生じたと考えられる。以下には、遅延の２倍化と半分化について述べるが、これ以外の倍数化についても同様に扱うことができる。
【００７２】
遅延の２倍化について述べれば、終端値の遅延のオープンループ推定値をｄ₂(τ_B）とする。ここで添字２は２ピッチサイクルに対応する遅延を表わす。ｄ₁(τ_A）で１ピッチサイクルに対応する遅延を表わす。一般に、２倍化された遅延と標準の遅延の間には次の関係がある。
【００７３】
【数１９】

式（２２）はＬＴＰによる２回のシーケンシャル写像を示している。ピッチ周期が一定でなければ、遅延を単に２倍しても正しい写像は得られない。
次に現在の内挿期間でｄ₁(τ）がリニアである場合を考える。
【００７４】
【数２０】

式（２２）と（２３）を組合わせて
【００７５】
【数２１】

式（２４）は制限された範囲内で、ｄ₂(τ）がリニアであることを示している。しかし、一般にτ_A＜τ＜τ_A＋ｄ₁(τ) の範囲ではｄ₂(τ) はリニアではない。遅延の２倍化のためには次のような手続が使える。はじめにｄ₁(τ_A）とｄ₂(τ_B）が知られている。式（２４）でτ＝τ_Bを使ってβが求められる。
【００７６】
【数２２】

次に内挿期間内のｄ₁(τ）とｄ₂(τ) が知られる。標準の遅延ｄ₁(τ）は全内挿期間の中で式（２３）を満足する。ｄ₂(τ) については式（２２）は全内挿期間内で有効であるが、式（２４）は制限された部分だけで有効であることに注意していただきたい。
【００７７】
内挿期間に対する実際のＬＴＰ励振の寄与分が、標準の遅延から２倍化遅延に対する平滑化された変化によってこれで得られたことになる。
【００７８】
【数２３】

ここでΨ（τ）は示された内挿期間で０から１に増大された平坦な関数があり、これは現在の内挿期間を線形化するものである。この手続は内挿期間が２倍化された遅延より本質的に大きいことを仮定している。
【００７９】
遅延の半分化については同一の手続が逆方向に利用される。境界条件ｄ₂(τ_A）とｄ₁(τ_A) を仮定する。τ_A＜τ＜τ_Bについて式（２２）が使えるようになるには、ｄ₁(τ_A）はτ_A−ｄ₁(τ_A）＜τ＜τ_Aの範囲で定義されなければならない。適切な定義によって音声の品質が保たれる。２倍化遅延は先の内挿期間では線形であるから、この範囲でｄ₁(τ）の適切な定義を得るために式（２４）を使うことができる。線形の遅延輪郭の場合、ｄ₂(τ）は次式を満足する。
【００８０】
【数３】

ここで′は前の内挿期間の値を指していること（τ_B ′＝τ_A であることに注意）を示し、η′は定義である。これを式（２４）と比較すれば、前の内挿期間の最後の部分のｄ₁(τ)は
【００８１】
【数２５】

である。式（２８）はまた現在の内挿期間の境界値ｄ₁(τ_A）を与える。この値とｄ₁(τ_B）から、式（２３）のβの値を求めることができる。再び式（２２）は現在の内挿期間のｄ₂(τ）を計算するのに使用できる。ｄ₂(τ）からｄ₁(τ）への変化は再び式（２２）によって行なわれる。しかしこの場合はΨ（τ）は内挿期間内で１から０に減少する。
【図面の簡単な説明】
【図１】本発明の一実施例の図である。
【図２】従来のＣＥＬＰ符号器の図である。
【図３】本発明の一実施例の図である。
【図４】図３に示した実施例のタイムワープ処理機能を表わす図である。
【図５】時間シフトに関連する本発明の実施例の図である。
【図６】図５に示した実施例のタイムシフト処理機能を表わす図である。

Claims

原信号を符号化する方法であって、
原信号に基づいて、各々が該原信号を変形した信号であって、かつ該原信号と聴覚的に類似した音を有する複数の試行原信号を発生するステップと、
試行原信号を合成による分析符号化方式により符号化してそれを表わすひとつあるいは２つ以上のパラメータを発生するステップと、
該ひとつあるいは２つ以上のパラメータから試行原信号の推定値を合成するステップと、
該試行原信号と、該試行原信号の合成された推定値との間の誤差を決定するステップと、
誤差評価プロセスを満足した誤差を持つ試行原信号のひとつあるいは２つ以上のパラメータを該原信号の符号化表現として選択するステップと、を含むことを特徴とする原信号を符号化する方法。
請求項１に記載の方法において、該複数の試行原信号を発生するステップが、原信号にひとつあるいは２つ以上のタイムワープを適用するステップからなることを特徴とする原信号を符号化する方法。
請求項１に記載の方法において、該複数の試行原信号を発生するステップが、原信号にひとつあるいは２つ以上の時間シフトを実行するステップからなることを特徴とする原信号を符号化する方法。
請求項１に記載の方法において、該合成による分析符号化を実行するステップがコード励振線形予測符号化を実行するステップからなることを特徴とする原信号を符号化する方法。
請求項１に記載の方法において、該誤差を判定するステップが、フィルタされた試行原信号とフィルタされたその合成信号の間の差のサンプルの自乗和を判定するステップからなることを特徴とする原信号を符号化する方法。
請求項５に記載の方法において、該誤差評価プロセスが、複数の自乗和からサンプルの自乗和の最小値を判定するステップからなることを特徴とする原信号を符号化する方法。
請求項１に記載の方法において、該誤差を判定するステップが知覚的に重み付けされた試行原信号と知覚的に重み付けられたその合成された推定値の間の差サンプルの自乗和を判定するステップからなることを特徴とする原信号を符号化する方法。
請求項７に記載の方法において、該誤差評価プロセスが、サンプルの複数の自乗和の中からサンプルの最小の自乗和を判定するステップからなることを特徴とする原信号を符号化する方法。
請求項１に記載の方法において、該原信号の符号化された表現を選択するステップが、はそれに伴う誤差が最小である試行原信号を判定するステップからなることを特徴とする原信号を符号化する方法。
原信号を符号化する装置であって、
原信号に基づいて、各々が該原信号を変形した信号であって、かつ該原信号と聴覚的に類似した音を有する複数の試行原信号を発生する手段と、
該発生手段に結合され、試行原信号を合成による分析符号化方式により符号化してそれを表現するひとつあるいは２つ以上のパラメータを発生する手段と、
該符号化手段に結合され、ひとつあるいは２つ以上のパラメータから試行原信号の推定値を合成する手段と、
該符号化手段と該発生手段とに結合され、試行原信号と、試行原信号の合成された推定値との間の誤差を決定する手段と、
原信号の符号化された表現として、その誤差が誤り評価プロセスを満足した試行原信号のひとつあるいは２つ以上のパラメータを選択する手段と、を備えることを特徴とする原信号を符号化する装置。