JP2003122400A

JP2003122400A - 低ビットレートｃｅｌｐ符号化のための連続タイムワーピングに基づく信号の修正

Info

Publication number: JP2003122400A
Application number: JP2002186971A
Authority: JP
Inventors: Ajit V Rao; ブイ．ラオアジット
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2001-06-29
Filing date: 2002-06-26
Publication date: 2003-04-25
Anticipated expiration: 2022-06-26
Also published as: EP1271471B1; EP1271471A3; EP1271471A2; DE60226200D1; US20050131681A1; JP4162933B2; US7228272B2; US6879955B2; US20030004718A1; ATE393447T1; DE60226200T2

Abstract

(57)【要約】【課題】元の残差信号を理想化輪郭に一致するよう修
正するために、区分的な連続タイムワープ輪郭ではなく
連続タイムワープ輪郭を使用する信号修正技術により緻
密な音声符号化を容易化し、従来見られたエッジの影響
も回避すること。【解決手段】空間上で不連続のない、隣接フレーム内
の隣接端部の位置を反転させたり大幅に広げることのな
い連続ワープ輪郭を使用して、ワーピングを実施する。
ワープ輪郭によって実施される線形シフトが二次近似法
またはその他の方法によって導出されて符号化の複雑さ
が減少されるため、実際上経済的な実施が可能となる。
特に、ワープ輪郭を判断するためのアルゴリズムは、可
能な輪郭範囲のサブレンジ内に含まれている可能な輪郭
の１つのサブセットのみを使用する。これらの輪郭から
の相対相関強度が多項式トレース上の点としてモデル化
され、モデリング関数を最大にすることによって最適ワ
ープ輪郭が計算される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に音声符号化
技法に関し、より詳細には、コードブック励起線形予測
（ＣＥＬＰ、ｃｏｄｅｂｏｏｋｅｘｃｉｔｅｄｌｉ
ｎｅａｒｐｒｅｄｉｃｔｉｏｎ）などの低ビットレー
ト符号化技術を介して信号を符号化する際の助けとな
る、信号を修正するための技法に関する。

【０００２】

【従来の技術】今日の音声や対話の技術が高度に進んだ
環境下においては、ある地点から別の地点へ、時にはか
なり離れた距離間で、おまけにしばしば限られた帯域の
チャネルを介して、人間の声を電子的に伝送することが
必要または望ましい状況がたびたび起きる。例えば、現
在、セル式電話のリンクを介してまたはインターネット
またはその他のデジタル電子ネットワークを介しての会
話が普通のこととなっている。同様に、コンピュータの
ハードディスク上またはデジタル記録装置の揮発性また
は不揮発性メモリ内などに、人間の声をデジタル方式で
ストアすると便利なことがたびたびある。例えば、デジ
タル方式でストアした人間の声を、電話応答プロトコル
または音声によるプレゼンテーションの一部として再生
できる。

【０００３】デジタル音声の伝送および／またはストア
に使用できるチャネルおよび媒体が限られた容量しか有
さないことが多く、この状況は日に日に増加の一途を辿
っている。例えば、リアルタイムの音声または録音され
た音声とともに使用される高品質ビデオの到来によっ
て、全部をストリーミングフォーマットで受信したりス
トアするためにダウンロードすることが可能なものな
ど、リアルタイムでのデジタルネットワークを介する電
話／テレビ会議やリアルタイムではない高品質の音声／
映像プレゼンテーションに対する需要が生み出されてき
た。映像の内容により様々な伝送チャネルおよび記憶媒
体内の帯域や記憶容量が変位するため、音声および映像
の両方を効率的に、かつ適切に圧縮することが緊急課題
となっている。また別のシナリオでは、音声の極端な、
かつ効果的な圧縮の必要性も増してきている。例えば、
ますます輻輳の度合いが増しているセル式電話のリンク
では、チャネルを介してより多くのユーザを取り扱うこ
とができなければならないが、多数のユーザを取り扱う
ためのチャネルの容量が変っていない。

【０００４】動機はどうあれ、音声の圧縮が通信技術の
重要な分野になってきている。使用可能なデジタル音声
符号化技術は、圧縮を用いない非効率的な技術から圧縮
率４倍以上を達成する効率的な技術へと、その範囲が広
がってきている。一般に、既存の符号器は、波形符号器
か音声符号器のどちらかに分類できる。波形符号器は、
実際音声波自体を表そうとしており、通常高い圧縮率は
得られない。音声符号器、またはボコーダは、単に合成
された音声波をマップしようとするのではなく、人間の
音声の源および癖を対象としており、したがって計算の
複雑さが増しはするもののより高い圧縮率が得られるよ
うになる。波形符号器は、一般に、癖のある人間の声、
非言語音、高レベルの背景雑音に対して、より頑強であ
る。

【０００５】広く使用されている多くの音声符号器は、
線形予測符号化に基づいた技術を使っている。この線形
予測符号化技術は、音声信号の各部分について、特定の
信号によって励起した場合、元の音声信号部分によく似
た信号を生成するデジタルフィルタが存在することを想
定している。特に、線形予測技術を実施している符号器
は、通常まず音声信号のスペクトル包絡線またはフォル
マントを示す一組の係数を導出する。これらの係数に対
応するフィルタが確立され、入力音声信号を予測残差に
減らすため使用される。一般に、上述のフィルタは逆合
成フィルタで、残差信号を対応する合成フィルタに入力
することにより、元の音声信号に極めて近い信号を生成
する。

【０００６】通常、フィルタ係数および残差は、音声信
号を後におよび／または遠隔で再合成するために、伝送
またはストアされる。フィルタ係数は、少ないストアス
ペースや、例えば１．５ｋｂｐｓの狭い伝送処理帯域し
か必要としないが、予測残差は、複雑さの点で元の音声
信号と似た高帯域信号である。したがって、音声信号を
効果的に圧縮するためには、予測残差を圧縮する必要が
ある。この圧縮を得るために、コードブック励起線形予
測、ＣＥＬＰの技術が使用される。ＣＥＬＰは、特定の
ベクトルを選択するために使用できる、それぞれが「コ
ードブック」一組からなる、１つ以上のコードブックイ
ンデックスを利用している。各コードブックはベクトル
の集合である。選択ベクトルは、基準化され合計される
と、フィルタの応答を残差自体に最も近づける合成フィ
ルタからの応答を生成するよう選ばれる。ＣＥＬＰ復号
器はＣＥＬＰ符号器がアクセスしたのと同じコードブッ
クにアクセスし、したがって符号器コードブックおよび
復号器コードブックからの同じベクトルを確認するた
め、簡単なインデックスが使用できる。

【０００７】容量または帯域が十分に使用可能な場合
は、たとえどんなに複雑であろうとも、元の残差の最良
近似を十分に行うことのできるコードブックを有するこ
とは困難ではない。しかし、使用可能な容量または帯域
が減少してくると、当然ＣＥＬＰコードブックの能力も
減少する。

【０００８】残差信号を模倣するのに必要なビット数を
減少させるための１方法は、その周期性を増加すること
である。つまり、元の信号の重複した部分を重複しない
機能より、よりコンパクトに表わすことができるように
するということである。この原理を利用している１技術
に、ＲＣＥＬＰ（ＲｅｌａｘａｔｉｏｎＣｏｄｅｂｏ
ｏｋＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔ
ｉｖｅｃｏｄｉｎｇ）がある。この技術の一例が、
Ｗ．Ｂ．Ｋｌｅｉｊｎらによる文献「ＴｈｅＲＣＥＬ
ＰＳｐｅｅｃｈｃｏｄｉｎｇＡｌｇｏｒｉｔｈｍ
（ＲＣＥＬＰ音声符号化アルゴリズム）、Ｅｕｒ．Ｔｒ
ａｎｓ．ＯｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ、ｖｏ
ｌ．４、ｎｏ．５、ｐｐ．５７３−８２（１９９４年）
であり、これは開示されている全部を参照により本明細
書に組み入れてある。特に、この文献は、修正されたピ
ッチ周期の輪郭が合成ピッチ周期の輪郭と一致するよう
に、残差信号の全セグメントを均一に進めるまたは遅ら
せる方法について記載している。この方法の問題点は、
特定のワーピング方法のアーティファクトとして、元の
信号の特定部分が削除されたり繰り返されたりする可能
性があることである。特に、ある信号の２つの隣接する
セグメントが累積圧縮シフトする場合、オーバーラップ
部分の近くの元の信号の一部が、修正後の信号内で削除
されてしまう可能性がある。同様に、２つの隣接するセ
グメントが累積拡張シフトする場合、オーバーラップ部
分の近くの元の信号の一部が、修正信号内で繰り返され
てしまう可能性がある。これらのアーティファクトが、
最終的に再生される音声内で可聴ひずみを生成する。

【０００９】別の技術でも同様の方法が提案されてい
る。例えば、Ｗ．Ｂ．Ｋｌｅｉｊｎらによる文献「合成
による分析音声符号器におけるピッチ予測子パラメータ
の補間（Ｉｎｔｅｒｐｏｌａｔｉｏｎｏｆｔｈｅ
Ｐｉｔｃｈ−Ｐｒｅｄｉｃｔｏｒｐａｒａｍｅｔｅｒ
ｓｉｎＡｎａｌｙｓｉｓ−ｂｙ−Ｓｙｎｔｈｅｓｉ
ｓＳｐｅｅｃｈＣｏｄｅｒｓ）」、音声処理のＩＥ
ＥＥトランザクション（ＩＥＥＥＴｒａｎｓａｃｔｉ
ｏｎｓｏｆＳｐｅｅｃｈａｎｄＡｕｄｉｏＰ
ｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２、ｎｏ．１、ｐａｒｔ
Ｉ（１９９４年１月）を参照されたい。これは開示され
ている全部を参照により本明細書に組み入れてある。

【００１０】過去に提案されたピッチワーピング方法は
すべて、セグメントエッジのシフトによる品質低下な
ど、同じような欠点を有しており、この欠点により元の
信号の削除や繰り返しが起きていた。音声信号用の伝送
ビットレートを減少させるが、信号の繰り返しや削除が
起きず、またリアルタイムの通信が不可能となる程度に
まで符号化計算を複雑にしたり遅延させたりしないよう
なフレームワーピング方法を提供することが望ましい。

【００１１】

【発明が解決しようとする課題】本発明は、元の残差信
号を合成輪郭と一致するよう修正するために、従来の技
術によく見られるエッジシフトの影響を避けることがで
きる、単に区分的連続タイムワープ輪郭ではない連続タ
イムワープ輪郭を用いる。特に、本発明で用いられるワ
ープ輪郭は連続ワープ輪郭である。すなわち空間ジャン
プや不連続がなく、そして隣接フレーム内の隣接端の位
置を反転したりまたは過度に広げたりしない。

【００１２】符号化アルゴリズムの複雑さを減少して実
際上のおよび経済的な実施を可能にするために、最適線
形シフトを二次またはその他の近似を使用して導出す
る。特に、理想化ワープ輪郭を判断するため本発明で利
用するアルゴリズムでは、修正信号を合成信号に相互関
連させるために、可能性のあるすべてのワープ輪郭を計
算し利用する必要がない。一実施形態では、可能な輪郭
のサブレンジ全体からの可能な輪郭のサブセットが計算
される。次いでこれらの輪郭からの相対相関強度が、二
次曲線またはその他のパラメトリック関数曲線上の点と
してモデル化される。次いで最適ワープ輪郭が、これは
恐らく計算されたサンプル点間のどこかに位置する１点
によって表されるが、適切なパラメトリック関数を最大
にすることによって計算される。二分法や区分的多項式
モデリングなどその他の単純化技術も、本発明で使用す
ることができる。

【００１３】本発明の付加的な機能および利点について
は、以下に例として示す実施形態の詳細な説明および添
付図を参照すれば明らかとなるであろう。

【００１４】

【課題を解決するための手段】以下の説明では、それ以
外のことを特筆していない限り、１つ以上のコンピュー
タによって実施されるオペレーションの動作および記号
表示を参照しながら本発明について記載する。したがっ
て、時折コンピュータ実行と呼ぶ、この動作（ａｃｔ
ｓ）およびオペレーションには、構造化形式でデータを
表す電気信号のコンピュータの処理ユニットによる操作
が含まれることが理解できるであろう。この操作によ
り、コンピュータのメモリシステム内のいろいろな場所
でデータが変換または保持され、当業者に良く理解され
ている方式でコンピュータのオペレーションを再構成ま
たは変更する。データが保持されているデータ構造は、
そのデータのフォーマットによって定義された特定のプ
ロパティを有するメモリの物理領域である。しかし、本
発明を以下に記載していくが、以下に記載する様々な動
作およびオペレーションは、ハードウェア内でも実施可
能であり、限定的なものではないことが、当業者なら理
解できるであろう。

【００１５】音声符号器は、高ビットレートの入力デジ
タル音声信号をより低いビットレート信号に圧縮し、次
いでデジタルチャネル、例えばインターネットを介して
伝送し、またはデジタルメモリモジュール、例えばハー
ドディスクやＣＤ−Ｒ内にストアするよう動作が可能な
ソフトウェアモジュールである。伝送またはストアされ
たビットは、音声復号器によって復号化されたデジタル
音声信号に変換される。音声符号器および復号器を、２
つ合わせて音声コーデックと呼ぶことが多い。音声コー
デックは、特に入力信号が人間の声の場合に、入力音声
信号に最も近い可能な再構築を復号器で生成するよう設
計されている。音声符号化で使用される最も一般的なパ
ラダイムは、コードブック励起線形予測（ＣＥＬＰ）で
ある。ＣＥＬＰ音声符号器は、短期予測およびコードブ
ック探索の原理に基づいている。ＣＥＬＰ符号化のコン
セプトおよび関数については、読者の理解の助けとなる
よう本明細書にて論じることとする。この論議は、当業
界で知られているものとは異なる方式でＣＥＬＰ符号化
を定義しようとするものではない。

【００１６】どの音声符号器においても、人間の音声は
その性質上複雑でありまた時間につれて変化するもので
あり、それを捕らえるために使用可能なビット数が少な
いため、低ビットレートにおいて、そのタスクがますま
す困難かつ複雑になっている。本発明は、ストアまたは
伝送のために要するビット数がより少なくて済むよう
に、音声符号器によって入力デジタル音声信号を符号化
する前に、それを修正するための新規な方法を提供す
る。信号の修正の目的は、再構築される信号の知覚品質
に悪影響を及ぼさないで、入力音声信号の波形の構造を
単純化することである。信号の修正後、修正された入力
音声信号は、符号化するため音声符号器に表示される。
修正された波形構造が単純なため、音声符号器は、信号
符号化のタスクをより上手く、かつ効率的に実施するこ
とができる。上述したように、信号の修正は特に低いビ
ットレートで有利である。

【００１７】本明細書に記載する信号修正技術は、連続
タイムワーピングのモデルに基づいている。上記のＲＣ
ＥＬＰの信号修正技術とは異なり、連続タイムワーピン
グでは、単なる区分的連続輪郭ではなく連続ワーピング
輪郭を使用して、入力信号を修正する。その結果が、そ
の波形が単純な構造を有し、その品質が元の入力信号の
品質と実質的に同じである修正音声信号となる。

【００１８】本発明を十分に理解するためには、コーデ
ック技術のＣＥＬＰファミリの基本のファセットを理解
することが重要である。当業者には様々なＣＥＬＰ技術
が周知であるが、読者の便宜のため本明細書に簡単に記
載することとする。ＣＥＬＰ符号化においては、復号化
された音声信号が、時間によって変化する合成フィルタ
を通して励起信号をフィルタリングすることによって生
成される。符号器が励起信号および合成フィルタについ
ての情報を復号器に送信する。

【００１９】ＣＥＬＰとは波形を一致させる方法であ
る。すなわち、提案された合成信号の、残差などのモデ
ル化すべき信号との相関を介して、励起信号の選択を最
適化する。したがって、符号器は入力音声信号の短いセ
グメントを評価し、各セグメントについて最も近いレプ
リカの生成を試みる。特に、符号器は、まず「コードベ
クトル」と呼ぶ特定の許容信号を組み合わせることによ
って一組の励起信号を生成する。このようにして生成さ
れた一組内の各励起信号は、合成フィルタを通して通過
され、元の音声信号に最も近い、またはレプリカとして
複製されるべき別の信号を生成するフィルタリングされ
た励起信号が選択される。このような探索手順に従っ
て、符号器は、選択された励起信号を生成するため組み
合わされたコードベクトルについての情報と合成フィル
タについての情報を復号器に送信する。通常、大部分の
ビットが、合成フィルタ励起信号の形成のためのコード
ベクトルについての情報を送信するのに必要であるが、
合成フィルタパラメータ自体に必要なビット数は通常
１．５ｋｂ／ｓ未満である。したがって、ＣＥＬＰは、
例えば入力音声信号の複雑な性質を表すのに十分なコー
ドベクトルのある、４ｋｂｐｓを越える比較的高いビッ
トレートで良く機能する。低いビットレートでは、許容
コードベクトルの数が少ないため、再生される信号品質
がかなり低下する。

【００２０】音声の知覚的に重要な有声セグメントのた
めの残差信号の主要特性は、おおよそ周期的なスパイク
のシーケンスである。これらのスパイクは一般に、ピッ
チ周期で分けられて、大体均一に間隔をあけているが、
これらスパイクの位置の規則性の点で小さなジッタのあ
ることが多い。これらのジッタは、知覚的には重要では
ないものの、低ビットレートの波形符号器の限られたビ
ット数の大部分を消費する。

【００２１】既に論じたように、ＲＣＥＬＰは、スパイ
クの場所を再調整して定期的に起きるようにするため残
差信号を非連続的にワーピングすることにより、この変
化を除去するよう試みていた。修正信号内のスパイクの
場所についての情報を送信するのに必要なビット数が非
常に少なくて済むため、この方式による信号の修正は、
低ビットレートの符号器のタスクを軽減する。残差修正
の後、この修正信号は、予測フィルタの反転を通じて通
過させることにより、音声領域内に変換し直される。

【００２２】しかし、ＲＣＥＬＰによる信号修正によ
り、使用されたワーピング関数のプロパティが最適とは
言えないため、音声品質が知覚的に劣化する。特に、Ｒ
ＣＥＬＰにおいては、それぞれが単一のスパイクを含
む、元の残差信号のオーバーラップしている可能性のあ
る部分が、修正残差信号を生成するためカットされおよ
び一列に繋がってしまうこととなる。このカットされた
部分がオーバーラップする可能性があり、また実際オー
バーラップすることが多いため、残差信号の一部が修正
残差信号に２度現れたり、また他の部分は１度も現れな
くなったりする。

【００２３】本発明は、改良されたワープ輪郭最適化方
法を用いた本発明の一実施形態とともに、連続タイムワ
ーピングアルゴリズムを利用することによって、上述の
ＲＣＥＬＰ残差修正手順における望ましくないプロパテ
ィを克服している。要するに、本発明によるアルゴリズ
ムは、まずＲＣＥＬＰと同様に、単一スパイクを含む元
の残差信号の各部分を確認する。しかし、ＲＣＥＬＰと
は異なり、これらの部分はオーバーラップしておらずフ
レーム全体を覆っている。つまり、カットされた部分が
連結している場合でも、元の残差信号が得られ、残差信
号の一部が２度現れたり、一部が削除されたりしなくな
る。

【００２４】本来、ＲＣＥＬＰでのように部分を単にカ
ットしたり動かしたりするのではなく、このアルゴリズ
ムは、連続的および適応的タイムワーピングオペレーシ
ョンにおいて、各部分を線形加速したり線形減速したり
する。各部分をワープする目的は、修正残差信号内のス
パイクが定間隔で分離され、それによってスパイクの位
置を符号化するのに要するビットレートが減少し、ＲＣ
ＥＬＰと同様の目標を達成し、しかも欠点がないことを
確認することにある。後述するように、再生される音声
の品質の低下を回避するため、加速または遅延の程度が
制限されている。

【００２５】添付の特許請求の範囲は本発明の特徴を詳
細に記載しているが、本発明は、その目的および利点と
ともに、以下の詳細な説明と添付の図面から良く理解さ
れるであろう。

【００２６】

【発明の実施の形態】本発明の一般的な側面については
上述したが、好ましい実施形態の詳細について、以下に
さらに詳しく述べることとする。図１を参照すると、本
発明の一実施形態による改良された低ビットレートの符
号器を実施するためのアーキテクチャを例示してある。
このシステムは、すべてカスケードにつないだ、ディジ
タイザ１２１と、予測フィルタまたは逆合成フィルタ１
０１と、線形連続残差修正モジュール１０３と、合成フ
ィルタ１０５と、ＣＥＬＰ符号器１０７などの符号器と
を備える。

【００２７】予測フィルタ１０１は、デジタル化した音
声信号１０９をディジタイザモジュール１２１から入力
として受信する。どの音声をデジタル電気信号に変換す
るかについては様々な方法があり、当業者には周知であ
る。したがって、このような技術については本明細書で
は詳細に論じないこととする。予測フィルタ１０１はま
た、逆合成フィルタと呼ぶ場合があるが、ＬＰＣ係数お
よび入力信号に基づいて残差信号１１１を生成するよう
動作可能である。逆フィルタおよび残差などの線形予測
符号化コンセプトについては、当業者は精通されている
ことであろう。残差１１１は、残差修正モジュール１０
３に入力され、以下に詳細に論じる方式で、その信号を
修正残差１１３に変換する。修正残差１１３は、その後
合成フィルタ１０５に入力され、再生音声信号１１５を
生成する。残差修正モジュール１０３によって実施され
る残差修正技術によって、励起または修正残差１１３が
残差１１１から変化しているにもかかわらず、修正音声
信号１１５が元の信号１０９と非常に似た音を発する。
その後、ＣＥＬＰ符号器モジュール１０７が、当業者に
良く理解されている方式で、修正音声信号を符号化し、
伝送またはストアするために符号化したビット１１７の
ストリームを出力する。

【００２８】図１に示すモジュールのオペレーション
を、図２および図３、図４を参照しながら、以下に詳細
に記載する。特に、図２は、顕著なピッチピーク２０１
を有する単純化された波形２０３、２０５、２０７、２
０９、２１１を示す。図２に示すピークのシフトを、理
解しやすいように誇張してあることに留意されたい。実
際のシフト量を制限する必要があるが、このことについ
ては後に論じる。図３および図４は、音声信号を符号化
するため、本発明の一実施形態で実施するステップを示
す流れ図である。ステップ３０１では、アナログ音声信
号１１９がディジタイザ１２１によって受信される。ス
テップ３０３では、ディジタイザ１２１が、８ｋＨｚで
信号をサンプリングし、そのサンプリングしたデジタル
音声信号ｓ（ｎ）を得る。その後、ステップ３０５で
は、信号ｓ（ｎ）はディジタイザによって１６０サンプ
ル（２０ｍｓ）の長さのオーバーラップしていないフレ
ームにグループ化され、そのそれぞれがさらに８０サン
プル（１０ｍｓ）の長さの２つのオーバーラップしてい
ないサブフレームに細別される。したがって、Ｋ番目の
フレーム内の信号が、ｓ（１６０ｋ）．．．ｓ（１６０
ｋ＋１５９）によって与えられる。ステップ３０７で、
フレームされサンプリングされた信号１０９が、ディジ
タイザ１２１からＬＰＣ抽出装置１２３に送られる。

【００２９】ＬＰＣ抽出装置１２３は、当業者に周知の
方式で入力信号に対応する線形予測係数を計算するよう
動作する。特にステップ３０９では、ＬＰＣ抽出装置１
２３は、相関分析を実施しレビンソン−ダービン（Ｌｅ
ｖｉｎｓｏｎ−Ｄｕｒｂｉｎ）アルゴリズムを実行する
ことにより、各フレームのための一組の１０次程度（ｔ
ｅｎｔｈｏｒｄｅｒ）の線形予測係数を抽出する。Ｋ
番目のフレームａ_ｋ（ｊ）、ｊ＝１，．．．，１０内の
最適線形予測係数は、ステップ３１１で補間され、各サ
ブフレーム内で一組のＬＰ係数ａ_ｋｓ（ｊ）、ｊ＝
１，．．．，１０を生成する。上式で、ｓ＝０、１は、
それぞれ第１のサブフレーム、第２のサブフレームに対
応する。この補間は、ＬＰ係数をラインスペクトル周波
数（ＬＳＦ）領域内に変換し、ＬＳＦ領域へ線形補間
し、その補間したサブフレームＬＳＦ係数をＬＰ係数に
変換し直すことによって実施できる。ステップ３１３で
は、サブフレームＬＰ係数ａ_ｋｓは、予測フィルタ１０
１によって使用され、当業者に周知の方式で残差信号１
１１を生成する。Ｋ番目のフレーム内の残差１１１は、
ｒ（ｎ）、ｎ＝１６０ｋ．．．１６０ｋ＋１５９で表さ
れる。

【００３０】残差信号１１１の顕著な特性を、図２に波
形２０３で示す。特に、有声セグメントについては、大
体周期的だが不規則に配置されているピークまたはスパ
イク２０１のシーケンスによって、残差２０３が優勢と
なっている。これらのスパイクは、通常有声音声の生成
の過程中に、音域を励起する声門音の振動（ｐｕｌｓｅ
ｓ）を表す。隣接スパイク間の時間間隔は、ピッチ周期
に等しい。人間の音声は、通常約２．５ｍｓから１８．
５ｍｓの間のピッチ周期を有する。スパイク間の間隔は
普通一定ではなく、小さい不規則性またはジッタを示
す。

【００３１】ステップ３１５から３３３では、残差修正
モジュール１０３のオペレーションについて記載する。
ステップ３１５では、残差修正モジュール１０３が残差
信号１１１を受信し、現在のフレーム、つまりｋ番目の
フレームの整数ピッチ周期を判断する。このピッチ周期
は、当業界で周知の技術の中のいずれかによって判断で
きる。本実施形態において使用可能な１つの技術は、オ
ープンループ内で相関分析を用いるものである。どのよ
うな方法を使用するにしても、ピッチが倍加（ｐｉｔｃ
ｈｄｏｕｂｌｉｎｇ）するなどの望ましくないアーテ
ィファクトを避けるため、十分な注意を払う必要があ
る。

【００３２】ステップ３１７では、フレームピッチ周期
のサンプル線形補間によるサンプリングを、以下のよう
に実施する。ｃ′（ｎ）＝ｐ（ｋ）^＊（（ｎ−１６０ｋ）／１６０）
＋ｐ（ｋ−１）^＊（１−（ｎ−１６０ｋ）／１６０），
ｎ＝１６０ｋ．．．１６０ｋ＋１５９関数ｃ′（ｎ）は、フレームの開始点でのｐ（ｋ−１）
からフレームの終点でのｐ（ｋ）までの直線として表さ
れる。これは、現在のフレーム内のすべてのサンプルに
対する滑らかに変化するピッチ周期（浮動小数点）を表
す。

【００３３】ステップ３１９では、関数ｃ（ｎ）は、
ｃ′（ｎ）の各値を０．１２５に最も近い倍数に丸める
ことによって形成される。実際、ｃ（ｎ）は１／８の倍
数であり、したがって８^＊ｃ（ｎ）は８倍にオーバーサ
ンプリングされた信号領域内の整数ピッチ周期である。
本明細書では、ｃ（ｎ）を望ましいピッチ輪郭と呼ぶ。
この理想化輪郭に一致するため残差を修正することによ
って生じた効率の良さには著しいものがある。例えば、
このような輪郭を有するフレームのピッチ周期は、非常
に少ないビット数を使用して伝送でき、また復号器がピ
ッチ輪郭を導出するためピッチを使用することができ、
次いで現在のフレームのためのピッチスパイクの場所を
推定するために、前のフレームからのスパイクの場所と
ともにピッチ輪郭を使用することができる。

【００３４】つぎのプロセスは、復号器を模倣して、前
のフレームのピッチ輪郭および修正残差に基づいて現在
のフレーム残差内でスパイクの場所の再構築を試みるこ
とである。実際の復号器は、通常前のフレームの修正残
差についての情報にアクセスしないが、前のフレームを
再構築するために使用される励起信号にアクセスする。
したがって、特定のフレームの励起信号内のスパイク
が、そのフレームの修正残差内のスパイクと位置を合わ
せるので、前の励起信号には復号器を使用し、前の修正
残差には符号器を使用することが問題とはならない。

【００３５】現在のフレーム内のスパイクの位置を予測
するために、残差修正モジュール１０３が、ピッチ輪郭
を使ってステップ３２１内にある前のフレームの修正残
差を遅らせ、修正のためのターゲット信号ｒ_１（ｎ）を
生成する。例示したｒ_１（ｎ）の波形が、図２の要素２
１１に示してある。このタイムワーピング関数は、ピッ
チ輪郭ｃ（ｎ）が０．１２５の倍数であるため、切り捨
てｓｉｎｃ（ｘ）インパルス応答および９０％通過帯域
を有する標準補間フィルタを使用して、８倍オーバーサ
ンプリングした領域内で動作する。特に、８倍オーバー
サンプリングは、前のフレーム内の修正残差ｒ′（ｎ）
の補間されたサンプルを得るため用いられ、以下のよう
なオーバーサンプリングした信号に到達する。ｒ″（ｎ^＊０．１２５），ｎ＝１６０^＊８^＊（ｋ−
１）．．．１６０^＊８^＊（ｋ−１）＋１２７９ｒ″のサンプルインデックスは０．１２５の倍数であ
り、オーバーサンプリングした状態を表している。次い
で、ターゲット信号ｒ_１（ｎ）を得るため、以下のよう
に遅延線オペレーションを実行する。ｒ_ｄ（ｎ^＊０．１２５）＝ｒｄ（ｎ^＊０．１２５）ｎ＝
１６０^＊８^＊（ｋ−１）．．．１６０^＊８^＊（ｋ−１）
＋１２７９ｒ_ｄ（ｎ^＊０．１２５）＝ｒ_ｄ（ｎ^＊０．１２５−Ｃ
（ＩＮＴ（ｎ^＊０．１２５））），ｎ＝１６０^＊８
^＊ｋ．．．１６０^＊８^＊ｋ＋１２７９ｒ_１（ｎ）＝ｒ_ｄ（ｎ），ｎ＝１６０^＊ｋ．．．１６０
^＊ｋ＋１５９上式で、ＩＮＴ（ｘ）は、ｘ、浮動小数点数に最も近い
整数を表し、ｒ_ｄ（）は、中間信号を表す。

【００３６】復号器が、前のフレームの励起信号上で同
じ遅延線オペレーションを実行することに留意された
い。

【００３７】ターゲット信号２１１内に表されている理
想化ピッチスパイクの場所を計算した後、符号器は次い
で、実際の残差内のスパイクを、ｒ_１（ｎ）内のスパイ
クと一致させるため再配置できる。最初にステップ３２
３で、残差修正モジュール１０３が、未修正残差信号２
０３を分析し、低エネルギ領域によって取り囲まれてい
る１つの顕著なピークを有する信号の明確なセグメント
を確認する。図２の要素２０５に、結果として生じる波
形が例示してある。セグメントに分割された、信号の部
分間には隙間のないことが好ましい。言い換えれば、要
素２０５の部分どうしがこの段階で再び一列に繋がる場
合、その結果未修正残差２０３が生じる。好ましくは、
この残差２０３は知覚的に見て目立たない程度に低いエ
ネルギ点でのみカットされる。次いでステップ３２５
で、符号器がターゲット信号の１セクションを未修正残
差の適切な部分に関連付ける。

【００３８】ステップ３２７で、最適なワーピング関数
を用いた修正によって、残差２０３のセグメント内の顕
著なスパイクまたはピークが、ターゲット信号２１１の
関連セクション内の顕著なスパイクまたはピークに位置
合わせするよう、残差修正モジュール１０３が、未修正
残差の確認されたセクションのための最適ワーピング関
数を計算する。図５を参照すると、残差の各セクション
のための最適ワーピング関数を計算するためにとったス
テップが例として示してある。特に図５は、残差信号２
０３と修正残差２０９間のサンプル毎の遅延を表すラグ
（ｌａｇ）輪郭ｌ（ｎ）の導出を示す。量ｌ（ｎ）は、
修正残差サンプルｒ′（ｍ）がオーバーサンプリングさ
れた領域内でｌ（ｍ）によって遅延される残差信号サン
プルと等しくなるような、０．１２５の倍数である。つ
まり、ｒ′（ｍ）＝ｒ″（ｍ−ｌ（ｍ））最適ワープ輪郭を見つけ出す場合の問題は、最適ラグ輪
郭ｌ（ｎ）を見つけ出す問題に減じる。

【００３９】ステップ４０１では、現在の当該セクショ
ンの一番最初のサンプル用のラグｌ _ｆが、前のセクショ
ンの一番最後のサンプル用のラグと等しいように設定さ
れ、現在のセクションの最後のサンプルのラグｌ_ｌ用の
一組の候補が確認される。特に、最後のサンプルのラグ
ｌ_ｌ用の一組の２Ｋ＋１候補が、｛ｌ_ｆ−Ｋ，ｌ_ｆ−Ｋ
＋１，．．．ｌ_ｆ＋Ｋ｝などの候補範囲内で確認され
る。Ｋの値は、使用可能な計算能力、音声サンプルの周
期性、ｌ_ｆの値などのパラメータに基づいて選択され
る。Ｋの典型的な値は、０、１、２、３、または４であ
る。上記の方程式で示す候補範囲はｌ_ｆの周りに対称的
に入っているが、必ずしもこのようである必要はない。

【００４０】残差の少量シフトセクションが、再生され
た信号の知覚品質に悪影響を与えることはないが、シフ
ト量が大きい場合は知覚的に悪影響となる可能性があ
る。したがって、前のセクションまたは部分がシフトし
た結果、累積されたシフトを含む３つの元の（オーバー
サンプリングされていない）サンプル増分など、少量だ
けサンプルがシフトするように量を制限することが望ま
しい。したがって、２つのサンプル位置の均等物によっ
て、前の部分内の最後のサンプルが遅延した場合は、次
いで現在の部分の最後のサンプルは、１つのサンプル位
置の均等物を越えてさらに遅延してはならない。さもな
いと、全シフト量が元の場所から３つのサンプル位置を
越えることとなる。この問題点に対する解決法は、シフ
トが望ましい範囲を越えないようにＫの値を制限する
か、または候補の非対称範囲を使用するかのどちらかで
ある。したがって、上記の例においては、１つのサンプ
ルを越える遅延は禁じられているが、非対称的に分布し
ている候補ラグ値が使われている場合は、５つのサンプ
ル位置の加速が認められる。

【００４１】可能性のあるすべてのラグ候補を評価する
のに必要な計算能力が押さえられているため、候補の組
内には可能性のあるすべてのラグ候補よりも少数のラグ
候補しかないことに留意されたい。逆に、現在のセクシ
ョン内の最後のサンプル用に可能なラグ値のサブセット
のみが候補として使用される。候補範囲外のラグ値はこ
の組内に含まれておらず、また候補ラグ値間にある値も
同様である。したがって、最後のサンプル用の最適ラグ
値（および結果として生じるラグ輪郭）が、候補の組自
体内に含まれてもいない可能性があるが、候補範囲内に
入っていることが好ましい。

【００４２】次いで、ステップ４０３では、一組の２Ｋ
＋１候補ラグ輪郭を生成するため、符号器が、ステップ
４０１で確認した各候補ラグ値用の現在のセクションの
最初と最後のサンプル間の線形補間を実施する。候補ラ
グ輪郭は、最初と最後の値がそれぞれ１_ｆ、ｌ_ｌである
線形関数を表している。ここで、ｌ_ｌとは候補値であ
る。ステップ４０５では、一組の２Ｋ＋１候補修正残差
を得るために、各候補ラグ輪郭が残差信号に適用され、
ターゲット信号ｒ_１（ｎ）２１１と各候補修正残差の間
の相関が、ステップ４０７で計算される。

【００４３】ステップ４０９では、相関強度が最後のサ
ンプルラグ値に応じて二次方程式でモデル化され、最後
のサンプル用の最適ラグ値が得られる。特に、各候補修
正残差用の相関強度が、図６のグラフ内のプロット点で
示すように、関連する最後のサンプルラグ値候補に応じ
てプロットされる。次いで、そのプロット点が組に分割
され、それぞれの組は３点から構成される。隣接する組
間に１点のオーバーラップがある。したがって、２Ｋ＋
１プロット点はこのようにＫに分割され、それぞれ３点
の組とオーバーラップする。例えば、７点については３
組となる。３つの連続するプロット点の各組は、二次関
数に従ってモデル化される。例えば図６では、３つの二
次モデリング関数が５０１、５０３、５０５として例示
してある。関連する３点の最初から最後までの範囲内の
各二次関数の最大が得られ、次いでセクション全体の最
大が計算される。したがって、正の二次関数、すなわち
上向きにくぼんだところ、および点の単調構成について
は、最大相関値が終点の１つに位置する。一般に、所与
の３点の組の最大が必ずしもこの３点のいずれかに位置
するとは限らないが、この間のどこかに位置することが
多いことに留意されたい。したがって、セクション全体
のための最適ラグ値は、ラグｌ_ｌ用の候補の組内に入っ
ていない値である可能性がある。

【００４４】図６のプロットは、本発明の一実施形態に
よるステップをグラフで示すため使用しているが、本明
細書で使用する用語、「プロット」または「プロッティ
ング」では、具体的または目に見えるグラフを作成する
必要はない。逆に、これらの用語は、単に量と量との間
の関連の創出を暗黙に定義するにすぎない。黙示的なも
のとしては、使用されている軸が、図６に示す量に対す
るそれぞれ異なるパラメータであり、明示的なおよび実
際のものとしては、グラフィカルプログラムデータ構造
の中にあり、また仮想的なものとしては、適切な関係が
導出できるメモリ内の一組の数の中にある。したがっ
て、たとえこのような関係が明確であろうとも、これら
の用語は、単に表示した量と量との間の関係の創出を表
わすにすぎない。

【００４５】現在の相関プロット用のすべての二次方程
式の最大は、適切な二次方程式を用いた最後のサンプル
用のラグ値に関連付けられており、この値が最適な最後
のサンプルラグ値である。点の組をモデル化するために
二次関数を使用したり、３点を使用したりする必要はな
い。例えば、これらの組は３点を超える量を含むことが
でき、モデリング関数は、受容可能な複雑さのレベルに
応じて、どの程度の多項式にもなる可能性がある。点の
単調シーケンスについては、一番高い終点が簡単に判断
でき、シーケンスの最大を表すため、そのシーケンスを
多項式などでモデル化する必要はないことにも留意され
たい。

【００４６】現在の顕著なピーク含有セクションまたは
セグメントの最後のサンプル用の最適ラグ値を判断した
後、残差修正モジュール１０３が、ステップ４１１で、
ｌ_ｆからステップ４０９で計算した最適ｌ_ｌまでのセク
ション全体を線形に補間することによって、対応するラ
グ輪郭を導出する。図４のステップ３２９では、図５の
ステップ４１１で計算されたラグ輪郭が、上記のように
残差に適用される。すなわち、ｒ′（ｎ）＝ｒ″（ｎ−
ｌ（ｎ））。

【００４７】最後に、ステップ３３１では、現在のフレ
ーム内に分析しシフトすべき部分がこれ以上ないかどう
か判断する。もしあれば、オペレーションのフローがス
テップ３２５に戻る。そうでない場合は、現在のフレー
ムのためのプロセスは、ステップ３３３で終了する。図
２の要素２０７には、修正残差２０９のワープされたセ
クションが、理解しやすいように別に示してある。波形
２０９として示した修正残差１１３は、最後に合成フィ
ルタ１０５への入力として設けられ、元の音声信号の再
生を行う。この再生はジッタのあるピッチピークよりむ
しろ規則的なピッチピークを有する。この観点から、信
号は、通常のＣＥＬＰなどの技術を使用して処理され
る。しかし、ピッチ構造の周期性が増すため、未修正信
号を符号化するのに必要なビットレートと比べて、信号
を符号化するのに必要なビットレートが大幅に減少す
る。

【００４８】フレームを処理した後、後続するフレーム
に対して処理が開始される。無声のセグメントの場合
は、通常ピッチピークがなく、したがって本明細書に記
載した方法を適用する必要はない。無声の間隔の間は、
アルゴリズム内のすべての量がリセットされる。例え
ば、累積シフトの表示がゼロにリセットされる。有声の
通話が開始されたら、最初の有声フレームｋは、前のフ
レームのピッチ値、ｐ（ｋ−１）がこのフレーム内で知
られていないため、特別なケースとして扱われる。この
特別フレームｋのピッチ輪郭は、フレームのピッチ値、
ｐ（ｋ）に等しい一定の関数に設定される。この手順の
これ以降の部分は、規則的なフレームのものと同様であ
る。

【００４９】現在のフレーム内の音声信号の所与のセク
ションまたは部分用の最適ラグ値ｌ _ｆおよび関連ラグ輪
郭を計算するために、多項式モデリング以外の方法も本
発明に使用できることに留意されたい。可能なラグ値の
実質的なサブセット、例えば可能性のあるすべてのラグ
値の半分が相関値を生成するために使用されることが本
発明には重要なことである。なぜなら、このことによっ
て、最適ラグ輪郭を見つけ出すのに要する計算コストが
大幅に減少するからである。したがって、すべての、ま
たは大部分の可能なラグ値を試みることなく、最適ラグ
値を見つけ出すのに、二分法などの代替技術を使用する
ことができる。二分法技術では、２つのラグ候補値およ
びそれらの関連相関強度を確認する必要がある。より高
い相関を有するラグ候補および２つのラグ値間にある新
しいラグ候補が、二分法プロセスを繰り返すための終点
として使用される。このプロセスは、所定の回数を繰り
返した後、または所定の閾値を越える相関強度を有する
ラグ値が見つかった時に、終了することができる。

【００５０】本明細書に記載した方法によって生じる連
続線形ワープ輪郭が、図７に示してある。特に、連続線
形ワープ輪郭６０１は黒い実線で示してあり、また従来
の技術ＲＣＥＬＰ技術で使用される不連続輪郭６０３は
破線で示してある。両輪郭とも、元の時間（ワープ前）
対修正時間（ワープ後）に応じてプロットされた信号サ
ンプルのための点の組に沿って引いた線で表す。したが
って、輪郭６０１内の各直線セグメントおよび輪郭６０
３の各個々の部分は、それぞれの技術に従ってワープさ
れた元の残差のセクションを表す。ＲＣＥＬＰ技術で
は、よくセクションが削除されたりオーバーラップする
ことが分かる。一方、本発明の連続線形ワープ輪郭で
は、オーバーラップや削除は起こらない。逆に、連続線
形ワープ輪郭６０１は、傾斜の点で不連続を含むが、位
置の点では単なる区分的な連続ではない連続である。特
に、領域６０５は、ワープ輪郭６０３の２つの部分によ
って占有されているが、セクション６０７は同じ輪郭に
ついてのデータを有さない。一方、信号スペース全体
は、本発明による輪郭６０１によってオーバーラップや
削除もなく占有されている。

【００５１】隣接セグメント用のワープ輪郭６０１は、
各セグメントに必要な加速または減速に応じて、同じ傾
斜または異なる傾斜を有する可能性があることに留意さ
れたい。これと対称的に、ＲＣＥＬＰ輪郭６０３の各セ
クションの傾斜は、一定である。これは、ＲＣＥＬＰは
信号のセクションをシフトするが、各セクション内の時
間変換係数（ｔｉｍｅｓｃａｌｅ）を変化させないこ
とによる。したがって、本発明による方法は、セクショ
ンエッジで望ましくない時間変換係数の不連続を生成す
ることなく、各セクションのピークが望ましい場所にシ
フトするように、線形連続方式で各セクション内で時間
変換係数をワープすることが分かる。

【００５２】必ずしも必要ではないが、コンピュータで
実行するプログラム「モジュール」などの命令を使用し
て、本発明を実施することができる。一般に、プログラ
ムモジュールは、特定のタスクを実行しまたは特定の抽
象データタイプを実施するルーチン、オブジェクト、構
成要素、データ構造などを含む。プログラムは、１つ以
上のプログラムモジュールを含むことができる。

【００５３】本発明は、セル式電話、パーソナルコンピ
ュータ（ＰＣ）、ハンドヘルド装置、マルチプロセッサ
システム、マイクロプロセッサベースのプログラム可能
な民生用電子機器、ネットワークＰＣ、ミニコンピュー
タ、メインフレームコンピュータなどを含む様々なタイ
プの機械、または本明細書に記載したように音声信号を
符号化または復号化し、信号をストア、検索、送信、受
信するために使用できるその他の機械で実施できる。本
発明は、タスクが、通信ネットワークを通してリンクさ
れている遠隔構成要素によって実行される、分散型コン
ピューティングシステム内で用いることができる。

【００５４】図８に、本発明の一実施形態を実施するた
めのシステムを例として示すが、これには、コンピュー
タ装置７００などのコンピュータ装置が含まれる。最も
基本的な構成では、コンピュータ装置７００は、通常少
なくとも１つの処理ユニット７０２およびメモリ７０４
を備える。コンピュータ装置の正確な構成およびタイプ
によって、メモリ７０４は、（ＲＡＭなどの）揮発性、
（ＲＯＭ、フラッシュメモリなどの）不揮発性、または
これら２つの組み合わせとなる。この最も基本的な構成
は、図８の線７０６内に示す。さらに、コンピュータ装
置７００には、追加の特徴／機能も有することができ
る。例えば、コンピュータ装置７００に、磁気または光
のディスクやテープを含む追加記憶装置（取外し可能お
よび／または取外し不可能）も備えることができるが、
必ずしもこれに限定されるものではない。このような追
加記憶装置は、図８に取外し可能記憶装置７０８および
取外し不可能記憶装置７１０で示してある。コンピュー
タの記憶媒体は、コンピュータ読み取り可能命令、デー
タ構造、プログラムモジュール、その他のデータなどの
情報をストアするための方法または技術で実施される、
揮発性および不揮発性、取外し可能および取外し不可能
な媒体を含む。メモリ７０４、取外し可能記憶装置７０
８および取外し不可能記憶装置７１０は、すべてコンピ
ュータの記憶媒体の例である。コンピュータの記憶媒体
は、所望の情報をストアするのに使用しコンピュータ装
置７００からアクセス可能な、ＲＡＭ、ＲＯＭ、ＥＥＰ
ＲＯＭ、フラッシュメモリまたはその他のメモリ技術、
ＣＤＲＯＭ、デジタル多目的ディスク（ＤＶＤ）または
その他の光学記憶装置、磁気カセット、磁気テープ、磁
気ディスク記憶装置またはその他の磁気記憶装置、また
はその他の媒体を含むが、これらに限定されるものでは
ない。このようなコンピュータの記憶媒体のどれもが、
コンピュータ装置７００の一部となり得る。

【００５５】コンピュータ装置７００はまた、他のコン
ピュータ装置と通信するための１つ以上の通信接続７１
２も備える。通信接続７１２は、通信媒体の例である。
通信媒体は、通常搬送波やその他の転送メカニズムなど
の被変調データ信号内のコンピュータ可読命令、データ
構造、プログラムモジュール、またはその他のデータを
実行し、情報配信媒体を含む。用語「被変調データ信
号」とは、信号内で情報を符号化する方式で設定または
変更した１つ以上の特性を有する信号である。通信媒体
は、ワイヤードネットワークや直接ワイヤード接続など
のワイヤード媒体、および音響、ＲＦ、赤外線などのワ
イヤレス媒体を含むが、これらは例として示したものに
すぎず、限定的なものではない。上述したように、本明
細書に使用する用語、コンピュータ可読媒体は、記憶媒
体および通信媒体の両方を含む。

【００５６】コンピュータ装置７００は、キーボード、
マウス、ペン、音声入力装置、タッチ入力装置などの、
１つ以上の入力装置７１４も含む。ディスプレイ、スピ
ーカ、プリンタなどの、１つ以上の出力装置７１６も含
まれる。これらすべての装置は当業界には周知のもので
あり、本明細書で詳細に論じる必要はない。

【００５７】本発明の原理を適用することのできる多く
の実施形態について、図面に示した本明細書に記載する
実施形態は、例示の目的で記載してあるのにすぎず、本
発明の範囲を限定するものと解釈されるべきではない。
例えば、ソフトウェア内に例として示した実施形態の要
素はハードウェア内でも実施でき、またその逆も同様で
あり、あるいは例示した実施形態は、本発明の趣旨から
逸脱することなく、配置上のおよび細部の修正が可能で
あることを、当業者なら理解されるであろう。したがっ
て、本明細書に記載した本発明は、以下の請求項および
その均等物の範囲内に含めることのできる、すべてのこ
のような実施形態を予想するものである。

【図面の簡単な説明】

【図１】本発明の一実施形態を実施できる符号器の一例
を示す構造図である。

【図２】本発明の一実施形態における信号のセグメンテ
ーション、タイムワーピング、再構築を示す波形略図で
ある。

【図３】本発明の一実施形態における信号の修正を行う
ためのステップを示す流れ図である。

【図４】本発明の一実施形態における信号の修正を行う
ためのステップを示す流れ図である。

【図５】本発明の一実施形態における最適ラグ輪郭を計
算するためのステップを示す流れ図である。

【図６】最適な最後のサンプルラグを確認するため本発
明の一実施形態において使用する最後のサンプルラグ値
に応じて、相関強度のプロッティングを示す概略特性図
である。

【図７】従来の技術に従って、および本発明の一実施形
態に従って、ワープ輪郭を示す特性図である。

【図８】本発明の一実施形態を実施できるコンピュータ
装置の概略図である。

【符号の説明】

１０１予測フィルタまたは逆合成フィルタ１０３残差修正モジュール１０５合成フィルタ１０７ＣＥＬＰ符号器１０９音声信号１１１残差信号１１３修正残差１１５修正音声信号１１７符号化したビット１１９アナログ音声信号１２１ディジタイザ１２３ＬＰＣ抽出装置２０１ピーク２０３、２０５、２０７、２０９、２１１波形５０１、５０３、５０５モデリング関数６０１連続輪郭６０３不連続輪郭６０５領域６０７セクション７００コンピュータ装置７０２処理ユニット７０４メモリ７０８取外し可能記憶装置７１０取外し不能記憶装置７１２通信接続７１４入力装置７１６出力装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者アジットブイ．ラオアメリカ合衆国 98052 ワシントン州レッドモンドノースイースト 34 コート 166624 ナンバーエスエス−302 Ｆターム(参考） 5D045 CA01 CC10 DA11 DA20 5J064 AA02 BA13 BB04 BC01 BC11 BC18 BC27 BD03

Claims

【特許請求の範囲】

【請求項１】デジタル音声信号のフレームを圧縮する
ための準備処理をする方法であって、不規則な間隔に配置された顕著なピークを有する、前記
フレームのための線形予測残差を生成するステップと、前記残差を一列の連続するオーバーラップしないセクシ
ョンに分割し、各セクションが１つ以下の顕著なピーク
を含むステップと、一列の連続するセクション内にある一列の規則的な間隔
に配置された顕著なピークを有する理想化信号を導出す
るステップと、前記残差の各セクションを前記理想化信号の対応するセ
クションに関連付けるステップと、各残差セクション用の最後になる可能性のあるサンプル
ラグ値のサブレンジ内で、各残差セクション用の最後に
なる可能性のあるサンプルラグ値のサブセットに基づい
て各残差セクション用の線形連続ワープ輪郭を計算する
ステップと、前記計算されたワープ輪郭を前記残差の前記セクション
に適用して、各残差セクション内のいかなる顕著なピー
クも前記理想化信号の前記対応するセクション内の前記
顕著なピークに揃うように前記残差を修正し、それによ
って前記修正残差の顕著なピッチピークが規則的な間隔
に配置され、前記修正残差内で前記残差のいかなるセク
ションの部分も削除されたり繰り返されたりしないステ
ップとを含むことを特徴とする方法。
【請求項２】前記フレーム用の線形予測残差を生成す
るステップはさらに、前記フレーム用の線形予測係数を抽出するステップと、前記フレーム用の前記線形予測係数を補間して、前記フ
レームの複数のサブフレーム用の線形予測係数を生成す
るステップと、各サブフレーム用の予測残差を生成し、それによって前
記フレーム用の前記予測残差が一組のサブフレーム予測
残差を有するステップとを含むことを特徴とする請求項
１に記載の方法。
【請求項３】前記残差を一列の連続するオーバーラッ
プしないセクションに分割するステップはさらに、前記
フレームを分析して整数ピッチ周期を確認するステップ
を含むことを特徴とする請求項１に記載の方法。
【請求項４】前記フレームを分析して整数ピッチ周期
を確認するステップはさらに、オープンループ内で相関
分析を使用するステップを含むことを特徴とする請求項
３に記載の方法。
【請求項５】各残差セクション用の線形連続ワープ輪
郭を計算するステップはさらに、前記残差セクションの最初のサンプル用に最初のサンプ
ルラグを確立するステップと、前記残差セクションの最後のサンプル用に最後のサンプ
ルラグ用の一組の候補を確認するステップであって、前
記一組の候補が、最後になる可能性のあるすべてのサン
プルラグ値のサブレンジ内で、最後になる可能性のある
すべてのサンプルラグ値のサブセットからなるステップ
と、各候補の最後のサンプルラグ用の前記残差セクションの
最初と最後のサンプルの間の線形補間を実行し、一組の
候補ラグ輪郭を生成するステップと、各候補ラグ輪郭を前記残差セクションに適用して、一組
の候補修正残差を得るステップと、各候補修正残差と前記理想化信号の前記対応するセクシ
ョンの間の相関強度を計算して、一組の相関強度を生成
するステップと、前記一組の相関強度に基づいて前記残差セクション用の
最適な最後のサンプルラグを導出するステップと、最初のサンプルラグから前記残差セクション用に導出さ
れた最適な最後のサンプルラグまでのセクション全体を
線形補間することによって、線形連続ワープ輪郭を導出
するステップとを含むことを特徴とする請求項１に記載
の方法。
【請求項６】前記一組の相関強度に基づいて前記残差
セクション用の最適な最後のサンプルラグを導出するス
テップはさらに、前記強度を導出するために使用される前記最後のサンプ
ルラグに応じて、前記一組の相関強度をオーバーラップ
するサブセクションに分離するステップと、各サブセクションを曲線として表すステップと、各曲線の最大値であって、前記サブセクション内で前記
強度を導出するために使用される前記最後のサンプルラ
グを含む可能なラグ値の範囲内で可能性のあるすべての
ラグ値からなるグループから選択可能である前記最大値
を計算するステップと、前記サブセクションの前記曲線用の前記最大値に基づい
て前記セクション用の前記最大相関強度を計算するステ
ップとを含むことを特徴とする請求項５に記載の方法。
【請求項７】前記曲線は多項式であることを特徴とす
る請求項６に記載の方法。
【請求項８】前記多項式は二次関数であることを特徴
とする請求項７に記載の方法。
【請求項９】計算されたワープ輪郭の適用時に前記セ
クション内のいかなるサンプル用の最大累積シフトも４
つのサンプル位置未満であるように、各残差セクション
用の最後になる可能性のあるサンプルラグ値のサブレン
ジが選択されることを特徴とする請求項１に記載の方
法。
【請求項１０】音声信号を符号化する前に前記音声信
号を修正するための装置であって、デジタル音声信号を受信するため、および一組の線形予
測係数を生成するための線形予測係数抽出モジュール
と、前記デジタル音声信号と前記線形予測係数とを受信する
ため、および残差信号を生成するための逆合成フィルタ
と、可能性のあるすべてのワープ輪郭の１サブセットのみを
計算することによって前記一組の可能性のあるすべての
ワープ輪郭から選択された連続線形ワープ輪郭に基づい
て前記残差信号をタイムワープし、このことによって顕
著なピークの不規則ではない規則的な配列を有する修正
残差信号が生成される残差修正モジュールと、前記修正残差信号および前記線形予測係数を受信するた
め、および低ビットレート符号化に合う修正デジタル音
声信号を生成するための合成フィルタとを備えることを
特徴とする装置。
【請求項１１】前記修正デジタル音声信号を受信する
ため、および圧縮音声信号を生成するためのコードブッ
ク励起線形予測符号器モジュールをさらに備えることを
特徴とする請求項１０に記載の装置。
【請求項１２】デジタル音声信号のフレームを圧縮す
るために準備処理をする方法を実行するためのコンピュ
ータ可読命令を有するコンピュータ可読媒体であって、不規則な間隔に配置された顕著なピークを有する、前記
フレームのための線形予測残差を生成するステップと、前記残差を一列の連続するオーバーラップしないセクシ
ョンに分割し、各セクションが１つ以下の顕著なピーク
を含むステップと、一列の連続するセクション内にある一列の規則的な間隔
に配置された顕著なピークを有する理想化信号を導出す
るステップと、前記残差の各セクションを前記理想化信号の対応するセ
クションに関連付けるステップと、各残差セクション用の最後になる可能性のあるサンプル
ラグ値のサブレンジ内で、各残差セクション用の最後に
なる可能性のあるサンプルラグ値のサブセットに基づい
て各残差セクション用の線形連続ワープ輪郭を計算する
ステップと、前記計算されたワープ輪郭を前記残差の前記セクション
に適用して、各残差セクション内のいかなる顕著なピー
クも前記理想化信号の前記対応するセクション内の前記
顕著なピークに揃うように前記残差を修正し、それによ
って前記修正残差の顕著なピッチピークが規則的な間隔
に配置され、前記修正残差内で前記残差のどのセクショ
ンの部分も削除されたり繰り返されたりしないステップ
とを含むことを特徴とするコンピュータ可読媒体。
【請求項１３】前記フレーム用の線形予測残差を生成
するステップはさらに、前記フレーム用の線形予測係数を抽出するステップと、前記フレーム用の前記線形予測係数を補間して、前記フ
レームの複数のサブフレーム用の線形予測係数を生成す
るステップと、各サブフレーム用の予測残差を生成し、それによって前
記フレーム用の前記予測残差が一組のサブフレーム予測
残差を有するステップとを含むことを特徴とする請求項
１２に記載のコンピュータ可読媒体。
【請求項１４】前記残差を一列の連続するオーバーラ
ップしないセクションに分割するステップはさらに、前
記フレームを分析して整数ピッチ周期を確認するステッ
プを含むことを特徴とする請求項１２に記載のコンピュ
ータ可読媒体。
【請求項１５】前記フレームを分析して整数ピッチ周
期を確認するステップはさらに、オープンループ内で相
関分析を使用するステップを含むことを特徴とする請求
項１４に記載のコンピュータ可読媒体。
【請求項１６】各残差セクション用の線形連続ワープ
輪郭を計算するステップはさらに、前記残差セクションの最初のサンプル用に最初のサンプ
ルラグを確立するステップと、前記残差セクションの最後のサンプル用に最後のサンプ
ルラグ用の一組の候補を確認するステップであって、前
記一組の候補が、最後になる可能性のあるすべてのサン
プルラグ値のサブレンジ内で、最後になる可能性のある
すべてのサンプルラグ値のサブセットからなるステップ
と、各候補の最後のサンプルラグ用の前記残差セクションの
最初と最後のサンプルの間の線形補間を実行し、一組の
候補ラグ輪郭を生成するステップと、各候補ラグ輪郭を前記残差セクションに適用して、一組
の候補修正残差を得るステップと、各候補修正残差と前記理想化信号の前記対応するセクシ
ョンの間の相関強度を計算して、一組の相関強度を生成
するステップと、前記一組の相関強度に基づいて前記残差セクション用の
最適な最後のサンプルラグを導出するステップと、最初のサンプルラグから前記残差セクション用に導出さ
れた最適な最後のサンプルラグまでのセクション全体を
線形補間することによって、線形連続ワープ輪郭を導出
するステップとを含むことを特徴とする請求項１２に記
載のコンピュータ可読媒体。
【請求項１７】前記一組の相関強度に基づいて前記残
差セクション用の最適な最後のサンプルラグを導出する
ステップはさらに、前記強度を導出するために使用される前記最後のサンプ
ルラグに応じて、前記一組の相関強度をオーバーラップ
するサブセクションに分離するステップと、各サブセクションを曲線として表すステップと、各曲線の最大値であって、前記サブセクション内で前記
強度を導出するために使用される前記最後のサンプルラ
グを含む可能なラグ値の範囲内で可能性のあるすべての
ラグ値からなるグループから選択可能である前記最大値
を計算するステップと、前記サブセクションの前記曲線用の前記最大値に基づい
て前記セクション用の前記最大相関強度を計算するステ
ップとを含むことを特徴とする請求項１６に記載のコン
ピュータ可読媒体。
【請求項１８】前記曲線は多項式であることを特徴と
する請求項１７に記載のコンピュータ可読媒体。
【請求項１９】前記多項式は二次関数であることを特
徴とする請求項１８に記載のコンピュータ可読媒体。
【請求項２０】計算されたワープ輪郭の適用時に前記
セクション内のいかなるサンプル用の最大累積シフトも
４つのサンプル位置未満であるように、各残差セクショ
ン用の最後になる可能性のあるサンプルラグ値のサブレ
ンジが選択されることを特徴とする請求項１２に記載の
コンピュータ可読媒体。
【請求項２１】磁気的に可読なディスク媒体を備える
ことを特徴とする請求項１２に記載のコンピュータ可読
媒体。
【請求項２２】光学的に可読なディスク媒体を備える
ことを特徴とする請求項１２に記載のコンピュータ可読
媒体。
【請求項２３】被変調データ信号を有することを特徴
とする請求項１２に記載のコンピュータ可読媒体。
【請求項２４】揮発性のコンピュータ読取り記憶装置
を備えることを特徴とする請求項１２に記載のコンピュ
ータ可読媒体。