JP4162933B2

JP4162933B2 - 低ビットレートｃｅｌｐ符号化のための連続タイムワーピングに基づく信号の修正

Info

Publication number: JP4162933B2
Application number: JP2002186971A
Authority: JP
Inventors: ブイ．ラオアジット
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2001-06-29
Filing date: 2002-06-26
Publication date: 2008-10-08
Anticipated expiration: 2022-06-26
Also published as: US7228272B2; DE60226200T2; US6879955B2; ATE393447T1; EP1271471B1; EP1271471A3; JP2003122400A; US20030004718A1; US20050131681A1; DE60226200D1; EP1271471A2

Description

【０００１】
【発明の属する技術分野】
本発明は、一般に音声符号化技法に関し、より詳細には、コードブック励起線形予測（ＣＥＬＰ、ｃｏｄｅｂｏｏｋｅｘｃｉｔｅｄｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎ）などの低ビットレート符号化技術を介して信号を符号化する際の助けとなる、信号を修正するための技法に関する。
【０００２】
【従来の技術】
今日の音声や対話の技術が高度に進んだ環境下においては、ある地点から別の地点へ、時にはかなり離れた距離間で、おまけにしばしば限られた帯域のチャネルを介して、人間の声を電子的に伝送することが必要または望ましい状況がたびたび起きる。例えば、現在、セル式電話のリンクを介してまたはインターネットまたはその他のデジタル電子ネットワークを介しての会話が普通のこととなっている。同様に、コンピュータのハードディスク上またはデジタル記録装置の揮発性または不揮発性メモリ内などに、人間の声をデジタル方式でストアすると便利なことがたびたびある。例えば、デジタル方式でストアした人間の声を、電話応答プロトコルまたは音声によるプレゼンテーションの一部として再生できる。
【０００３】
デジタル音声の伝送および／またはストアに使用できるチャネルおよび媒体が限られた容量しか有さないことが多く、この状況は日に日に増加の一途を辿っている。例えば、リアルタイムの音声または録音された音声とともに使用される高品質ビデオの到来によって、全部をストリーミングフォーマットで受信したりストアするためにダウンロードすることが可能なものなど、リアルタイムでのデジタルネットワークを介する電話／テレビ会議やリアルタイムではない高品質の音声／映像プレゼンテーションに対する需要が生み出されてきた。映像の内容により様々な伝送チャネルおよび記憶媒体内の帯域や記憶容量が変位するため、音声および映像の両方を効率的に、かつ適切に圧縮することが緊急課題となっている。また別のシナリオでは、音声の極端な、かつ効果的な圧縮の必要性も増してきている。例えば、ますます輻輳の度合いが増しているセル式電話のリンクでは、チャネルを介してより多くのユーザを取り扱うことができなければならないが、多数のユーザを取り扱うためのチャネルの容量が変っていない。
【０００４】
動機はどうあれ、音声の圧縮が通信技術の重要な分野になってきている。使用可能なデジタル音声符号化技術は、圧縮を用いない非効率的な技術から圧縮率４倍以上を達成する効率的な技術へと、その範囲が広がってきている。一般に、既存の符号器は、波形符号器か音声符号器のどちらかに分類できる。波形符号器は、実際音声波自体を表そうとしており、通常高い圧縮率は得られない。音声符号器、またはボコーダは、単に合成された音声波をマップしようとするのではなく、人間の音声の源および癖を対象としており、したがって計算の複雑さが増しはするもののより高い圧縮率が得られるようになる。波形符号器は、一般に、癖のある人間の声、非言語音、高レベルの背景雑音に対して、より頑強である。
【０００５】
広く使用されている多くの音声符号器は、線形予測符号化に基づいた技術を使っている。この線形予測符号化技術は、音声信号の各部分について、特定の信号によって励起した場合、元の音声信号部分によく似た信号を生成するデジタルフィルタが存在することを想定している。特に、線形予測技術を実施している符号器は、通常まず音声信号のスペクトル包絡線またはフォルマントを示す一組の係数を導出する。これらの係数に対応するフィルタが確立され、入力音声信号を予測残差に減らすため使用される。一般に、上述のフィルタは逆合成フィルタで、残差信号を対応する合成フィルタに入力することにより、元の音声信号に極めて近い信号を生成する。
【０００６】
通常、フィルタ係数および残差は、音声信号を後におよび／または遠隔で再合成するために、伝送またはストアされる。フィルタ係数は、少ないストアスペースや、例えば１．５ｋｂｐｓの狭い伝送処理帯域しか必要としないが、予測残差は、複雑さの点で元の音声信号と似た高帯域信号である。したがって、音声信号を効果的に圧縮するためには、予測残差を圧縮する必要がある。この圧縮を得るために、コードブック励起線形予測、ＣＥＬＰの技術が使用される。ＣＥＬＰは、特定のベクトルを選択するために使用できる、それぞれが「コードブック」一組からなる、１つ以上のコードブックインデックスを利用している。各コードブックはベクトルの集合である。選択ベクトルは、基準化され合計されると、フィルタの応答を残差自体に最も近づける合成フィルタからの応答を生成するよう選ばれる。ＣＥＬＰ復号器はＣＥＬＰ符号器がアクセスしたのと同じコードブックにアクセスし、したがって符号器コードブックおよび復号器コードブックからの同じベクトルを確認するため、簡単なインデックスが使用できる。
【０００７】
容量または帯域が十分に使用可能な場合は、たとえどんなに複雑であろうとも、元の残差の最良近似を十分に行うことのできるコードブックを有することは困難ではない。しかし、使用可能な容量または帯域が減少してくると、当然ＣＥＬＰコードブックの能力も減少する。
【０００８】
残差信号を模倣するのに必要なビット数を減少させるための１方法は、その周期性を増加することである。つまり、元の信号の重複した部分を重複しない機能より、よりコンパクトに表わすことができるようにするということである。この原理を利用している１技術に、ＲＣＥＬＰ（ＲｅｌａｘａｔｉｏｎＣｏｄｅｂｏｏｋＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）がある。この技術の一例が、Ｗ．Ｂ．Ｋｌｅｉｊｎらによる文献「ＴｈｅＲＣＥＬＰＳｐｅｅｃｈｃｏｄｉｎｇＡｌｇｏｒｉｔｈｍ（ＲＣＥＬＰ音声符号化アルゴリズム）、Ｅｕｒ．Ｔｒａｎｓ．ＯｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ、ｖｏｌ．４、ｎｏ．５、ｐｐ．５７３−８２（１９９４年）であり、これは開示されている全部を参照により本明細書に組み入れてある。特に、この文献は、修正されたピッチ周期の輪郭が合成ピッチ周期の輪郭と一致するように、残差信号の全セグメントを均一に進めるまたは遅らせる方法について記載している。この方法の問題点は、特定のワーピング方法のアーティファクトとして、元の信号の特定部分が削除されたり繰り返されたりする可能性があることである。特に、ある信号の２つの隣接するセグメントが累積圧縮シフトする場合、オーバーラップ部分の近くの元の信号の一部が、修正後の信号内で削除されてしまう可能性がある。同様に、２つの隣接するセグメントが累積拡張シフトする場合、オーバーラップ部分の近くの元の信号の一部が、修正信号内で繰り返されてしまう可能性がある。これらのアーティファクトが、最終的に再生される音声内で可聴ひずみを生成する。
【０００９】
別の技術でも同様の方法が提案されている。例えば、Ｗ．Ｂ．Ｋｌｅｉｊｎらによる文献「合成による分析音声符号器におけるピッチ予測子パラメータの補間（ＩｎｔｅｒｐｏｌａｔｉｏｎｏｆｔｈｅＰｉｔｃｈ−ＰｒｅｄｉｃｔｏｒｐａｒａｍｅｔｅｒｓｉｎＡｎａｌｙｓｉｓ−ｂｙ−ＳｙｎｔｈｅｓｉｓＳｐｅｅｃｈＣｏｄｅｒｓ）」、音声処理のＩＥＥＥトランザクション（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｆＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２、ｎｏ．１、ｐａｒｔＩ（１９９４年１月）を参照されたい。これは開示されている全部を参照により本明細書に組み入れてある。
【００１０】
過去に提案されたピッチワーピング方法はすべて、セグメントエッジのシフトによる品質低下など、同じような欠点を有しており、この欠点により元の信号の削除や繰り返しが起きていた。音声信号用の伝送ビットレートを減少させるが、信号の繰り返しや削除が起きず、またリアルタイムの通信が不可能となる程度にまで符号化計算を複雑にしたり遅延させたりしないようなフレームワーピング方法を提供することが望ましい。
【００１１】
【発明が解決しようとする課題】
本発明は、元の残差信号を合成輪郭と一致するよう修正するために、従来の技術によく見られるエッジシフトの影響を避けることができる、単に区分的連続タイムワープ輪郭ではない連続タイムワープ輪郭を用いる。特に、本発明で用いられるワープ輪郭は連続ワープ輪郭である。すなわち空間ジャンプや不連続がなく、そして隣接フレーム内の隣接端の位置を反転したりまたは過度に広げたりしない。
【００１２】
符号化アルゴリズムの複雑さを減少して実際上のおよび経済的な実施を可能にするために、最適線形シフトを二次またはその他の近似を使用して導出する。特に、理想化ワープ輪郭を判断するため本発明で利用するアルゴリズムでは、修正信号を合成信号に相互関連させるために、可能性のあるすべてのワープ輪郭を計算し利用する必要がない。一実施形態では、可能な輪郭のサブレンジ全体からの可能な輪郭のサブセットが計算される。次いでこれらの輪郭からの相対相関強度が、二次曲線またはその他のパラメトリック関数曲線上の点としてモデル化される。次いで最適ワープ輪郭が、これは恐らく計算されたサンプル点間のどこかに位置する１点によって表されるが、適切なパラメトリック関数を最大にすることによって計算される。二分法や区分的多項式モデリングなどその他の単純化技術も、本発明で使用することができる。
【００１３】
本発明の付加的な機能および利点については、以下に例として示す実施形態の詳細な説明および添付図を参照すれば明らかとなるであろう。
【００１４】
【課題を解決するための手段】
以下の説明では、それ以外のことを特筆していない限り、１つ以上のコンピュータによって実施されるオペレーションの動作および記号表示を参照しながら本発明について記載する。したがって、時折コンピュータ実行と呼ぶ、この動作（ａｃｔｓ）およびオペレーションには、構造化形式でデータを表す電気信号のコンピュータの処理ユニットによる操作が含まれることが理解できるであろう。この操作により、コンピュータのメモリシステム内のいろいろな場所でデータが変換または保持され、当業者に良く理解されている方式でコンピュータのオペレーションを再構成または変更する。データが保持されているデータ構造は、そのデータのフォーマットによって定義された特定のプロパティを有するメモリの物理領域である。しかし、本発明を以下に記載していくが、以下に記載する様々な動作およびオペレーションは、ハードウェア内でも実施可能であり、限定的なものではないことが、当業者なら理解できるであろう。
【００１５】
音声符号器は、高ビットレートの入力デジタル音声信号をより低いビットレート信号に圧縮し、次いでデジタルチャネル、例えばインターネットを介して伝送し、またはデジタルメモリモジュール、例えばハードディスクやＣＤ−Ｒ内にストアするよう動作が可能なソフトウェアモジュールである。伝送またはストアされたビットは、音声復号器によって復号化されたデジタル音声信号に変換される。音声符号器および復号器を、２つ合わせて音声コーデックと呼ぶことが多い。音声コーデックは、特に入力信号が人間の声の場合に、入力音声信号に最も近い可能な再構築を復号器で生成するよう設計されている。音声符号化で使用される最も一般的なパラダイムは、コードブック励起線形予測（ＣＥＬＰ）である。ＣＥＬＰ音声符号器は、短期予測およびコードブック探索の原理に基づいている。ＣＥＬＰ符号化のコンセプトおよび関数については、読者の理解の助けとなるよう本明細書にて論じることとする。この論議は、当業界で知られているものとは異なる方式でＣＥＬＰ符号化を定義しようとするものではない。
【００１６】
どの音声符号器においても、人間の音声はその性質上複雑でありまた時間につれて変化するものであり、それを捕らえるために使用可能なビット数が少ないため、低ビットレートにおいて、そのタスクがますます困難かつ複雑になっている。本発明は、ストアまたは伝送のために要するビット数がより少なくて済むように、音声符号器によって入力デジタル音声信号を符号化する前に、それを修正するための新規な方法を提供する。信号の修正の目的は、再構築される信号の知覚品質に悪影響を及ぼさないで、入力音声信号の波形の構造を単純化することである。信号の修正後、修正された入力音声信号は、符号化するため音声符号器に表示される。修正された波形構造が単純なため、音声符号器は、信号符号化のタスクをより上手く、かつ効率的に実施することができる。上述したように、信号の修正は特に低いビットレートで有利である。
【００１７】
本明細書に記載する信号修正技術は、連続タイムワーピングのモデルに基づいている。上記のＲＣＥＬＰの信号修正技術とは異なり、連続タイムワーピングでは、単なる区分的連続輪郭ではなく連続ワーピング輪郭を使用して、入力信号を修正する。その結果が、その波形が単純な構造を有し、その品質が元の入力信号の品質と実質的に同じである修正音声信号となる。
【００１８】
本発明を十分に理解するためには、コーデック技術のＣＥＬＰファミリの基本のファセットを理解することが重要である。当業者には様々なＣＥＬＰ技術が周知であるが、読者の便宜のため本明細書に簡単に記載することとする。ＣＥＬＰ符号化においては、復号化された音声信号が、時間によって変化する合成フィルタを通して励起信号をフィルタリングすることによって生成される。符号器が励起信号および合成フィルタについての情報を復号器に送信する。
【００１９】
ＣＥＬＰとは波形を一致させる方法である。すなわち、提案された合成信号の、残差などのモデル化すべき信号との相関を介して、励起信号の選択を最適化する。したがって、符号器は入力音声信号の短いセグメントを評価し、各セグメントについて最も近いレプリカの生成を試みる。特に、符号器は、まず「コードベクトル」と呼ぶ特定の許容信号を組み合わせることによって一組の励起信号を生成する。このようにして生成された一組内の各励起信号は、合成フィルタを通して通過され、元の音声信号に最も近い、またはレプリカとして複製されるべき別の信号を生成するフィルタリングされた励起信号が選択される。このような探索手順に従って、符号器は、選択された励起信号を生成するため組み合わされたコードベクトルについての情報と合成フィルタについての情報を復号器に送信する。通常、大部分のビットが、合成フィルタ励起信号の形成のためのコードベクトルについての情報を送信するのに必要であるが、合成フィルタパラメータ自体に必要なビット数は通常１．５ｋｂ／ｓ未満である。したがって、ＣＥＬＰは、例えば入力音声信号の複雑な性質を表すのに十分なコードベクトルのある、４ｋｂｐｓを越える比較的高いビットレートで良く機能する。低いビットレートでは、許容コードベクトルの数が少ないため、再生される信号品質がかなり低下する。
【００２０】
音声の知覚的に重要な有声セグメントのための残差信号の主要特性は、おおよそ周期的なスパイクのシーケンスである。これらのスパイクは一般に、ピッチ周期で分けられて、大体均一に間隔をあけているが、これらスパイクの位置の規則性の点で小さなジッタのあることが多い。これらのジッタは、知覚的には重要ではないものの、低ビットレートの波形符号器の限られたビット数の大部分を消費する。
【００２１】
既に論じたように、ＲＣＥＬＰは、スパイクの場所を再調整して定期的に起きるようにするため残差信号を非連続的にワーピングすることにより、この変化を除去するよう試みていた。修正信号内のスパイクの場所についての情報を送信するのに必要なビット数が非常に少なくて済むため、この方式による信号の修正は、低ビットレートの符号器のタスクを軽減する。残差修正の後、この修正信号は、予測フィルタの反転を通じて通過させることにより、音声領域内に変換し直される。
【００２２】
しかし、ＲＣＥＬＰによる信号修正により、使用されたワーピング関数のプロパティが最適とは言えないため、音声品質が知覚的に劣化する。特に、ＲＣＥＬＰにおいては、それぞれが単一のスパイクを含む、元の残差信号のオーバーラップしている可能性のある部分が、修正残差信号を生成するためカットされおよび一列に繋がってしまうこととなる。このカットされた部分がオーバーラップする可能性があり、また実際オーバーラップすることが多いため、残差信号の一部が修正残差信号に２度現れたり、また他の部分は１度も現れなくなったりする。
【００２３】
本発明は、改良されたワープ輪郭最適化方法を用いた本発明の一実施形態とともに、連続タイムワーピングアルゴリズムを利用することによって、上述のＲＣＥＬＰ残差修正手順における望ましくないプロパティを克服している。要するに、本発明によるアルゴリズムは、まずＲＣＥＬＰと同様に、単一スパイクを含む元の残差信号の各部分を確認する。しかし、ＲＣＥＬＰとは異なり、これらの部分はオーバーラップしておらずフレーム全体を覆っている。つまり、カットされた部分が連結している場合でも、元の残差信号が得られ、残差信号の一部が２度現れたり、一部が削除されたりしなくなる。
【００２４】
本来、ＲＣＥＬＰでのように部分を単にカットしたり動かしたりするのではなく、このアルゴリズムは、連続的および適応的タイムワーピングオペレーションにおいて、各部分を線形加速したり線形減速したりする。各部分をワープする目的は、修正残差信号内のスパイクが定間隔で分離され、それによってスパイクの位置を符号化するのに要するビットレートが減少し、ＲＣＥＬＰと同様の目標を達成し、しかも欠点がないことを確認することにある。後述するように、再生される音声の品質の低下を回避するため、加速または遅延の程度が制限されている。
【００２５】
添付の特許請求の範囲は本発明の特徴を詳細に記載しているが、本発明は、その目的および利点とともに、以下の詳細な説明と添付の図面から良く理解されるであろう。
【００２６】
【発明の実施の形態】
本発明の一般的な側面については上述したが、好ましい実施形態の詳細について、以下にさらに詳しく述べることとする。図１を参照すると、本発明の一実施形態による改良された低ビットレートの符号器を実施するためのアーキテクチャを例示してある。このシステムは、すべてカスケードにつないだ、ディジタイザ１２１と、予測フィルタまたは逆合成フィルタ１０１と、線形連続残差修正モジュール１０３と、合成フィルタ１０５と、ＣＥＬＰ符号器１０７などの符号器とを備える。
【００２７】
予測フィルタ１０１は、デジタル化した音声信号１０９をディジタイザモジュール１２１から入力として受信する。どの音声をデジタル電気信号に変換するかについては様々な方法があり、当業者には周知である。したがって、このような技術については本明細書では詳細に論じないこととする。予測フィルタ１０１はまた、逆合成フィルタと呼ぶ場合があるが、ＬＰＣ係数および入力信号に基づいて残差信号１１１を生成するよう動作可能である。逆フィルタおよび残差などの線形予測符号化コンセプトについては、当業者は精通されていることであろう。残差１１１は、残差修正モジュール１０３に入力され、以下に詳細に論じる方式で、その信号を修正残差１１３に変換する。修正残差１１３は、その後合成フィルタ１０５に入力され、再生音声信号１１５を生成する。残差修正モジュール１０３によって実施される残差修正技術によって、励起または修正残差１１３が残差１１１から変化しているにもかかわらず、修正音声信号１１５が元の信号１０９と非常に似た音を発する。その後、ＣＥＬＰ符号器モジュール１０７が、当業者に良く理解されている方式で、修正音声信号を符号化し、伝送またはストアするために符号化したビット１１７のストリームを出力する。
【００２８】
図１に示すモジュールのオペレーションを、図２および図３、図４を参照しながら、以下に詳細に記載する。特に、図２は、顕著なピッチピーク２０１を有する単純化された波形２０３、２０５、２０７、２０９、２１１を示す。図２に示すピークのシフトを、理解しやすいように誇張してあることに留意されたい。実際のシフト量を制限する必要があるが、このことについては後に論じる。図３および図４は、音声信号を符号化するため、本発明の一実施形態で実施するステップを示す流れ図である。ステップ３０１では、アナログ音声信号１１９がディジタイザ１２１によって受信される。ステップ３０３では、ディジタイザ１２１が、８ｋＨｚで信号をサンプリングし、そのサンプリングしたデジタル音声信号ｓ（ｎ）を得る。その後、ステップ３０５では、信号ｓ（ｎ）はディジタイザによって１６０サンプル（２０ｍｓ）の長さのオーバーラップしていないフレームにグループ化され、そのそれぞれがさらに８０サンプル（１０ｍｓ）の長さの２つのオーバーラップしていないサブフレームに細別される。したがって、Ｋ番目のフレーム内の信号が、ｓ（１６０ｋ）．．．ｓ（１６０ｋ＋１５９）によって与えられる。ステップ３０７で、フレームされサンプリングされた信号１０９が、ディジタイザ１２１からＬＰＣ抽出装置１２３に送られる。
【００２９】
ＬＰＣ抽出装置１２３は、当業者に周知の方式で入力信号に対応する線形予測係数を計算するよう動作する。特にステップ３０９では、ＬＰＣ抽出装置１２３は、相関分析を実施しレビンソン−ダービン（Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎ）アルゴリズムを実行することにより、各フレームのための一組の１０次程度（ｔｅｎｔｈｏｒｄｅｒ）の線形予測係数を抽出する。Ｋ番目のフレームａ_ｋ（ｊ）、ｊ＝１，．．．，１０内の最適線形予測係数は、ステップ３１１で補間され、各サブフレーム内で一組のＬＰ係数ａ_ｋｓ（ｊ）、ｊ＝１，．．．，１０を生成する。上式で、ｓ＝０、１は、それぞれ第１のサブフレーム、第２のサブフレームに対応する。この補間は、ＬＰ係数をラインスペクトル周波数（ＬＳＦ）領域内に変換し、ＬＳＦ領域へ線形補間し、その補間したサブフレームＬＳＦ係数をＬＰ係数に変換し直すことによって実施できる。ステップ３１３では、サブフレームＬＰ係数ａ_ｋｓは、予測フィルタ１０１によって使用され、当業者に周知の方式で残差信号１１１を生成する。Ｋ番目のフレーム内の残差１１１は、ｒ（ｎ）、ｎ＝１６０ｋ．．．１６０ｋ＋１５９で表される。
【００３０】
残差信号１１１の顕著な特性を、図２に波形２０３で示す。特に、有声セグメントについては、大体周期的だが不規則に配置されているピークまたはスパイク２０１のシーケンスによって、残差２０３が優勢となっている。これらのスパイクは、通常有声音声の生成の過程中に、音域を励起する声門音の振動（ｐｕｌｓｅｓ）を表す。隣接スパイク間の時間間隔は、ピッチ周期に等しい。人間の音声は、通常約２．５ｍｓから１８．５ｍｓの間のピッチ周期を有する。スパイク間の間隔は普通一定ではなく、小さい不規則性またはジッタを示す。
【００３１】
ステップ３１５から３３３では、残差修正モジュール１０３のオペレーションについて記載する。ステップ３１５では、残差修正モジュール１０３が残差信号１１１を受信し、現在のフレーム、つまりｋ番目のフレームの整数ピッチ周期を判断する。このピッチ周期は、当業界で周知の技術の中のいずれかによって判断できる。本実施形態において使用可能な１つの技術は、オープンループ内で相関分析を用いるものである。どのような方法を使用するにしても、ピッチが倍加（ｐｉｔｃｈｄｏｕｂｌｉｎｇ）するなどの望ましくないアーティファクトを避けるため、十分な注意を払う必要がある。
【００３２】
ステップ３１７では、フレームピッチ周期のサンプル線形補間によるサンプリングを、以下のように実施する。
ｃ′（ｎ）＝ｐ（ｋ）^＊（（ｎ−１６０ｋ）／１６０）＋ｐ（ｋ−１）^＊（１−（ｎ−１６０ｋ）／１６０），ｎ＝１６０ｋ．．．１６０ｋ＋１５９
関数ｃ′（ｎ）は、フレームの開始点でのｐ（ｋ−１）からフレームの終点でのｐ（ｋ）までの直線として表される。これは、現在のフレーム内のすべてのサンプルに対する滑らかに変化するピッチ周期（浮動小数点）を表す。
【００３３】
ステップ３１９では、関数ｃ（ｎ）は、ｃ′（ｎ）の各値を０．１２５に最も近い倍数に丸めることによって形成される。実際、ｃ（ｎ）は１／８の倍数であり、したがって８^＊ｃ（ｎ）は８倍にオーバーサンプリングされた信号領域内の整数ピッチ周期である。本明細書では、ｃ（ｎ）を望ましいピッチ輪郭と呼ぶ。この理想化輪郭に一致するため残差を修正することによって生じた効率の良さには著しいものがある。例えば、このような輪郭を有するフレームのピッチ周期は、非常に少ないビット数を使用して伝送でき、また復号器がピッチ輪郭を導出するためピッチを使用することができ、次いで現在のフレームのためのピッチスパイクの場所を推定するために、前のフレームからのスパイクの場所とともにピッチ輪郭を使用することができる。
【００３４】
つぎのプロセスは、復号器を模倣して、前のフレームのピッチ輪郭および修正残差に基づいて現在のフレーム残差内でスパイクの場所の再構築を試みることである。実際の復号器は、通常前のフレームの修正残差についての情報にアクセスしないが、前のフレームを再構築するために使用される励起信号にアクセスする。したがって、特定のフレームの励起信号内のスパイクが、そのフレームの修正残差内のスパイクと位置を合わせるので、前の励起信号には復号器を使用し、前の修正残差には符号器を使用することが問題とはならない。
【００３５】
現在のフレーム内のスパイクの位置を予測するために、残差修正モジュール１０３が、ピッチ輪郭を使ってステップ３２１内にある前のフレームの修正残差を遅らせ、修正のためのターゲット信号ｒ_１（ｎ）を生成する。例示したｒ_１（ｎ）の波形が、図２の要素２１１に示してある。このタイムワーピング関数は、ピッチ輪郭ｃ（ｎ）が０．１２５の倍数であるため、切り捨てｓｉｎｃ（ｘ）インパルス応答および９０％通過帯域を有する標準補間フィルタを使用して、８倍オーバーサンプリングした領域内で動作する。特に、８倍オーバーサンプリングは、前のフレーム内の修正残差ｒ′（ｎ）の補間されたサンプルを得るため用いられ、以下のようなオーバーサンプリングした信号に到達する。
ｒ″（ｎ^＊０．１２５），ｎ＝１６０^＊８^＊（ｋ−１）．．．１６０^＊８^＊（ｋ−１）＋１２７９
ｒ″のサンプルインデックスは０．１２５の倍数であり、オーバーサンプリングした状態を表している。次いで、ターゲット信号ｒ_１（ｎ）を得るため、以下のように遅延線オペレーションを実行する。
ｒ_ｄ（ｎ^＊０．１２５）＝ｒｄ（ｎ^＊０．１２５）ｎ＝１６０^＊８^＊（ｋ−１）．．．１６０^＊８^＊（ｋ−１）＋１２７９
ｒ_ｄ（ｎ^＊０．１２５）＝ｒ_ｄ（ｎ^＊０．１２５−Ｃ（ＩＮＴ（ｎ^＊０．１２５））），ｎ＝１６０^＊８^＊ｋ．．．１６０^＊８^＊ｋ＋１２７９
ｒ_１（ｎ）＝ｒ_ｄ（ｎ），ｎ＝１６０^＊ｋ．．．１６０^＊ｋ＋１５９
上式で、ＩＮＴ（ｘ）は、ｘ、浮動小数点数に最も近い整数を表し、ｒ_ｄ（）は、中間信号を表す。
【００３６】
復号器が、前のフレームの励起信号上で同じ遅延線オペレーションを実行することに留意されたい。
【００３７】
ターゲット信号２１１内に表されている理想化ピッチスパイクの場所を計算した後、符号器は次いで、実際の残差内のスパイクを、ｒ_１（ｎ）内のスパイクと一致させるため再配置できる。最初にステップ３２３で、残差修正モジュール１０３が、未修正残差信号２０３を分析し、低エネルギ領域によって取り囲まれている１つの顕著なピークを有する信号の明確なセグメントを確認する。図２の要素２０５に、結果として生じる波形が例示してある。セグメントに分割された、信号の部分間には隙間のないことが好ましい。言い換えれば、要素２０５の部分どうしがこの段階で再び一列に繋がる場合、その結果未修正残差２０３が生じる。好ましくは、この残差２０３は知覚的に見て目立たない程度に低いエネルギ点でのみカットされる。次いでステップ３２５で、符号器がターゲット信号の１セクションを未修正残差の適切な部分に関連付ける。
【００３８】
ステップ３２７で、最適なワーピング関数を用いた修正によって、残差２０３のセグメント内の顕著なスパイクまたはピークが、ターゲット信号２１１の関連セクション内の顕著なスパイクまたはピークに位置合わせするよう、残差修正モジュール１０３が、未修正残差の確認されたセクションのための最適ワーピング関数を計算する。図５を参照すると、残差の各セクションのための最適ワーピング関数を計算するためにとったステップが例として示してある。特に図５は、残差信号２０３と修正残差２０９間のサンプル毎の遅延を表すラグ（ｌａｇ）輪郭ｌ（ｎ）の導出を示す。量ｌ（ｎ）は、修正残差サンプルｒ′（ｍ）がオーバーサンプリングされた領域内でｌ（ｍ）によって遅延される残差信号サンプルと等しくなるような、０．１２５の倍数である。つまり、
ｒ′（ｍ）＝ｒ″（ｍ−ｌ（ｍ））
最適ワープ輪郭を見つけ出す場合の問題は、最適ラグ輪郭ｌ（ｎ）を見つけ出す問題に減じる。
【００３９】
ステップ４０１では、現在の当該セクションの一番最初のサンプル用のラグｌ_ｆが、前のセクションの一番最後のサンプル用のラグと等しいように設定され、現在のセクションの最後のサンプルのラグｌ_ｌ用の一組の候補が確認される。特に、最後のサンプルのラグｌ_ｌ用の一組の２Ｋ＋１候補が、｛ｌ_ｆ−Ｋ，ｌ_ｆ−Ｋ＋１，．．．ｌ_ｆ＋Ｋ｝などの候補範囲内で確認される。Ｋの値は、使用可能な計算能力、音声サンプルの周期性、ｌ_ｆの値などのパラメータに基づいて選択される。Ｋの典型的な値は、０、１、２、３、または４である。上記の方程式で示す候補範囲はｌ_ｆの周りに対称的に入っているが、必ずしもこのようである必要はない。
【００４０】
残差の少量シフトセクションが、再生された信号の知覚品質に悪影響を与えることはないが、シフト量が大きい場合は知覚的に悪影響となる可能性がある。したがって、前のセクションまたは部分がシフトした結果、累積されたシフトを含む３つの元の（オーバーサンプリングされていない）サンプル増分など、少量だけサンプルがシフトするように量を制限することが望ましい。したがって、２つのサンプル位置の均等物によって、前の部分内の最後のサンプルが遅延した場合は、次いで現在の部分の最後のサンプルは、１つのサンプル位置の均等物を越えてさらに遅延してはならない。さもないと、全シフト量が元の場所から３つのサンプル位置を越えることとなる。この問題点に対する解決法は、シフトが望ましい範囲を越えないようにＫの値を制限するか、または候補の非対称範囲を使用するかのどちらかである。したがって、上記の例においては、１つのサンプルを越える遅延は禁じられているが、非対称的に分布している候補ラグ値が使われている場合は、５つのサンプル位置の加速が認められる。
【００４１】
可能性のあるすべてのラグ候補を評価するのに必要な計算能力が押さえられているため、候補の組内には可能性のあるすべてのラグ候補よりも少数のラグ候補しかないことに留意されたい。逆に、現在のセクション内の最後のサンプル用に可能なラグ値のサブセットのみが候補として使用される。候補範囲外のラグ値はこの組内に含まれておらず、また候補ラグ値間にある値も同様である。したがって、最後のサンプル用の最適ラグ値（および結果として生じるラグ輪郭）が、候補の組自体内に含まれてもいない可能性があるが、候補範囲内に入っていることが好ましい。
【００４２】
次いで、ステップ４０３では、一組の２Ｋ＋１候補ラグ輪郭を生成するため、符号器が、ステップ４０１で確認した各候補ラグ値用の現在のセクションの最初と最後のサンプル間の線形補間を実施する。候補ラグ輪郭は、最初と最後の値がそれぞれ１_ｆ、ｌ_ｌである線形関数を表している。ここで、ｌ_ｌとは候補値である。ステップ４０５では、一組の２Ｋ＋１候補修正残差を得るために、各候補ラグ輪郭が残差信号に適用され、ターゲット信号ｒ_１（ｎ）２１１と各候補修正残差の間の相関が、ステップ４０７で計算される。
【００４３】
ステップ４０９では、相関強度が最後のサンプルラグ値に応じて二次方程式でモデル化され、最後のサンプル用の最適ラグ値が得られる。特に、各候補修正残差用の相関強度が、図６のグラフ内のプロット点で示すように、関連する最後のサンプルラグ値候補に応じてプロットされる。次いで、そのプロット点が組に分割され、それぞれの組は３点から構成される。隣接する組間に１点のオーバーラップがある。したがって、２Ｋ＋１プロット点はこのようにＫに分割され、それぞれ３点の組とオーバーラップする。例えば、７点については３組となる。３つの連続するプロット点の各組は、二次関数に従ってモデル化される。例えば図６では、３つの二次モデリング関数が５０１、５０３、５０５として例示してある。関連する３点の最初から最後までの範囲内の各二次関数の最大が得られ、次いでセクション全体の最大が計算される。したがって、正の二次関数、すなわち上向きにくぼんだところ、および点の単調構成については、最大相関値が終点の１つに位置する。一般に、所与の３点の組の最大が必ずしもこの３点のいずれかに位置するとは限らないが、この間のどこかに位置することが多いことに留意されたい。したがって、セクション全体のための最適ラグ値は、ラグｌ_ｌ用の候補の組内に入っていない値である可能性がある。
【００４４】
図６のプロットは、本発明の一実施形態によるステップをグラフで示すため使用しているが、本明細書で使用する用語、「プロット」または「プロッティング」では、具体的または目に見えるグラフを作成する必要はない。逆に、これらの用語は、単に量と量との間の関連の創出を暗黙に定義するにすぎない。黙示的なものとしては、使用されている軸が、図６に示す量に対するそれぞれ異なるパラメータであり、明示的なおよび実際のものとしては、グラフィカルプログラムデータ構造の中にあり、また仮想的なものとしては、適切な関係が導出できるメモリ内の一組の数の中にある。したがって、たとえこのような関係が明確であろうとも、これらの用語は、単に表示した量と量との間の関係の創出を表わすにすぎない。
【００４５】
現在の相関プロット用のすべての二次方程式の最大は、適切な二次方程式を用いた最後のサンプル用のラグ値に関連付けられており、この値が最適な最後のサンプルラグ値である。点の組をモデル化するために二次関数を使用したり、３点を使用したりする必要はない。例えば、これらの組は３点を超える量を含むことができ、モデリング関数は、受容可能な複雑さのレベルに応じて、どの程度の多項式にもなる可能性がある。点の単調シーケンスについては、一番高い終点が簡単に判断でき、シーケンスの最大を表すため、そのシーケンスを多項式などでモデル化する必要はないことにも留意されたい。
【００４６】
現在の顕著なピーク含有セクションまたはセグメントの最後のサンプル用の最適ラグ値を判断した後、残差修正モジュール１０３が、ステップ４１１で、ｌ_ｆからステップ４０９で計算した最適ｌ_ｌまでのセクション全体を線形に補間することによって、対応するラグ輪郭を導出する。図４のステップ３２９では、図５のステップ４１１で計算されたラグ輪郭が、上記のように残差に適用される。すなわち、ｒ′（ｎ）＝ｒ″（ｎ−ｌ（ｎ））。
【００４７】
最後に、ステップ３３１では、現在のフレーム内に分析しシフトすべき部分がこれ以上ないかどうか判断する。もしあれば、オペレーションのフローがステップ３２５に戻る。そうでない場合は、現在のフレームのためのプロセスは、ステップ３３３で終了する。図２の要素２０７には、修正残差２０９のワープされたセクションが、理解しやすいように別に示してある。波形２０９として示した修正残差１１３は、最後に合成フィルタ１０５への入力として設けられ、元の音声信号の再生を行う。この再生はジッタのあるピッチピークよりむしろ規則的なピッチピークを有する。この観点から、信号は、通常のＣＥＬＰなどの技術を使用して処理される。しかし、ピッチ構造の周期性が増すため、未修正信号を符号化するのに必要なビットレートと比べて、信号を符号化するのに必要なビットレートが大幅に減少する。
【００４８】
フレームを処理した後、後続するフレームに対して処理が開始される。無声のセグメントの場合は、通常ピッチピークがなく、したがって本明細書に記載した方法を適用する必要はない。無声の間隔の間は、アルゴリズム内のすべての量がリセットされる。例えば、累積シフトの表示がゼロにリセットされる。有声の通話が開始されたら、最初の有声フレームｋは、前のフレームのピッチ値、ｐ（ｋ−１）がこのフレーム内で知られていないため、特別なケースとして扱われる。この特別フレームｋのピッチ輪郭は、フレームのピッチ値、ｐ（ｋ）に等しい一定の関数に設定される。この手順のこれ以降の部分は、規則的なフレームのものと同様である。
【００４９】
現在のフレーム内の音声信号の所与のセクションまたは部分用の最適ラグ値ｌ_ｆおよび関連ラグ輪郭を計算するために、多項式モデリング以外の方法も本発明に使用できることに留意されたい。可能なラグ値の実質的なサブセット、例えば可能性のあるすべてのラグ値の半分が相関値を生成するために使用されることが本発明には重要なことである。なぜなら、このことによって、最適ラグ輪郭を見つけ出すのに要する計算コストが大幅に減少するからである。したがって、すべての、または大部分の可能なラグ値を試みることなく、最適ラグ値を見つけ出すのに、二分法などの代替技術を使用することができる。二分法技術では、２つのラグ候補値およびそれらの関連相関強度を確認する必要がある。より高い相関を有するラグ候補および２つのラグ値間にある新しいラグ候補が、二分法プロセスを繰り返すための終点として使用される。このプロセスは、所定の回数を繰り返した後、または所定の閾値を越える相関強度を有するラグ値が見つかった時に、終了することができる。
【００５０】
本明細書に記載した方法によって生じる連続線形ワープ輪郭が、図７に示してある。特に、連続線形ワープ輪郭６０１は黒い実線で示してあり、また従来の技術ＲＣＥＬＰ技術で使用される不連続輪郭６０３は破線で示してある。両輪郭とも、元の時間（ワープ前）対修正時間（ワープ後）に応じてプロットされた信号サンプルのための点の組に沿って引いた線で表す。したがって、輪郭６０１内の各直線セグメントおよび輪郭６０３の各個々の部分は、それぞれの技術に従ってワープされた元の残差のセクションを表す。ＲＣＥＬＰ技術では、よくセクションが削除されたりオーバーラップすることが分かる。一方、本発明の連続線形ワープ輪郭では、オーバーラップや削除は起こらない。逆に、連続線形ワープ輪郭６０１は、傾斜の点で不連続を含むが、位置の点では単なる区分的な連続ではない連続である。特に、領域６０５は、ワープ輪郭６０３の２つの部分によって占有されているが、セクション６０７は同じ輪郭についてのデータを有さない。一方、信号スペース全体は、本発明による輪郭６０１によってオーバーラップや削除もなく占有されている。
【００５１】
隣接セグメント用のワープ輪郭６０１は、各セグメントに必要な加速または減速に応じて、同じ傾斜または異なる傾斜を有する可能性があることに留意されたい。これと対称的に、ＲＣＥＬＰ輪郭６０３の各セクションの傾斜は、一定である。これは、ＲＣＥＬＰは信号のセクションをシフトするが、各セクション内の時間変換係数（ｔｉｍｅｓｃａｌｅ）を変化させないことによる。したがって、本発明による方法は、セクションエッジで望ましくない時間変換係数の不連続を生成することなく、各セクションのピークが望ましい場所にシフトするように、線形連続方式で各セクション内で時間変換係数をワープすることが分かる。
【００５２】
必ずしも必要ではないが、コンピュータで実行するプログラム「モジュール」などの命令を使用して、本発明を実施することができる。一般に、プログラムモジュールは、特定のタスクを実行しまたは特定の抽象データタイプを実施するルーチン、オブジェクト、構成要素、データ構造などを含む。プログラムは、１つ以上のプログラムモジュールを含むことができる。
【００５３】
本発明は、セル式電話、パーソナルコンピュータ（ＰＣ）、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベースのプログラム可能な民生用電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータなどを含む様々なタイプの機械、または本明細書に記載したように音声信号を符号化または復号化し、信号をストア、検索、送信、受信するために使用できるその他の機械で実施できる。本発明は、タスクが、通信ネットワークを通してリンクされている遠隔構成要素によって実行される、分散型コンピューティングシステム内で用いることができる。
【００５４】
図８に、本発明の一実施形態を実施するためのシステムを例として示すが、これには、コンピュータ装置７００などのコンピュータ装置が含まれる。最も基本的な構成では、コンピュータ装置７００は、通常少なくとも１つの処理ユニット７０２およびメモリ７０４を備える。コンピュータ装置の正確な構成およびタイプによって、メモリ７０４は、（ＲＡＭなどの）揮発性、（ＲＯＭ、フラッシュメモリなどの）不揮発性、またはこれら２つの組み合わせとなる。この最も基本的な構成は、図８の線７０６内に示す。さらに、コンピュータ装置７００には、追加の特徴／機能も有することができる。例えば、コンピュータ装置７００に、磁気または光のディスクやテープを含む追加記憶装置（取外し可能および／または取外し不可能）も備えることができるが、必ずしもこれに限定されるものではない。このような追加記憶装置は、図８に取外し可能記憶装置７０８および取外し不可能記憶装置７１０で示してある。コンピュータの記憶媒体は、コンピュータ読み取り可能命令、データ構造、プログラムモジュール、その他のデータなどの情報をストアするための方法または技術で実施される、揮発性および不揮発性、取外し可能および取外し不可能な媒体を含む。メモリ７０４、取外し可能記憶装置７０８および取外し不可能記憶装置７１０は、すべてコンピュータの記憶媒体の例である。コンピュータの記憶媒体は、所望の情報をストアするのに使用しコンピュータ装置７００からアクセス可能な、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたはその他のメモリ技術、ＣＤＲＯＭ、デジタル多目的ディスク（ＤＶＤ）またはその他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶装置、またはその他の媒体を含むが、これらに限定されるものではない。このようなコンピュータの記憶媒体のどれもが、コンピュータ装置７００の一部となり得る。
【００５５】
コンピュータ装置７００はまた、他のコンピュータ装置と通信するための１つ以上の通信接続７１２も備える。通信接続７１２は、通信媒体の例である。通信媒体は、通常搬送波やその他の転送メカニズムなどの被変調データ信号内のコンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを実行し、情報配信媒体を含む。用語「被変調データ信号」とは、信号内で情報を符号化する方式で設定または変更した１つ以上の特性を有する信号である。通信媒体は、ワイヤードネットワークや直接ワイヤード接続などのワイヤード媒体、および音響、ＲＦ、赤外線などのワイヤレス媒体を含むが、これらは例として示したものにすぎず、限定的なものではない。上述したように、本明細書に使用する用語、コンピュータ可読媒体は、記憶媒体および通信媒体の両方を含む。
【００５６】
コンピュータ装置７００は、キーボード、マウス、ペン、音声入力装置、タッチ入力装置などの、１つ以上の入力装置７１４も含む。ディスプレイ、スピーカ、プリンタなどの、１つ以上の出力装置７１６も含まれる。これらすべての装置は当業界には周知のものであり、本明細書で詳細に論じる必要はない。
【００５７】
本発明の原理を適用することのできる多くの実施形態について、図面に示した本明細書に記載する実施形態は、例示の目的で記載してあるのにすぎず、本発明の範囲を限定するものと解釈されるべきではない。例えば、ソフトウェア内に例として示した実施形態の要素はハードウェア内でも実施でき、またその逆も同様であり、あるいは例示した実施形態は、本発明の趣旨から逸脱することなく、配置上のおよび細部の修正が可能であることを、当業者なら理解されるであろう。したがって、本明細書に記載した本発明は、以下の請求項およびその均等物の範囲内に含めることのできる、すべてのこのような実施形態を予想するものである。
【図面の簡単な説明】
【図１】本発明の一実施形態を実施できる符号器の一例を示す構造図である。
【図２】本発明の一実施形態における信号のセグメンテーション、タイムワーピング、再構築を示す波形略図である。
【図３】本発明の一実施形態における信号の修正を行うためのステップを示す流れ図である。
【図４】本発明の一実施形態における信号の修正を行うためのステップを示す流れ図である。
【図５】本発明の一実施形態における最適ラグ輪郭を計算するためのステップを示す流れ図である。
【図６】最適な最後のサンプルラグを確認するため本発明の一実施形態において使用する最後のサンプルラグ値に応じて、相関強度のプロッティングを示す概略特性図である。
【図７】従来の技術に従って、および本発明の一実施形態に従って、ワープ輪郭を示す特性図である。
【図８】本発明の一実施形態を実施できるコンピュータ装置の概略図である。
【符号の説明】
１０１予測フィルタまたは逆合成フィルタ
１０３残差修正モジュール
１０５合成フィルタ
１０７ＣＥＬＰ符号器
１０９音声信号
１１１残差信号
１１３修正残差
１１５修正音声信号
１１７符号化したビット
１１９アナログ音声信号
１２１ディジタイザ
１２３ＬＰＣ抽出装置
２０１ピーク
２０３、２０５、２０７、２０９、２１１波形
５０１、５０３、５０５モデリング関数
６０１連続輪郭
６０３不連続輪郭
６０５領域
６０７セクション
７００コンピュータ装置
７０２処理ユニット
７０４メモリ
７０８取外し可能記憶装置
７１０取外し不能記憶装置
７１２通信接続
７１４入力装置
７１６出力装置

Claims

デジタル音声信号のフレームを圧縮するための準備処理をする方法であって、
該フレームについての線形予測残差であって不規則な間隔で配置された顕著なピークを有する残差を生成するステップと、
オーバーラップしないで連続する一連のセクションであって各セクションが１つ以下の顕著なピークを含む一連のセクションに、前記残差を分割するステップと、
一連の顕著なピークが、連続する一連のセクションにおいて規則的な間隔で配置されて成る理想化信号を導出するステップと、
前記残差の各セクションを、該理想化信号の対応するセクションと関連付けるステップと、
各残差セクションについての線形連続ワープ輪郭を、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブレンジ内で、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブセットに基づいて、該ワープ輪郭に空間ジャンプまたは不連続がないように計算するステップと、
前記計算されたワープ輪郭を前記残差の前記セクションに適用して、各残差セクション内のいかなる顕著なピークも前記理想化信号の前記対応するセクションにおける前記顕著なピークと揃うように前記残差を修正し、それによって該修正残差の顕著なピッチピークが規則的な間隔で配置され、該修正残差において前記残差のいかなるセクションの部分も削除されたり繰り返されたりしないステップ
とを含むことを特徴とする方法。
前記生成するステップはさらに、
前記フレームについての線形予測係数を抽出するステップと、
前記フレームについての前記線形予測係数を補間して、前記フレームの複数のサブフレームについて線形予測係数を生成するステップと、
各サブフレームについて予測残差を生成し、それによって前記フレームについての前記予測残差が一組のサブフレーム予測残差を有するステップとを含むことを特徴とする請求項１に記載の方法。
前記分割するステップはさらに、前記フレームを分析して整数ピッチ周期を確認するステップを含むことを特徴とする請求項１に記載の方法。
前記確認するステップはさらに、オープンループ内で相関分析を使用するステップを含むことを特徴とする請求項３に記載の方法。
前記計算するステップはさらに、
前記残差セクションの最初のサンプルについて最初のサンプルラグを確立するステップと、
前記残差セクションの最後のサンプルについて最後のサンプルラグの一組の候補を確認するステップであって、該一組の候補が、最後になる可能性のあるすべてのサンプルラグ値のサブレンジ内で、最後になる可能性のあるすべてのサンプルラグ値のサブセットからなるステップと、
各候補の最後のサンプルラグについての前記残差セクションの最初と最後のサンプル間の線形補間を実行し、一組の候補ラグ輪郭を生成するステップと、
各候補ラグ輪郭を前記残差セクションに適用して、一組の候補修正残差を得るステップと、
各候補修正残差と前記理想化信号の前記対応するセクション間の相関強度を計算して、一組の相関強度を生成するステップと、
該一組の相関強度に基づいて前記残差セクションについて最適な最後のサンプルラグを導出するステップと、
最初のサンプルラグから前記残差セクションについて導出された最適な最後のサンプルラグまでのセクション全体を線形補間することで、線形連続ワープ輪郭を導出するステップとを含むことを特徴とする請求項１に記載の方法。
前記線形連続ワープ輪郭を導出するステップはさらに、
前記強度を導出するために使用される前記最後のサンプルラグに応じて、前記一組の相関強度をオーバーラップするサブセクションに分離するステップと、
各サブセクションを曲線として表すステップと、
各曲線の最大値であって、前記サブセクション内で前記強度を導出するために使用される前記最後のサンプルラグを含む可能なラグ値の範囲内で可能性のあるすべてのラグ値からなるグループから選択可能である前記最大値を計算するステップと、
前記サブセクションの前記曲線ついての前記最大値に基づいて前記セクションについて前記最大相関強度を計算するステップとを含むことを特徴とする請求項５に記載の方法。
前記曲線は多項式であることを特徴とする請求項６に記載の方法。
前記多項式は二次関数であることを特徴とする請求項７に記載の方法。
計算されたワープ輪郭の適用時に前記セクション内のいかなるサンプルの最大累積シフトも４つのサンプル位置未満であるように、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブレンジが選択されることを特徴とする請求項１に記載の方法。
デジタル音声信号のフレームを圧縮するために準備処理をする方法を実行するためのコンピュータ可読命令を有するコンピュータ可読媒体であって、
該フレームについての線形予測残差であって不規則な間隔で配置された顕著なピークを有する残差を生成するステップと、
オーバーラップしないで連続する一連のセクションであって各セクションが１つ以下の顕著なピークを含む一連のセクションに、前記残差を分割するステップと、
一連の顕著なピークが、連続する一連のセクションにおいて規則的な間隔で配置されて成る理想化信号を導出するステップと、
前記残差の各セクションを、該理想化信号の対応するセクションと関連付けるステップと、
各残差セクションについての線形連続ワープ輪郭を、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブレンジ内で、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブセットに基づいて、該ワープ輪郭に空間ジャンプまたは不連続がないように計算するステップと、
前記計算されたワープ輪郭を前記残差の前記セクションに適用して、各残差セクション内のいかなる顕著なピークも前記理想化信号の前記対応するセクションにおける前記顕著なピークと揃うように前記残差を修正し、それによって該修正残差の顕著なピッチピークが規則的な間隔で配置され、該修正残差において前記残差のいかなるセクションの部分も削除されたり繰り返されたりしないステップ
を含むことを特徴とするコンピュータ可読媒体。
前記生成するステップはさらに、
前記フレームについての線形予測係数を抽出するステップと、
前記フレームについての前記線形予測係数を補間して、前記フレームの複数のサブフレームについて線形予測係数を生成するステップと、
各サブフレームについて予測残差を生成し、それによって前記フレームについての前記予測残差が一組のサブフレーム予測残差を有するステップとを含むことを特徴とする請求項１０に記載のコンピュータ可読媒体。
前記分割するステップはさらに、前記フレームを分析して整数ピッチ周期を確認するステップを含むことを特徴とする請求項１０に記載のコンピュータ可読媒体。
前記確認するステップはさらに、オープンループ内で相関分析を使用するステップを含むことを特徴とする請求項１２に記載のコンピュータ可読媒体。
前記計算するステップはさらに、
前記残差セクションの最初のサンプルについて最初のサンプルラグを確立するステップと、
前記残差セクションの最後のサンプルについて最後のサンプルラグの一組の候補を確認するステップであって、該一組の候補が、最後になる可能性のあるすべてのサンプルラグ値のサブレンジ内で、最後になる可能性のあるすべてのサンプルラグ値のサブセットからなるステップと、
各候補の最後のサンプルラグについての前記残差セクションの最初と最後のサンプル間の線形補間を実行し、一組の候補ラグ輪郭を生成するステップと、
各候補ラグ輪郭を前記残差セクションに適用して、一組の候補修正残差を得るステップと、
各候補修正残差と前記理想化信号の前記対応するセクション間の相関強度を計算して、一組の相関強度を生成するステップと、
該一組の相関強度に基づいて前記残差セクションについて最適な最後のサンプルラグを導出するステップと、
最初のサンプルラグから前記残差セクションについて導出された最適な最後のサンプルラグまでのセクション全体を線形補間することで、線形連続ワープ輪郭を導出するステップとを含むことを特徴とする請求項１０に記載のコンピュータ可読媒体。
前記線形連続ワープ輪郭を導出するステップはさらに、
前記強度を導出するために使用される前記最後のサンプルラグに応じて、前記一組の相関強度をオーバーラップするサブセクションに分離するステップと、
各サブセクションを曲線として表すステップと、
各曲線の最大値であって、前記サブセクション内で前記強度を導出するために使用される前記最後のサンプルラグを含む可能なラグ値の範囲内で可能性のあるすべてのラグ値からなるグループから選択可能である前記最大値を計算するステップと、
前記サブセクションの前記曲線ついての前記最大値に基づいて前記セクションについて前記最大相関強度を計算するステップとを含むことを特徴とする請求項１４に記載のコンピュータ可読媒体。
前記曲線は多項式であることを特徴とする請求項１５に記載のコンピュータ可読媒体。
前記多項式は二次関数であることを特徴とする請求項１６に記載のコンピュータ可読媒体。
計算されたワープ輪郭の適用時に前記セクション内のいかなるサンプルの最大累積シフトも４つのサンプル位置未満であるように、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブレンジが選択されることを特徴とする請求項１０に記載のコンピュータ可読媒体。
磁気的に読取り可能なディスク媒体を含むことを特徴とする請求項１０に記載のコンピュータ可読媒体。
光学的に読取り可能なディスク媒体を含むことを特徴とする請求項１０に記載のコンピュータ可読媒体。
被変調データ信号を有することを特徴とする請求項１０に記載のコンピュータ可読媒体。
揮発性のコンピュータ読取り可能なストレージを含むことを特徴とする請求項１０に記載のコンピュータ可読媒体。