JP4162933B2 - 低ビットレートcelp符号化のための連続タイムワーピングに基づく信号の修正 - Google Patents

低ビットレートcelp符号化のための連続タイムワーピングに基づく信号の修正 Download PDF

Info

Publication number
JP4162933B2
JP4162933B2 JP2002186971A JP2002186971A JP4162933B2 JP 4162933 B2 JP4162933 B2 JP 4162933B2 JP 2002186971 A JP2002186971 A JP 2002186971A JP 2002186971 A JP2002186971 A JP 2002186971A JP 4162933 B2 JP4162933 B2 JP 4162933B2
Authority
JP
Japan
Prior art keywords
residual
section
lag
sample
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002186971A
Other languages
English (en)
Other versions
JP2003122400A5 (ja
JP2003122400A (ja
Inventor
ブイ.ラオ アジット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2003122400A publication Critical patent/JP2003122400A/ja
Publication of JP2003122400A5 publication Critical patent/JP2003122400A5/ja
Application granted granted Critical
Publication of JP4162933B2 publication Critical patent/JP4162933B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Communication Control (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、一般に音声符号化技法に関し、より詳細には、コードブック励起線形予測(CELP、codebook excited linear prediction)などの低ビットレート符号化技術を介して信号を符号化する際の助けとなる、信号を修正するための技法に関する。
【0002】
【従来の技術】
今日の音声や対話の技術が高度に進んだ環境下においては、ある地点から別の地点へ、時にはかなり離れた距離間で、おまけにしばしば限られた帯域のチャネルを介して、人間の声を電子的に伝送することが必要または望ましい状況がたびたび起きる。例えば、現在、セル式電話のリンクを介してまたはインターネットまたはその他のデジタル電子ネットワークを介しての会話が普通のこととなっている。同様に、コンピュータのハードディスク上またはデジタル記録装置の揮発性または不揮発性メモリ内などに、人間の声をデジタル方式でストアすると便利なことがたびたびある。例えば、デジタル方式でストアした人間の声を、電話応答プロトコルまたは音声によるプレゼンテーションの一部として再生できる。
【0003】
デジタル音声の伝送および/またはストアに使用できるチャネルおよび媒体が限られた容量しか有さないことが多く、この状況は日に日に増加の一途を辿っている。例えば、リアルタイムの音声または録音された音声とともに使用される高品質ビデオの到来によって、全部をストリーミングフォーマットで受信したりストアするためにダウンロードすることが可能なものなど、リアルタイムでのデジタルネットワークを介する電話/テレビ会議やリアルタイムではない高品質の音声/映像プレゼンテーションに対する需要が生み出されてきた。映像の内容により様々な伝送チャネルおよび記憶媒体内の帯域や記憶容量が変位するため、音声および映像の両方を効率的に、かつ適切に圧縮することが緊急課題となっている。また別のシナリオでは、音声の極端な、かつ効果的な圧縮の必要性も増してきている。例えば、ますます輻輳の度合いが増しているセル式電話のリンクでは、チャネルを介してより多くのユーザを取り扱うことができなければならないが、多数のユーザを取り扱うためのチャネルの容量が変っていない。
【0004】
動機はどうあれ、音声の圧縮が通信技術の重要な分野になってきている。使用可能なデジタル音声符号化技術は、圧縮を用いない非効率的な技術から圧縮率4倍以上を達成する効率的な技術へと、その範囲が広がってきている。一般に、既存の符号器は、波形符号器か音声符号器のどちらかに分類できる。波形符号器は、実際音声波自体を表そうとしており、通常高い圧縮率は得られない。音声符号器、またはボコーダは、単に合成された音声波をマップしようとするのではなく、人間の音声の源および癖を対象としており、したがって計算の複雑さが増しはするもののより高い圧縮率が得られるようになる。波形符号器は、一般に、癖のある人間の声、非言語音、高レベルの背景雑音に対して、より頑強である。
【0005】
広く使用されている多くの音声符号器は、線形予測符号化に基づいた技術を使っている。この線形予測符号化技術は、音声信号の各部分について、特定の信号によって励起した場合、元の音声信号部分によく似た信号を生成するデジタルフィルタが存在することを想定している。特に、線形予測技術を実施している符号器は、通常まず音声信号のスペクトル包絡線またはフォルマントを示す一組の係数を導出する。これらの係数に対応するフィルタが確立され、入力音声信号を予測残差に減らすため使用される。一般に、上述のフィルタは逆合成フィルタで、残差信号を対応する合成フィルタに入力することにより、元の音声信号に極めて近い信号を生成する。
【0006】
通常、フィルタ係数および残差は、音声信号を後におよび/または遠隔で再合成するために、伝送またはストアされる。フィルタ係数は、少ないストアスペースや、例えば1.5kbpsの狭い伝送処理帯域しか必要としないが、予測残差は、複雑さの点で元の音声信号と似た高帯域信号である。したがって、音声信号を効果的に圧縮するためには、予測残差を圧縮する必要がある。この圧縮を得るために、コードブック励起線形予測、CELPの技術が使用される。CELPは、特定のベクトルを選択するために使用できる、それぞれが「コードブック」一組からなる、1つ以上のコードブックインデックスを利用している。各コードブックはベクトルの集合である。選択ベクトルは、基準化され合計されると、フィルタの応答を残差自体に最も近づける合成フィルタからの応答を生成するよう選ばれる。CELP復号器はCELP符号器がアクセスしたのと同じコードブックにアクセスし、したがって符号器コードブックおよび復号器コードブックからの同じベクトルを確認するため、簡単なインデックスが使用できる。
【0007】
容量または帯域が十分に使用可能な場合は、たとえどんなに複雑であろうとも、元の残差の最良近似を十分に行うことのできるコードブックを有することは困難ではない。しかし、使用可能な容量または帯域が減少してくると、当然CELPコードブックの能力も減少する。
【0008】
残差信号を模倣するのに必要なビット数を減少させるための1方法は、その周期性を増加することである。つまり、元の信号の重複した部分を重複しない機能より、よりコンパクトに表わすことができるようにするということである。この原理を利用している1技術に、RCELP(Relaxation Codebook Excited Linear Predictive coding)がある。この技術の一例が、W.B.Kleijnらによる文献「The RCELP Speech coding Algorithm(RCELP音声符号化アルゴリズム)、Eur.Trans.On Communications、vol.4、no.5、pp.573−82(1994年)であり、これは開示されている全部を参照により本明細書に組み入れてある。特に、この文献は、修正されたピッチ周期の輪郭が合成ピッチ周期の輪郭と一致するように、残差信号の全セグメントを均一に進めるまたは遅らせる方法について記載している。この方法の問題点は、特定のワーピング方法のアーティファクトとして、元の信号の特定部分が削除されたり繰り返されたりする可能性があることである。特に、ある信号の2つの隣接するセグメントが累積圧縮シフトする場合、オーバーラップ部分の近くの元の信号の一部が、修正後の信号内で削除されてしまう可能性がある。同様に、2つの隣接するセグメントが累積拡張シフトする場合、オーバーラップ部分の近くの元の信号の一部が、修正信号内で繰り返されてしまう可能性がある。これらのアーティファクトが、最終的に再生される音声内で可聴ひずみを生成する。
【0009】
別の技術でも同様の方法が提案されている。例えば、W.B.Kleijnらによる文献「合成による分析音声符号器におけるピッチ予測子パラメータの補間(Interpolation of the Pitch−Predictor parameters in Analysis−by−Synthesis Speech Coders)」、音声処理のIEEEトランザクション(IEEE Transactions of Speech and Audio Processing、vol.2、no.1、partI(1994年1月)を参照されたい。これは開示されている全部を参照により本明細書に組み入れてある。
【0010】
過去に提案されたピッチワーピング方法はすべて、セグメントエッジのシフトによる品質低下など、同じような欠点を有しており、この欠点により元の信号の削除や繰り返しが起きていた。音声信号用の伝送ビットレートを減少させるが、信号の繰り返しや削除が起きず、またリアルタイムの通信が不可能となる程度にまで符号化計算を複雑にしたり遅延させたりしないようなフレームワーピング方法を提供することが望ましい。
【0011】
【発明が解決しようとする課題】
本発明は、元の残差信号を合成輪郭と一致するよう修正するために、従来の技術によく見られるエッジシフトの影響を避けることができる、単に区分的連続タイムワープ輪郭ではない連続タイムワープ輪郭を用いる。特に、本発明で用いられるワープ輪郭は連続ワープ輪郭である。すなわち空間ジャンプや不連続がなく、そして隣接フレーム内の隣接端の位置を反転したりまたは過度に広げたりしない。
【0012】
符号化アルゴリズムの複雑さを減少して実際上のおよび経済的な実施を可能にするために、最適線形シフトを二次またはその他の近似を使用して導出する。特に、理想化ワープ輪郭を判断するため本発明で利用するアルゴリズムでは、修正信号を合成信号に相互関連させるために、可能性のあるすべてのワープ輪郭を計算し利用する必要がない。一実施形態では、可能な輪郭のサブレンジ全体からの可能な輪郭のサブセットが計算される。次いでこれらの輪郭からの相対相関強度が、二次曲線またはその他のパラメトリック関数曲線上の点としてモデル化される。次いで最適ワープ輪郭が、これは恐らく計算されたサンプル点間のどこかに位置する1点によって表されるが、適切なパラメトリック関数を最大にすることによって計算される。二分法や区分的多項式モデリングなどその他の単純化技術も、本発明で使用することができる。
【0013】
本発明の付加的な機能および利点については、以下に例として示す実施形態の詳細な説明および添付図を参照すれば明らかとなるであろう。
【0014】
【課題を解決するための手段】
以下の説明では、それ以外のことを特筆していない限り、1つ以上のコンピュータによって実施されるオペレーションの動作および記号表示を参照しながら本発明について記載する。したがって、時折コンピュータ実行と呼ぶ、この動作(acts)およびオペレーションには、構造化形式でデータを表す電気信号のコンピュータの処理ユニットによる操作が含まれることが理解できるであろう。この操作により、コンピュータのメモリシステム内のいろいろな場所でデータが変換または保持され、当業者に良く理解されている方式でコンピュータのオペレーションを再構成または変更する。データが保持されているデータ構造は、そのデータのフォーマットによって定義された特定のプロパティを有するメモリの物理領域である。しかし、本発明を以下に記載していくが、以下に記載する様々な動作およびオペレーションは、ハードウェア内でも実施可能であり、限定的なものではないことが、当業者なら理解できるであろう。
【0015】
音声符号器は、高ビットレートの入力デジタル音声信号をより低いビットレート信号に圧縮し、次いでデジタルチャネル、例えばインターネットを介して伝送し、またはデジタルメモリモジュール、例えばハードディスクやCD−R内にストアするよう動作が可能なソフトウェアモジュールである。伝送またはストアされたビットは、音声復号器によって復号化されたデジタル音声信号に変換される。音声符号器および復号器を、2つ合わせて音声コーデックと呼ぶことが多い。音声コーデックは、特に入力信号が人間の声の場合に、入力音声信号に最も近い可能な再構築を復号器で生成するよう設計されている。音声符号化で使用される最も一般的なパラダイムは、コードブック励起線形予測(CELP)である。CELP音声符号器は、短期予測およびコードブック探索の原理に基づいている。CELP符号化のコンセプトおよび関数については、読者の理解の助けとなるよう本明細書にて論じることとする。この論議は、当業界で知られているものとは異なる方式でCELP符号化を定義しようとするものではない。
【0016】
どの音声符号器においても、人間の音声はその性質上複雑でありまた時間につれて変化するものであり、それを捕らえるために使用可能なビット数が少ないため、低ビットレートにおいて、そのタスクがますます困難かつ複雑になっている。本発明は、ストアまたは伝送のために要するビット数がより少なくて済むように、音声符号器によって入力デジタル音声信号を符号化する前に、それを修正するための新規な方法を提供する。信号の修正の目的は、再構築される信号の知覚品質に悪影響を及ぼさないで、入力音声信号の波形の構造を単純化することである。信号の修正後、修正された入力音声信号は、符号化するため音声符号器に表示される。修正された波形構造が単純なため、音声符号器は、信号符号化のタスクをより上手く、かつ効率的に実施することができる。上述したように、信号の修正は特に低いビットレートで有利である。
【0017】
本明細書に記載する信号修正技術は、連続タイムワーピングのモデルに基づいている。上記のRCELPの信号修正技術とは異なり、連続タイムワーピングでは、単なる区分的連続輪郭ではなく連続ワーピング輪郭を使用して、入力信号を修正する。その結果が、その波形が単純な構造を有し、その品質が元の入力信号の品質と実質的に同じである修正音声信号となる。
【0018】
本発明を十分に理解するためには、コーデック技術のCELPファミリの基本のファセットを理解することが重要である。当業者には様々なCELP技術が周知であるが、読者の便宜のため本明細書に簡単に記載することとする。CELP符号化においては、復号化された音声信号が、時間によって変化する合成フィルタを通して励起信号をフィルタリングすることによって生成される。符号器が励起信号および合成フィルタについての情報を復号器に送信する。
【0019】
CELPとは波形を一致させる方法である。すなわち、提案された合成信号の、残差などのモデル化すべき信号との相関を介して、励起信号の選択を最適化する。したがって、符号器は入力音声信号の短いセグメントを評価し、各セグメントについて最も近いレプリカの生成を試みる。特に、符号器は、まず「コードベクトル」と呼ぶ特定の許容信号を組み合わせることによって一組の励起信号を生成する。このようにして生成された一組内の各励起信号は、合成フィルタを通して通過され、元の音声信号に最も近い、またはレプリカとして複製されるべき別の信号を生成するフィルタリングされた励起信号が選択される。このような探索手順に従って、符号器は、選択された励起信号を生成するため組み合わされたコードベクトルについての情報と合成フィルタについての情報を復号器に送信する。通常、大部分のビットが、合成フィルタ励起信号の形成のためのコードベクトルについての情報を送信するのに必要であるが、合成フィルタパラメータ自体に必要なビット数は通常1.5kb/s未満である。したがって、CELPは、例えば入力音声信号の複雑な性質を表すのに十分なコードベクトルのある、4kbpsを越える比較的高いビットレートで良く機能する。低いビットレートでは、許容コードベクトルの数が少ないため、再生される信号品質がかなり低下する。
【0020】
音声の知覚的に重要な有声セグメントのための残差信号の主要特性は、おおよそ周期的なスパイクのシーケンスである。これらのスパイクは一般に、ピッチ周期で分けられて、大体均一に間隔をあけているが、これらスパイクの位置の規則性の点で小さなジッタのあることが多い。これらのジッタは、知覚的には重要ではないものの、低ビットレートの波形符号器の限られたビット数の大部分を消費する。
【0021】
既に論じたように、RCELPは、スパイクの場所を再調整して定期的に起きるようにするため残差信号を非連続的にワーピングすることにより、この変化を除去するよう試みていた。修正信号内のスパイクの場所についての情報を送信するのに必要なビット数が非常に少なくて済むため、この方式による信号の修正は、低ビットレートの符号器のタスクを軽減する。残差修正の後、この修正信号は、予測フィルタの反転を通じて通過させることにより、音声領域内に変換し直される。
【0022】
しかし、RCELPによる信号修正により、使用されたワーピング関数のプロパティが最適とは言えないため、音声品質が知覚的に劣化する。特に、RCELPにおいては、それぞれが単一のスパイクを含む、元の残差信号のオーバーラップしている可能性のある部分が、修正残差信号を生成するためカットされおよび一列に繋がってしまうこととなる。このカットされた部分がオーバーラップする可能性があり、また実際オーバーラップすることが多いため、残差信号の一部が修正残差信号に2度現れたり、また他の部分は1度も現れなくなったりする。
【0023】
本発明は、改良されたワープ輪郭最適化方法を用いた本発明の一実施形態とともに、連続タイムワーピングアルゴリズムを利用することによって、上述のRCELP残差修正手順における望ましくないプロパティを克服している。要するに、本発明によるアルゴリズムは、まずRCELPと同様に、単一スパイクを含む元の残差信号の各部分を確認する。しかし、RCELPとは異なり、これらの部分はオーバーラップしておらずフレーム全体を覆っている。つまり、カットされた部分が連結している場合でも、元の残差信号が得られ、残差信号の一部が2度現れたり、一部が削除されたりしなくなる。
【0024】
本来、RCELPでのように部分を単にカットしたり動かしたりするのではなく、このアルゴリズムは、連続的および適応的タイムワーピングオペレーションにおいて、各部分を線形加速したり線形減速したりする。各部分をワープする目的は、修正残差信号内のスパイクが定間隔で分離され、それによってスパイクの位置を符号化するのに要するビットレートが減少し、RCELPと同様の目標を達成し、しかも欠点がないことを確認することにある。後述するように、再生される音声の品質の低下を回避するため、加速または遅延の程度が制限されている。
【0025】
添付の特許請求の範囲は本発明の特徴を詳細に記載しているが、本発明は、その目的および利点とともに、以下の詳細な説明と添付の図面から良く理解されるであろう。
【0026】
【発明の実施の形態】
本発明の一般的な側面については上述したが、好ましい実施形態の詳細について、以下にさらに詳しく述べることとする。図1を参照すると、本発明の一実施形態による改良された低ビットレートの符号器を実施するためのアーキテクチャを例示してある。このシステムは、すべてカスケードにつないだ、ディジタイザ121と、予測フィルタまたは逆合成フィルタ101と、線形連続残差修正モジュール103と、合成フィルタ105と、CELP符号器107などの符号器とを備える。
【0027】
予測フィルタ101は、デジタル化した音声信号109をディジタイザモジュール121から入力として受信する。どの音声をデジタル電気信号に変換するかについては様々な方法があり、当業者には周知である。したがって、このような技術については本明細書では詳細に論じないこととする。予測フィルタ101はまた、逆合成フィルタと呼ぶ場合があるが、LPC係数および入力信号に基づいて残差信号111を生成するよう動作可能である。逆フィルタおよび残差などの線形予測符号化コンセプトについては、当業者は精通されていることであろう。残差111は、残差修正モジュール103に入力され、以下に詳細に論じる方式で、その信号を修正残差113に変換する。修正残差113は、その後合成フィルタ105に入力され、再生音声信号115を生成する。残差修正モジュール103によって実施される残差修正技術によって、励起または修正残差113が残差111から変化しているにもかかわらず、修正音声信号115が元の信号109と非常に似た音を発する。その後、CELP符号器モジュール107が、当業者に良く理解されている方式で、修正音声信号を符号化し、伝送またはストアするために符号化したビット117のストリームを出力する。
【0028】
図1に示すモジュールのオペレーションを、図2および図3、図4を参照しながら、以下に詳細に記載する。特に、図2は、顕著なピッチピーク201を有する単純化された波形203、205、207、209、211を示す。図2に示すピークのシフトを、理解しやすいように誇張してあることに留意されたい。実際のシフト量を制限する必要があるが、このことについては後に論じる。図3および図4は、音声信号を符号化するため、本発明の一実施形態で実施するステップを示す流れ図である。ステップ301では、アナログ音声信号119がディジタイザ121によって受信される。ステップ303では、ディジタイザ121が、8kHzで信号をサンプリングし、そのサンプリングしたデジタル音声信号s(n)を得る。その後、ステップ305では、信号s(n)はディジタイザによって160サンプル(20ms)の長さのオーバーラップしていないフレームにグループ化され、そのそれぞれがさらに80サンプル(10ms)の長さの2つのオーバーラップしていないサブフレームに細別される。したがって、K番目のフレーム内の信号が、s(160k)...s(160k+159)によって与えられる。ステップ307で、フレームされサンプリングされた信号109が、ディジタイザ121からLPC抽出装置123に送られる。
【0029】
LPC抽出装置123は、当業者に周知の方式で入力信号に対応する線形予測係数を計算するよう動作する。特にステップ309では、LPC抽出装置123は、相関分析を実施しレビンソン−ダービン(Levinson−Durbin)アルゴリズムを実行することにより、各フレームのための一組の10次程度(tenth order)の線形予測係数を抽出する。K番目のフレームa(j)、j=1,...,10内の最適線形予測係数は、ステップ311で補間され、各サブフレーム内で一組のLP係数aks(j)、j=1,...,10を生成する。上式で、s=0、1は、それぞれ第1のサブフレーム、第2のサブフレームに対応する。この補間は、LP係数をラインスペクトル周波数(LSF)領域内に変換し、LSF領域へ線形補間し、その補間したサブフレームLSF係数をLP係数に変換し直すことによって実施できる。ステップ313では、サブフレームLP係数aksは、予測フィルタ101によって使用され、当業者に周知の方式で残差信号111を生成する。K番目のフレーム内の残差111は、r(n)、n=160k...160k+159で表される。
【0030】
残差信号111の顕著な特性を、図2に波形203で示す。特に、有声セグメントについては、大体周期的だが不規則に配置されているピークまたはスパイク201のシーケンスによって、残差203が優勢となっている。これらのスパイクは、通常有声音声の生成の過程中に、音域を励起する声門音の振動(pulses)を表す。隣接スパイク間の時間間隔は、ピッチ周期に等しい。人間の音声は、通常約2.5msから18.5msの間のピッチ周期を有する。スパイク間の間隔は普通一定ではなく、小さい不規則性またはジッタを示す。
【0031】
ステップ315から333では、残差修正モジュール103のオペレーションについて記載する。ステップ315では、残差修正モジュール103が残差信号111を受信し、現在のフレーム、つまりk番目のフレームの整数ピッチ周期を判断する。このピッチ周期は、当業界で周知の技術の中のいずれかによって判断できる。本実施形態において使用可能な1つの技術は、オープンループ内で相関分析を用いるものである。どのような方法を使用するにしても、ピッチが倍加(pitch doubling)するなどの望ましくないアーティファクトを避けるため、十分な注意を払う必要がある。
【0032】
ステップ317では、フレームピッチ周期のサンプル線形補間によるサンプリングを、以下のように実施する。
c′(n)=p(k)((n−160k)/160)+p(k−1)(1−(n−160k)/160),n=160k...160k+159
関数c′(n)は、フレームの開始点でのp(k−1)からフレームの終点でのp(k)までの直線として表される。これは、現在のフレーム内のすべてのサンプルに対する滑らかに変化するピッチ周期(浮動小数点)を表す。
【0033】
ステップ319では、関数c(n)は、c′(n)の各値を0.125に最も近い倍数に丸めることによって形成される。実際、c(n)は1/8の倍数であり、したがって8c(n)は8倍にオーバーサンプリングされた信号領域内の整数ピッチ周期である。本明細書では、c(n)を望ましいピッチ輪郭と呼ぶ。この理想化輪郭に一致するため残差を修正することによって生じた効率の良さには著しいものがある。例えば、このような輪郭を有するフレームのピッチ周期は、非常に少ないビット数を使用して伝送でき、また復号器がピッチ輪郭を導出するためピッチを使用することができ、次いで現在のフレームのためのピッチスパイクの場所を推定するために、前のフレームからのスパイクの場所とともにピッチ輪郭を使用することができる。
【0034】
つぎのプロセスは、復号器を模倣して、前のフレームのピッチ輪郭および修正残差に基づいて現在のフレーム残差内でスパイクの場所の再構築を試みることである。実際の復号器は、通常前のフレームの修正残差についての情報にアクセスしないが、前のフレームを再構築するために使用される励起信号にアクセスする。したがって、特定のフレームの励起信号内のスパイクが、そのフレームの修正残差内のスパイクと位置を合わせるので、前の励起信号には復号器を使用し、前の修正残差には符号器を使用することが問題とはならない。
【0035】
現在のフレーム内のスパイクの位置を予測するために、残差修正モジュール103が、ピッチ輪郭を使ってステップ321内にある前のフレームの修正残差を遅らせ、修正のためのターゲット信号r(n)を生成する。例示したr(n)の波形が、図2の要素211に示してある。このタイムワーピング関数は、ピッチ輪郭c(n)が0.125の倍数であるため、切り捨てsinc(x)インパルス応答および90%通過帯域を有する標準補間フィルタを使用して、8倍オーバーサンプリングした領域内で動作する。特に、8倍オーバーサンプリングは、前のフレーム内の修正残差r′(n)の補間されたサンプルを得るため用いられ、以下のようなオーバーサンプリングした信号に到達する。
r″(n0.125),n=160(k−1)...160(k−1)+1279
r″のサンプルインデックスは0.125の倍数であり、オーバーサンプリングした状態を表している。次いで、ターゲット信号r(n)を得るため、以下のように遅延線オペレーションを実行する。
(n0.125)=rd(n0.125)n=160(k−1)...160(k−1)+1279
(n0.125)=r(n0.125−C(INT(n0.125))),n=160k...160k+1279
(n)=r(n),n=160k...160k+159
上式で、INT(x)は、x、浮動小数点数に最も近い整数を表し、r()は、中間信号を表す。
【0036】
復号器が、前のフレームの励起信号上で同じ遅延線オペレーションを実行することに留意されたい。
【0037】
ターゲット信号211内に表されている理想化ピッチスパイクの場所を計算した後、符号器は次いで、実際の残差内のスパイクを、r(n)内のスパイクと一致させるため再配置できる。最初にステップ323で、残差修正モジュール103が、未修正残差信号203を分析し、低エネルギ領域によって取り囲まれている1つの顕著なピークを有する信号の明確なセグメントを確認する。図2の要素205に、結果として生じる波形が例示してある。セグメントに分割された、信号の部分間には隙間のないことが好ましい。言い換えれば、要素205の部分どうしがこの段階で再び一列に繋がる場合、その結果未修正残差203が生じる。好ましくは、この残差203は知覚的に見て目立たない程度に低いエネルギ点でのみカットされる。次いでステップ325で、符号器がターゲット信号の1セクションを未修正残差の適切な部分に関連付ける。
【0038】
ステップ327で、最適なワーピング関数を用いた修正によって、残差203のセグメント内の顕著なスパイクまたはピークが、ターゲット信号211の関連セクション内の顕著なスパイクまたはピークに位置合わせするよう、残差修正モジュール103が、未修正残差の確認されたセクションのための最適ワーピング関数を計算する。図5を参照すると、残差の各セクションのための最適ワーピング関数を計算するためにとったステップが例として示してある。特に図5は、残差信号203と修正残差209間のサンプル毎の遅延を表すラグ(lag)輪郭l(n)の導出を示す。量l(n)は、修正残差サンプルr′(m)がオーバーサンプリングされた領域内でl(m)によって遅延される残差信号サンプルと等しくなるような、0.125の倍数である。つまり、
r′(m)=r″(m−l(m))
最適ワープ輪郭を見つけ出す場合の問題は、最適ラグ輪郭l(n)を見つけ出す問題に減じる。
【0039】
ステップ401では、現在の当該セクションの一番最初のサンプル用のラグlが、前のセクションの一番最後のサンプル用のラグと等しいように設定され、現在のセクションの最後のサンプルのラグl用の一組の候補が確認される。特に、最後のサンプルのラグl用の一組の2K+1候補が、{l−K,l−K+1,...l+K}などの候補範囲内で確認される。Kの値は、使用可能な計算能力、音声サンプルの周期性、lの値などのパラメータに基づいて選択される。Kの典型的な値は、0、1、2、3、または4である。上記の方程式で示す候補範囲はlの周りに対称的に入っているが、必ずしもこのようである必要はない。
【0040】
残差の少量シフトセクションが、再生された信号の知覚品質に悪影響を与えることはないが、シフト量が大きい場合は知覚的に悪影響となる可能性がある。したがって、前のセクションまたは部分がシフトした結果、累積されたシフトを含む3つの元の(オーバーサンプリングされていない)サンプル増分など、少量だけサンプルがシフトするように量を制限することが望ましい。したがって、2つのサンプル位置の均等物によって、前の部分内の最後のサンプルが遅延した場合は、次いで現在の部分の最後のサンプルは、1つのサンプル位置の均等物を越えてさらに遅延してはならない。さもないと、全シフト量が元の場所から3つのサンプル位置を越えることとなる。この問題点に対する解決法は、シフトが望ましい範囲を越えないようにKの値を制限するか、または候補の非対称範囲を使用するかのどちらかである。したがって、上記の例においては、1つのサンプルを越える遅延は禁じられているが、非対称的に分布している候補ラグ値が使われている場合は、5つのサンプル位置の加速が認められる。
【0041】
可能性のあるすべてのラグ候補を評価するのに必要な計算能力が押さえられているため、候補の組内には可能性のあるすべてのラグ候補よりも少数のラグ候補しかないことに留意されたい。逆に、現在のセクション内の最後のサンプル用に可能なラグ値のサブセットのみが候補として使用される。候補範囲外のラグ値はこの組内に含まれておらず、また候補ラグ値間にある値も同様である。したがって、最後のサンプル用の最適ラグ値(および結果として生じるラグ輪郭)が、候補の組自体内に含まれてもいない可能性があるが、候補範囲内に入っていることが好ましい。
【0042】
次いで、ステップ403では、一組の2K+1候補ラグ輪郭を生成するため、符号器が、ステップ401で確認した各候補ラグ値用の現在のセクションの最初と最後のサンプル間の線形補間を実施する。候補ラグ輪郭は、最初と最後の値がそれぞれ1、lである線形関数を表している。ここで、lとは候補値である。ステップ405では、一組の2K+1候補修正残差を得るために、各候補ラグ輪郭が残差信号に適用され、ターゲット信号r(n)211と各候補修正残差の間の相関が、ステップ407で計算される。
【0043】
ステップ409では、相関強度が最後のサンプルラグ値に応じて二次方程式でモデル化され、最後のサンプル用の最適ラグ値が得られる。特に、各候補修正残差用の相関強度が、図6のグラフ内のプロット点で示すように、関連する最後のサンプルラグ値候補に応じてプロットされる。次いで、そのプロット点が組に分割され、それぞれの組は3点から構成される。隣接する組間に1点のオーバーラップがある。したがって、2K+1プロット点はこのようにKに分割され、それぞれ3点の組とオーバーラップする。例えば、7点については3組となる。3つの連続するプロット点の各組は、二次関数に従ってモデル化される。例えば図6では、3つの二次モデリング関数が501、503、505として例示してある。関連する3点の最初から最後までの範囲内の各二次関数の最大が得られ、次いでセクション全体の最大が計算される。したがって、正の二次関数、すなわち上向きにくぼんだところ、および点の単調構成については、最大相関値が終点の1つに位置する。一般に、所与の3点の組の最大が必ずしもこの3点のいずれかに位置するとは限らないが、この間のどこかに位置することが多いことに留意されたい。したがって、セクション全体のための最適ラグ値は、ラグl用の候補の組内に入っていない値である可能性がある。
【0044】
図6のプロットは、本発明の一実施形態によるステップをグラフで示すため使用しているが、本明細書で使用する用語、「プロット」または「プロッティング」では、具体的または目に見えるグラフを作成する必要はない。逆に、これらの用語は、単に量と量との間の関連の創出を暗黙に定義するにすぎない。黙示的なものとしては、使用されている軸が、図6に示す量に対するそれぞれ異なるパラメータであり、明示的なおよび実際のものとしては、グラフィカルプログラムデータ構造の中にあり、また仮想的なものとしては、適切な関係が導出できるメモリ内の一組の数の中にある。したがって、たとえこのような関係が明確であろうとも、これらの用語は、単に表示した量と量との間の関係の創出を表わすにすぎない。
【0045】
現在の相関プロット用のすべての二次方程式の最大は、適切な二次方程式を用いた最後のサンプル用のラグ値に関連付けられており、この値が最適な最後のサンプルラグ値である。点の組をモデル化するために二次関数を使用したり、3点を使用したりする必要はない。例えば、これらの組は3点を超える量を含むことができ、モデリング関数は、受容可能な複雑さのレベルに応じて、どの程度の多項式にもなる可能性がある。点の単調シーケンスについては、一番高い終点が簡単に判断でき、シーケンスの最大を表すため、そのシーケンスを多項式などでモデル化する必要はないことにも留意されたい。
【0046】
現在の顕著なピーク含有セクションまたはセグメントの最後のサンプル用の最適ラグ値を判断した後、残差修正モジュール103が、ステップ411で、lからステップ409で計算した最適lまでのセクション全体を線形に補間することによって、対応するラグ輪郭を導出する。図4のステップ329では、図5のステップ411で計算されたラグ輪郭が、上記のように残差に適用される。すなわち、r′(n)=r″(n−l(n))。
【0047】
最後に、ステップ331では、現在のフレーム内に分析しシフトすべき部分がこれ以上ないかどうか判断する。もしあれば、オペレーションのフローがステップ325に戻る。そうでない場合は、現在のフレームのためのプロセスは、ステップ333で終了する。図2の要素207には、修正残差209のワープされたセクションが、理解しやすいように別に示してある。波形209として示した修正残差113は、最後に合成フィルタ105への入力として設けられ、元の音声信号の再生を行う。この再生はジッタのあるピッチピークよりむしろ規則的なピッチピークを有する。この観点から、信号は、通常のCELPなどの技術を使用して処理される。しかし、ピッチ構造の周期性が増すため、未修正信号を符号化するのに必要なビットレートと比べて、信号を符号化するのに必要なビットレートが大幅に減少する。
【0048】
フレームを処理した後、後続するフレームに対して処理が開始される。無声のセグメントの場合は、通常ピッチピークがなく、したがって本明細書に記載した方法を適用する必要はない。無声の間隔の間は、アルゴリズム内のすべての量がリセットされる。例えば、累積シフトの表示がゼロにリセットされる。有声の通話が開始されたら、最初の有声フレームkは、前のフレームのピッチ値、p(k−1)がこのフレーム内で知られていないため、特別なケースとして扱われる。この特別フレームkのピッチ輪郭は、フレームのピッチ値、p(k)に等しい一定の関数に設定される。この手順のこれ以降の部分は、規則的なフレームのものと同様である。
【0049】
現在のフレーム内の音声信号の所与のセクションまたは部分用の最適ラグ値lおよび関連ラグ輪郭を計算するために、多項式モデリング以外の方法も本発明に使用できることに留意されたい。可能なラグ値の実質的なサブセット、例えば可能性のあるすべてのラグ値の半分が相関値を生成するために使用されることが本発明には重要なことである。なぜなら、このことによって、最適ラグ輪郭を見つけ出すのに要する計算コストが大幅に減少するからである。したがって、すべての、または大部分の可能なラグ値を試みることなく、最適ラグ値を見つけ出すのに、二分法などの代替技術を使用することができる。二分法技術では、2つのラグ候補値およびそれらの関連相関強度を確認する必要がある。より高い相関を有するラグ候補および2つのラグ値間にある新しいラグ候補が、二分法プロセスを繰り返すための終点として使用される。このプロセスは、所定の回数を繰り返した後、または所定の閾値を越える相関強度を有するラグ値が見つかった時に、終了することができる。
【0050】
本明細書に記載した方法によって生じる連続線形ワープ輪郭が、図7に示してある。特に、連続線形ワープ輪郭601は黒い実線で示してあり、また従来の技術RCELP技術で使用される不連続輪郭603は破線で示してある。両輪郭とも、元の時間(ワープ前)対修正時間(ワープ後)に応じてプロットされた信号サンプルのための点の組に沿って引いた線で表す。したがって、輪郭601内の各直線セグメントおよび輪郭603の各個々の部分は、それぞれの技術に従ってワープされた元の残差のセクションを表す。RCELP技術では、よくセクションが削除されたりオーバーラップすることが分かる。一方、本発明の連続線形ワープ輪郭では、オーバーラップや削除は起こらない。逆に、連続線形ワープ輪郭601は、傾斜の点で不連続を含むが、位置の点では単なる区分的な連続ではない連続である。特に、領域605は、ワープ輪郭603の2つの部分によって占有されているが、セクション607は同じ輪郭についてのデータを有さない。一方、信号スペース全体は、本発明による輪郭601によってオーバーラップや削除もなく占有されている。
【0051】
隣接セグメント用のワープ輪郭601は、各セグメントに必要な加速または減速に応じて、同じ傾斜または異なる傾斜を有する可能性があることに留意されたい。これと対称的に、RCELP輪郭603の各セクションの傾斜は、一定である。これは、RCELPは信号のセクションをシフトするが、各セクション内の時間変換係数(time scale)を変化させないことによる。したがって、本発明による方法は、セクションエッジで望ましくない時間変換係数の不連続を生成することなく、各セクションのピークが望ましい場所にシフトするように、線形連続方式で各セクション内で時間変換係数をワープすることが分かる。
【0052】
必ずしも必要ではないが、コンピュータで実行するプログラム「モジュール」などの命令を使用して、本発明を実施することができる。一般に、プログラムモジュールは、特定のタスクを実行しまたは特定の抽象データタイプを実施するルーチン、オブジェクト、構成要素、データ構造などを含む。プログラムは、1つ以上のプログラムモジュールを含むことができる。
【0053】
本発明は、セル式電話、パーソナルコンピュータ(PC)、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベースのプログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータなどを含む様々なタイプの機械、または本明細書に記載したように音声信号を符号化または復号化し、信号をストア、検索、送信、受信するために使用できるその他の機械で実施できる。本発明は、タスクが、通信ネットワークを通してリンクされている遠隔構成要素によって実行される、分散型コンピューティングシステム内で用いることができる。
【0054】
図8に、本発明の一実施形態を実施するためのシステムを例として示すが、これには、コンピュータ装置700などのコンピュータ装置が含まれる。最も基本的な構成では、コンピュータ装置700は、通常少なくとも1つの処理ユニット702およびメモリ704を備える。コンピュータ装置の正確な構成およびタイプによって、メモリ704は、(RAMなどの)揮発性、(ROM、フラッシュメモリなどの)不揮発性、またはこれら2つの組み合わせとなる。この最も基本的な構成は、図8の線706内に示す。さらに、コンピュータ装置700には、追加の特徴/機能も有することができる。例えば、コンピュータ装置700に、磁気または光のディスクやテープを含む追加記憶装置(取外し可能および/または取外し不可能)も備えることができるが、必ずしもこれに限定されるものではない。このような追加記憶装置は、図8に取外し可能記憶装置708および取外し不可能記憶装置710で示してある。コンピュータの記憶媒体は、コンピュータ読み取り可能命令、データ構造、プログラムモジュール、その他のデータなどの情報をストアするための方法または技術で実施される、揮発性および不揮発性、取外し可能および取外し不可能な媒体を含む。メモリ704、取外し可能記憶装置708および取外し不可能記憶装置710は、すべてコンピュータの記憶媒体の例である。コンピュータの記憶媒体は、所望の情報をストアするのに使用しコンピュータ装置700からアクセス可能な、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CDROM、デジタル多目的ディスク(DVD)またはその他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶装置、またはその他の媒体を含むが、これらに限定されるものではない。このようなコンピュータの記憶媒体のどれもが、コンピュータ装置700の一部となり得る。
【0055】
コンピュータ装置700はまた、他のコンピュータ装置と通信するための1つ以上の通信接続712も備える。通信接続712は、通信媒体の例である。通信媒体は、通常搬送波やその他の転送メカニズムなどの被変調データ信号内のコンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを実行し、情報配信媒体を含む。用語「被変調データ信号」とは、信号内で情報を符号化する方式で設定または変更した1つ以上の特性を有する信号である。通信媒体は、ワイヤードネットワークや直接ワイヤード接続などのワイヤード媒体、および音響、RF、赤外線などのワイヤレス媒体を含むが、これらは例として示したものにすぎず、限定的なものではない。上述したように、本明細書に使用する用語、コンピュータ可読媒体は、記憶媒体および通信媒体の両方を含む。
【0056】
コンピュータ装置700は、キーボード、マウス、ペン、音声入力装置、タッチ入力装置などの、1つ以上の入力装置714も含む。ディスプレイ、スピーカ、プリンタなどの、1つ以上の出力装置716も含まれる。これらすべての装置は当業界には周知のものであり、本明細書で詳細に論じる必要はない。
【0057】
本発明の原理を適用することのできる多くの実施形態について、図面に示した本明細書に記載する実施形態は、例示の目的で記載してあるのにすぎず、本発明の範囲を限定するものと解釈されるべきではない。例えば、ソフトウェア内に例として示した実施形態の要素はハードウェア内でも実施でき、またその逆も同様であり、あるいは例示した実施形態は、本発明の趣旨から逸脱することなく、配置上のおよび細部の修正が可能であることを、当業者なら理解されるであろう。したがって、本明細書に記載した本発明は、以下の請求項およびその均等物の範囲内に含めることのできる、すべてのこのような実施形態を予想するものである。
【図面の簡単な説明】
【図1】本発明の一実施形態を実施できる符号器の一例を示す構造図である。
【図2】本発明の一実施形態における信号のセグメンテーション、タイムワーピング、再構築を示す波形略図である。
【図3】本発明の一実施形態における信号の修正を行うためのステップを示す流れ図である。
【図4】本発明の一実施形態における信号の修正を行うためのステップを示す流れ図である。
【図5】本発明の一実施形態における最適ラグ輪郭を計算するためのステップを示す流れ図である。
【図6】最適な最後のサンプルラグを確認するため本発明の一実施形態において使用する最後のサンプルラグ値に応じて、相関強度のプロッティングを示す概略特性図である。
【図7】従来の技術に従って、および本発明の一実施形態に従って、ワープ輪郭を示す特性図である。
【図8】本発明の一実施形態を実施できるコンピュータ装置の概略図である。
【符号の説明】
101 予測フィルタまたは逆合成フィルタ
103 残差修正モジュール
105 合成フィルタ
107 CELP符号器
109 音声信号
111 残差信号
113 修正残差
115 修正音声信号
117 符号化したビット
119 アナログ音声信号
121 ディジタイザ
123 LPC抽出装置
201 ピーク
203、205、207、209、211 波形
501、503、505 モデリング関数
601 連続輪郭
603 不連続輪郭
605 領域
607 セクション
700 コンピュータ装置
702 処理ユニット
704 メモリ
708 取外し可能記憶装置
710 取外し不能記憶装置
712 通信接続
714 入力装置
716 出力装置

Claims (22)

  1. デジタル音声信号のフレームを圧縮するための準備処理をする方法であって、
    該フレームについての線形予測残差であって不規則な間隔で配置された顕著なピークを有する残差を生成するステップと、
    オーバーラップしないで連続する一連のセクションであって各セクションが1つ以下の顕著なピークを含む一連のセクションに、前記残差を分割するステップと、
    一連の顕著なピークが、連続する一連のセクションにおいて規則的な間隔で配置されて成る理想化信号を導出するステップと、
    前記残差の各セクションを、該理想化信号の対応するセクションと関連付けるステップと、
    各残差セクションについての線形連続ワープ輪郭を、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブレンジ内で、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブセットに基づいて、該ワープ輪郭に空間ジャンプまたは不連続がないように計算するステップと、
    前記計算されたワープ輪郭を前記残差の前記セクションに適用して、各残差セクション内のいかなる顕著なピークも前記理想化信号の前記対応するセクションにおける前記顕著なピークと揃うように前記残差を修正し、それによって該修正残差の顕著なピッチピークが規則的な間隔で配置され、該修正残差において前記残差のいかなるセクションの部分も削除されたり繰り返されたりしないステップ
    とを含むことを特徴とする方法。
  2. 前記生成するステップはさらに、
    前記フレームについての線形予測係数を抽出するステップと、
    前記フレームについての前記線形予測係数を補間して、前記フレームの複数のサブフレームについて線形予測係数を生成するステップと、
    各サブフレームについて予測残差を生成し、それによって前記フレームについての前記予測残差が一組のサブフレーム予測残差を有するステップとを含むことを特徴とする請求項1に記載の方法。
  3. 前記分割するステップはさらに、前記フレームを分析して整数ピッチ周期を確認するステップを含むことを特徴とする請求項1に記載の方法。
  4. 前記確認するステップはさらに、オープンループ内で相関分析を使用するステップを含むことを特徴とする請求項3に記載の方法。
  5. 前記計算するステップはさらに、
    前記残差セクションの最初のサンプルについて最初のサンプルラグを確立するステップと、
    前記残差セクションの最後のサンプルについて最後のサンプルラグの一組の候補を確認するステップであって、該一組の候補が、最後になる可能性のあるすべてのサンプルラグ値のサブレンジ内で、最後になる可能性のあるすべてのサンプルラグ値のサブセットからなるステップと、
    各候補の最後のサンプルラグについての前記残差セクションの最初と最後のサンプル間の線形補間を実行し、一組の候補ラグ輪郭を生成するステップと、
    各候補ラグ輪郭を前記残差セクションに適用して、一組の候補修正残差を得るステップと、
    各候補修正残差と前記理想化信号の前記対応するセクション間の相関強度を計算して、一組の相関強度を生成するステップと、
    該一組の相関強度に基づいて前記残差セクションについて最適な最後のサンプルラグを導出するステップと、
    最初のサンプルラグから前記残差セクションについて導出された最適な最後のサンプルラグまでのセクション全体を線形補間することで、線形連続ワープ輪郭を導出するステップとを含むことを特徴とする請求項1に記載の方法。
  6. 前記線形連続ワープ輪郭を導出するステップはさらに、
    前記強度を導出するために使用される前記最後のサンプルラグに応じて、前記一組の相関強度をオーバーラップするサブセクションに分離するステップと、
    各サブセクションを曲線として表すステップと、
    各曲線の最大値であって、前記サブセクション内で前記強度を導出するために使用される前記最後のサンプルラグを含む可能なラグ値の範囲内で可能性のあるすべてのラグ値からなるグループから選択可能である前記最大値を計算するステップと、
    前記サブセクションの前記曲線ついての前記最大値に基づいて前記セクションについて前記最大相関強度を計算するステップとを含むことを特徴とする請求項5に記載の方法。
  7. 前記曲線は多項式であることを特徴とする請求項6に記載の方法。
  8. 前記多項式は二次関数であることを特徴とする請求項7に記載の方法。
  9. 計算されたワープ輪郭の適用時に前記セクション内のいかなるサンプルの最大累積シフトも4つのサンプル位置未満であるように、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブレンジが選択されることを特徴とする請求項1に記載の方法。
  10. デジタル音声信号のフレームを圧縮するために準備処理をする方法を実行するためのコンピュータ可読命令を有するコンピュータ可読媒体であって、
    該フレームについての線形予測残差であって不規則な間隔で配置された顕著なピークを有する残差を生成するステップと、
    オーバーラップしないで連続する一連のセクションであって各セクションが1つ以下の顕著なピークを含む一連のセクションに、前記残差を分割するステップと、
    一連の顕著なピークが、連続する一連のセクションにおいて規則的な間隔で配置されて成る理想化信号を導出するステップと、
    前記残差の各セクションを、該理想化信号の対応するセクションと関連付けるステップと、
    各残差セクションについての線形連続ワープ輪郭を、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブレンジ内で、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブセットに基づいて、該ワープ輪郭に空間ジャンプまたは不連続がないように計算するステップと、
    前記計算されたワープ輪郭を前記残差の前記セクションに適用して、各残差セクション内のいかなる顕著なピークも前記理想化信号の前記対応するセクションにおける前記顕著なピークと揃うように前記残差を修正し、それによって該修正残差の顕著なピッチピークが規則的な間隔で配置され、該修正残差において前記残差のいかなるセクションの部分も削除されたり繰り返されたりしないステップ
    を含むことを特徴とするコンピュータ可読媒体。
  11. 前記生成するステップはさらに、
    前記フレームについての線形予測係数を抽出するステップと、
    前記フレームについての前記線形予測係数を補間して、前記フレームの複数のサブフレームについて線形予測係数を生成するステップと、
    各サブフレームについて予測残差を生成し、それによって前記フレームについての前記予測残差が一組のサブフレーム予測残差を有するステップとを含むことを特徴とする請求項10に記載のコンピュータ可読媒体。
  12. 前記分割するステップはさらに、前記フレームを分析して整数ピッチ周期を確認するステップを含むことを特徴とする請求項10に記載のコンピュータ可読媒体。
  13. 前記確認するステップはさらに、オープンループ内で相関分析を使用するステップを含むことを特徴とする請求項12に記載のコンピュータ可読媒体。
  14. 前記計算するステップはさらに、
    前記残差セクションの最初のサンプルについて最初のサンプルラグを確立するステップと、
    前記残差セクションの最後のサンプルについて最後のサンプルラグの一組の候補を確認するステップであって、該一組の候補が、最後になる可能性のあるすべてのサンプルラグ値のサブレンジ内で、最後になる可能性のあるすべてのサンプルラグ値のサブセットからなるステップと、
    各候補の最後のサンプルラグについての前記残差セクションの最初と最後のサンプル間の線形補間を実行し、一組の候補ラグ輪郭を生成するステップと、
    各候補ラグ輪郭を前記残差セクションに適用して、一組の候補修正残差を得るステップと、
    各候補修正残差と前記理想化信号の前記対応するセクション間の相関強度を計算して、一組の相関強度を生成するステップと、
    該一組の相関強度に基づいて前記残差セクションについて最適な最後のサンプルラグを導出するステップと、
    最初のサンプルラグから前記残差セクションについて導出された最適な最後のサンプルラグまでのセクション全体を線形補間することで、線形連続ワープ輪郭を導出するステップとを含むことを特徴とする請求項10に記載のコンピュータ可読媒体。
  15. 前記線形連続ワープ輪郭を導出するステップはさらに、
    前記強度を導出するために使用される前記最後のサンプルラグに応じて、前記一組の相関強度をオーバーラップするサブセクションに分離するステップと、
    各サブセクションを曲線として表すステップと、
    各曲線の最大値であって、前記サブセクション内で前記強度を導出するために使用される前記最後のサンプルラグを含む可能なラグ値の範囲内で可能性のあるすべてのラグ値からなるグループから選択可能である前記最大値を計算するステップと、
    前記サブセクションの前記曲線ついての前記最大値に基づいて前記セクションについて前記最大相関強度を計算するステップとを含むことを特徴とする請求項14に記載のコンピュータ可読媒体。
  16. 前記曲線は多項式であることを特徴とする請求項15に記載のコンピュータ可読媒体。
  17. 前記多項式は二次関数であることを特徴とする請求項16に記載のコンピュータ可読媒体。
  18. 計算されたワープ輪郭の適用時に前記セクション内のいかなるサンプルの最大累積シフトも4つのサンプル位置未満であるように、各残差セクションについて最後になる可能性のあるサンプルラグ値のサブレンジが選択されることを特徴とする請求項10に記載のコンピュータ可読媒体。
  19. 磁気的に読取り可能なディスク媒体を含むことを特徴とする請求項10に記載のコンピュータ可読媒体。
  20. 光学的に読取り可能なディスク媒体を含むことを特徴とする請求項10に記載のコンピュータ可読媒体。
  21. 被変調データ信号を有することを特徴とする請求項10に記載のコンピュータ可読媒体。
  22. 揮発性のコンピュータ読取り可能なストレージを含むことを特徴とする請求項10に記載のコンピュータ可読媒体。
JP2002186971A 2001-06-29 2002-06-26 低ビットレートcelp符号化のための連続タイムワーピングに基づく信号の修正 Expired - Fee Related JP4162933B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/896,272 2001-06-29
US09/896,272 US6879955B2 (en) 2001-06-29 2001-06-29 Signal modification based on continuous time warping for low bit rate CELP coding

Publications (3)

Publication Number Publication Date
JP2003122400A JP2003122400A (ja) 2003-04-25
JP2003122400A5 JP2003122400A5 (ja) 2006-12-28
JP4162933B2 true JP4162933B2 (ja) 2008-10-08

Family

ID=25405930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002186971A Expired - Fee Related JP4162933B2 (ja) 2001-06-29 2002-06-26 低ビットレートcelp符号化のための連続タイムワーピングに基づく信号の修正

Country Status (5)

Country Link
US (2) US6879955B2 (ja)
EP (1) EP1271471B1 (ja)
JP (1) JP4162933B2 (ja)
AT (1) ATE393447T1 (ja)
DE (1) DE60226200T2 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US8605911B2 (en) 2001-07-10 2013-12-10 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US7469206B2 (en) 2001-11-29 2008-12-23 Coding Technologies Ab Methods for improving high frequency reconstruction
SE0202770D0 (sv) * 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
WO2006107838A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Systems, methods, and apparatus for highband time warping
PT1875463T (pt) * 2005-04-22 2019-01-24 Qualcomm Inc Sistemas, métodos e aparelho para nivelamento de fator de ganho
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
JP4380669B2 (ja) * 2006-08-07 2009-12-09 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US20090271196A1 (en) * 2007-10-24 2009-10-29 Red Shift Company, Llc Classifying portions of a signal representing speech
EP2077551B1 (en) 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ES2654433T3 (es) * 2008-07-11 2018-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de señal de audio, método para codificar una señal de audio y programa informático
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
CN105304090B (zh) 2011-02-14 2019-04-09 弗劳恩霍夫应用研究促进协会 使用对齐的前瞻部分将音频信号编码及解码的装置与方法
RU2560788C2 (ru) 2011-02-14 2015-08-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обработки декодированного аудиосигнала в спектральной области
TWI480857B (zh) 2011-02-14 2015-04-11 Fraunhofer Ges Forschung 在不活動階段期間利用雜訊合成之音訊編解碼器
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
SG185519A1 (en) * 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
JP5800915B2 (ja) 2011-02-14 2015-10-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号のトラックのパルス位置の符号化および復号化
JP5849106B2 (ja) 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
CA2915437C (en) 2013-06-21 2017-11-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
US9985815B2 (en) * 2016-08-25 2018-05-29 Intel IP Corporation Signal processing chain switching
CN112951209B (zh) * 2021-01-27 2023-12-01 中国科学技术大学 一种语音识别方法、装置、设备及计算机可读存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
JPS6295599A (ja) 1985-10-23 1987-05-02 株式会社リコー 残差駆動型音声合成方式
JPS62189833A (ja) * 1986-02-17 1987-08-19 Hitachi Ltd 音声符号化復号化装置
CA1337217C (en) * 1987-08-28 1995-10-03 Daniel Kenneth Freeman Speech coding
JPH0782359B2 (ja) * 1989-04-21 1995-09-06 三菱電機株式会社 音声符号化装置、音声復号化装置及び音声符号化・復号化装置
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
JP3199142B2 (ja) 1993-09-22 2001-08-13 日本電信電話株式会社 音声の励振信号符号化方法および装置
JPH07160299A (ja) * 1993-12-06 1995-06-23 Hitachi Denshi Ltd 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5648989A (en) * 1994-12-21 1997-07-15 Paradyne Corporation Linear prediction filter coefficient quantizer and filter set
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP3531780B2 (ja) 1996-11-15 2004-05-31 日本電信電話株式会社 音声符号化方法および復号化方法
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
JP3296411B2 (ja) 1997-02-21 2002-07-02 日本電信電話株式会社 音声符号化方法および復号化方法
GB9718026D0 (en) * 1997-08-27 1997-10-29 Secr Defence Multi-component signal detection system
US5963897A (en) * 1998-02-27 1999-10-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for hybrid excited linear prediction speech encoding
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6113653A (en) * 1998-09-11 2000-09-05 Motorola, Inc. Method and apparatus for coding an information signal using delay contour adjustment
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6223151B1 (en) * 1999-02-10 2001-04-24 Telefon Aktie Bolaget Lm Ericsson Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders
US6732070B1 (en) * 2000-02-16 2004-05-04 Nokia Mobile Phones, Ltd. Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching

Also Published As

Publication number Publication date
US7228272B2 (en) 2007-06-05
DE60226200T2 (de) 2009-05-14
US6879955B2 (en) 2005-04-12
ATE393447T1 (de) 2008-05-15
EP1271471B1 (en) 2008-04-23
EP1271471A3 (en) 2004-01-28
JP2003122400A (ja) 2003-04-25
US20030004718A1 (en) 2003-01-02
US20050131681A1 (en) 2005-06-16
DE60226200D1 (de) 2008-06-05
EP1271471A2 (en) 2003-01-02

Similar Documents

Publication Publication Date Title
JP4162933B2 (ja) 低ビットレートcelp符号化のための連続タイムワーピングに基づく信号の修正
RU2407071C2 (ru) Способ генерации кадров маскирования в системе связи
EP1886307B1 (en) Robust decoder
RU2486484C2 (ru) Вычислитель контура временной деформации, кодера аудиосигнала, кодированное представление аудиосигнала, способы и программное обеспечение
US11282530B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
US6658383B2 (en) Method for coding speech and music signals
KR101046982B1 (ko) 전대역 오디오 파형의 외삽법에 기초한 부분대역 예측코딩에 대한 패킷 손실 은닉 기법
MX2007011102A (es) Tramas que distorsionan el tiempo dentro del vocoder modificando el residuo.
JP2008533530A (ja) ボコーダにおけるフレームの位相整合のための方法および装置
JP4970046B2 (ja) ディジタル信号圧縮のためのコーディングのために用いられるマルチパルス・ディクショナリのインデクス間のトランスコーディング
KR20220045260A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
US6535847B1 (en) Audio signal processing
EP0987680B1 (en) Audio signal processing
JP4007730B2 (ja) 音声符号化装置、音声符号化方法および音声符号化アルゴリズムを記録したコンピュータ読み取り可能な記録媒体
Sriratanaban Improved excitation techniques for fixed and variable rate CELP-based speech coding
KR19980035867A (ko) 음성 데이터 부호화/복호화장치 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050613

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061115

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20061115

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20061211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070315

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080624

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080723

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120801

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130801

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees