JP6084595B2

JP6084595B2 - 音声信号のタイムワープ処理改良変換符号化

Info

Publication number: JP6084595B2
Application number: JP2014182138A
Authority: JP
Inventors: ラルスヴィレモエス
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2005-11-03
Filing date: 2014-09-08
Publication date: 2017-02-22
Anticipated expiration: 2026-10-24
Also published as: CN102592602A; PL1807825T3; WO2007051548A1; JP2013210654A; CN101351840A; EP3319086B1; HK1105159A1; DK1807825T3; TWI320172B; HK1254427A1; EP2306455A1; EP3319086A1; JP6125324B2; EP3852103A1; US20100204998A1; ES2967257T3; KR100959701B1; TW200719319A; KR20080066760A; JP2009515207A

Description

本発明は、音声ソース符号化システムに関し、特に、ブロック・ベースの変換を用いた音声符号化スキームに関する。

当該分野では音声および映像コンテントを符号化するいくつかのやり方が知られている。一般に、確かに、ほとんどは信号の再生品質を低下させることなく、ビット節約的方法でコンテントを符号化することが狙いである。

近年、音声および映像コンテントを符号化する新しいアプローチが開発されてきているが、その中で、変換ベースの知覚音声符号化（ｔｒａｎｓｆｏｒｍ−ｂａｓｅｄｐｅｒｃｅｐｔｕａｌａｕｄｉｏｃｏｄｉｎｇ）は、定常信号に対して最大の符号化利得を実現しており、大きな変換サイズの場合にこれを適用することができる。（例えば、Ｔ．ペインタ（Ｐａｉｎｔｅｒ）およびＡ．スパニアス（Ｓｐａｎｉａｓ）の「デジタル音声の知覚符号化（Ｐｅｒｃｅｐｔｕａｌｃｏｄｉｎｇｏｆｄｉｇｉｔａｌａｕｄｉｏ）」、ＩＥＥＥのプロシーディング、第８８巻、第４号、２０００年４月、第４５１〜５１３頁を参照）。多くの場合、音声の定常部分は、固定有限数の定常正弦波でうまくモデルされる。変換サイズがその成分を分解するために十分大きい場合には、所与のひずみ目標に応じて一定数のビットが必要となる。さらに、変換サイズを大きくすることによって、ビットを増やす必要なく、ますます音声信号の大きなセグメントが表される。しかしながら、非定常信号に対しては、変換サイズを縮小することが必要となり、したがって符号化利得が急速に低減することになる。この問題を克服するために、急激な変化および過渡的事象に対しては、符号化の平均コストを大きく増加させることなく変換サイズ切替えを適用することができる。すなわち、過渡的事象が検知された場合、一緒に符号化されるサンプルのブロック・サイズ（フレーム・サイズ）が低減される。もっと持続性のある過渡的信号に対しては、当然ながらビットレートは飛躍的に増大する。

持続性のある過渡的挙動の特に興味深い例は、局所的高調波信号のピッチ変動であり、これは、主にスピーチおよび歌唱の有声部分に生ずるが、一部の楽器の振動およびグリッサンドから発生することもある。高調波信号とは、すなわち時間軸に沿って等しい間隔で分布する信号ピークを有する信号であるので、ピッチという用語はその信号の隣接するピークの間の時間の逆数を表す。したがって、そのような信号は、完全な高調波スペクトルを有し、ピッチに等しい基本周波数およびより高次の高調波からなる。もっと一般的な言い方をすれば、ピッチは、局所的な高調波信号内の隣り合って対応する２つの信号部分の間の時間の逆数として定義することができる。しかしながら、有声音の場合のように、ピッチひいては基本周波数が時間とともに変化する場合は、そのスペクトルはますます複雑となり、これにより符号化の効率が悪くなる。

信号のピッチと密接に関係しているパラメータは、信号のワープである。時間ｔにおける信号がｐ（ｔ）に等しいピッチを有し、このピッチ値が時間とともになだらかに変化すると仮定すれば、その信号の時間ｔにおけるワープは次の対数微分係数
によって定義される。

高調波信号に対して、このワープの定義は、高調波成分の特定の選択およびピッチの倍数または分数に関連する系統誤差に影響されない。このワープは、対数領域で周波数の変化を測定する。ワープに対する自然単位はヘルツ［Ｈｚ］であるが、音楽用語では、定常ワープａ（ｔ）＝ａ₀を有する信号は、ａ₀／ｌｏｇ２（オクターブ／秒）［ｏｃｔ／ｓ］のスイープ速度を有するスイープである。スピーチ信号は、最高１０ｏｃｔ／ｓのワープおよび２ｏｃｔ／ｓ程度の平均ワープを示す。

変換コーダの典型的フレーム長（ブロック長）は非常に長く、フレーム内の相対的ピッチ変化はかなりのもので、このサイズでのワープまたはピッチ変動は、これらコーダの周波数分析の混乱につながる。一定のビットレートにおさえることが要求される場合、これは量子化の粗さを大きくすることによってのみ克服することができるので、この影響は量子化ノイズの発生を招き、これは多くの場合に残響として知覚される。

この問題を克服する１つの可能な技術は、タイムワープ処理（ｔｉｍｅｗａｒｐｉｎｇ）である。タイムワープ処理符号化（ｔｉｍｅ−ｗａｒｐｅｄｃｏｄｉｎｇ）の概念は、速度変化が可能なテープレコーダを想像することによって、一番うまく説明できる。音声信号を録音する場合に、有声のセグメント全てに対して一定のピッチを得るように、その速度が動的に調整される。得られた局所的に定常な音声信号は、適用されるテープ速度の変化を用いて一緒に符号化される。デコーダにおいては、逆向きの速度変化で再生が行われる。しかしながら、上述のような単純なタイムワープを適用することには、いくつかの重要な欠点がある。まず第１に、絶対的なテープ速度は、結局は制御不可能で、全体的な符号化された信号の継続時間および帯域幅制限の不適合につながることになる。再生のためには、テープ速度に関する（または信号ピッチと同等に関する）追加サイド情報を送信しなければならなく、特に低ビットレートにおいて、相当なビットレート・オーバーヘッドがもたらされることになる。

タイムワープ処理信号の制御不可能な継続時間の問題を克服するための従来技術の方法に共通のアプローチは、タイムワープと関係ない信号の、連続するオーバーラップしないセグメント、すなわち個別のフレームを、各セグメントの継続時間が保持されるように処理することである。このアプローチは、例えば、ヤン（Ｙａｎｇ）らの「スピーチの線形予測残差のピッチ同期変調重複変換（Ｐｉｔｃｈｓｙｎｃｈｒｏｎｏｕｓｍｏｄｕｌａｔｅｄｌａｐｐｅｄｔｒａｎｓｆｏｒｍｏｆｔｈｅｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎｒｅｓｉｄｕａｌｏｆｓｐｅｅｃｈ）」、ＩＣＳＰ’９８のプロシーディング、第５９１〜５９４頁に記載されている。このような進め方の大きな不利な点は、処理された信号はセグメント内では定常的であるが、各々のセグメント境界ではジャンプを示すことになる。このようなジャンプは、結局、後の音声コーダの符号化効率のロスにつながり、復号化された信号に可聴な不連続性をもたらすことになる。

タイムワープ処理は、また他のいくつかの符号化スキームにおいても実施されている。例えば、米国特許公開出願第２００２／０１２０４４５号は、ブロック・ベースの変換符号化の前に、信号セグメントの継続時間にわずかな修正を行うスキームを記載している。これは、信号セグメントの継続時間のわずかな変更を認めて、ブロックの境界の大きな信号成分を回避するものである。

タイムワープを用いている別の技術が、米国特許第６，１６９，９７０号に記載され、そこでは、スピーチ・エンコーダの長期予測のパフォーマンスを高めるためにタイムワープ処理が用いられている。同様な考え方で、米国特許公開出願第２００５／０１３１６８１号には、スピーチ信号のＣＥＬＰ符号化に対する前処理ユニットが記載され、これは、各間隔が１つの白色ピッチ・パルスを含むオーバーラップのない間隔の間に、区分線形ワープを適用する。最後に、（Ｒ．Ｊ．スライター（Ｓｌｕｉｊｔｅｒ）およびＡ．Ｊ．Ｅ．Ｍ．ヤンセン（Ｊａｎｓｓｅｎ）の「スピーチ信号に対するタイムワーパー（Ａｔｉｍｅｗａｒｐｅｒｆｏｒｓｐｅａｃｈｓｉｇｎａｌｓ）」、スピーチ符号化’９９のＩＥＥＥワークショップ、１９９９年６月、第１５０〜１５２頁）には、スピーチ・フレームに二次タイムワープ処理関数を適用してスピーチ・ピッチ推定をいかに改良するかが記載されている。

要約すれば、従来技術のワープ処理技術は、フレーム境界に不連続性がもたらされ、信号のピッチ変動を表すパラメータの送信のためにかなりの量の追加ビットレートを必要とするという問題を共有している。

米国特許出願公開第２００２／０１２０４４５号米国特許第６，１６９，９７０号米国特許出願公開第２００５／０１３１６８１号

Ｔ．ペインタ（Ｐａｉｎｔｅｒ）およびＡ．スパニアス（Ｓｐａｎｉａｓ）の「デジタル音声の知覚符号化（Ｐｅｒｃｅｐｔｕａｌｃｏｄｉｎｇｏｆｄｉｇｉｔａｌａｕｄｉｏ）」、ＩＥＥＥのプロシーディング、第８８巻、第４号、２０００年４月、第４５１〜５１３頁ヤン（Ｙａｎｇ）らの「スピーチの線形予測残差のピッチ同期変調重複変換（Ｐｉｔｃｈｓｙｎｃｈｒｏｎｏｕｓｍｏｄｕｌａｔｅｄｌａｐｐｅｄｔｒａｎｓｆｏｒｍｏｆｔｈｅｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎｒｅｓｉｄｕａｌｏｆｓｐｅｅｃｈ）」、ＩＣＳＰ’９８のプロシーディング、第５９１〜５９４頁Ｒ．Ｊ．スライター（Ｓｌｕｉｊｔｅｒ）およびＡ．Ｊ．Ｅ．Ｍ．ヤンセン（Ｊａｎｓｓｅｎ）の「スピーチ信号に対するタイムワーパー（Ａｔｉｍｅｗａｒｐｅｒｆｏｒｓｐｅａｃｈｓｉｇｎａｌｓ）」、スピーチ符号化’９９のＩＥＥＥワークショップ、１９９９年６月、第１５０〜１５２頁

本発明の目的は、タイムワープ処理を用いて音声信号のさらに効率的な符号化についての概念を提供することである。

本発明の第１の態様によれば、この目的は、第１フレームと、第１フレームに続く第２フレームと、第２フレームに続く第３フレームとを有する音声信号の表現を導き出すためのエンコーダによって達成され、そのエンコーダは、第１および第２フレームに対する第１ワープ情報を推定し、さらに第２フレームおよび第３フレームに対する第２ワープ情報を推定するためのワープ推定器であって、ワープ情報は音声信号のピッチを表している、ワープ推定器と、第１ワープ情報を用いて第１および第２フレームに対する第１スペクトル係数を導き出し、さらに第２ワープ情報を用いて第２および第３フレームに対する第２スペクトル係数を導き出すためのスペクトル・アナライザと、第１および第２スペクトル係数を含む音声信号の表現を出力するための出力インタフェースとを含む。

本発明の第２の態様によれば、この目的は、第１フレームと、第１フレームに続く第２フレームと、第２フレームに続く第３フレームとを有する音声信号を、第１ワープ情報と、第２ワープ情報と、第１および第２フレームに対する第１スペクトル係数と、第２および第３フレームに対する第２スペクトル係数とを用いて再生するためのデコーダによって達成され、第１ワープ情報は第１および第２フレームに対する音声信号のピッチを表し、第２ワープ情報は第２および第３フレームに対する音声信号のピッチを表し、そのデコーダは、第１スペクトル係数および第１ワープ情報を用いて第１結合フレームを導き出し、さらに第２スペクトル係数および第２ワープ情報を用いて第２結合フレームを導き出すためのスペクトル値プロセッサであって、第１結合フレームは第１および第２フレームに関する情報を有し、第２結合フレームは第２および第３フレームに関する情報を有する、スペクトル値プロセッサと、第１結合フレームおよび第２結合フレームを用いて第２フレームを再生するためのシンセサイザとを含む。

本発明の第３の態様によれば、この目的は、第１フレームと、第１フレームに続く第２フレームと、第２フレームに続く第３フレームとを有する音声信号の表現を導き出す方法によって達成され、その方法は、第１および第２フレームに対する第１ワープ情報を推定し、さらに第２フレームおよび第３フレームに対する第２ワープ情報を推定する工程であって、ワープ情報は音声信号のピッチを表す、工程と、第１ワープ情報を用いて第１および第２フレームに対する第１スペクトル係数を導き出し、さらに第２ワープ情報を用いて第２および第３フレームに対する第２スペクトル係数を導き出す工程と、第１および第２スペクトル係数を含む音声信号の表現を出力する工程とを含む。

本発明の第４の態様によれば、この目的は、第１フレームと、第１フレームに続く第２フレームと、第２フレームに続く第３フレームとを有する音声信号を、第１ワープ情報と、第２ワープ情報と、第１および第２フレームに対する第１スペクトル係数と、第２および第３フレームに対する第２スペクトル係数とを用いて再生する方法によって達成され、第１ワープ情報は第１および第２フレームに対する音声信号のピッチを表し、第２ワープ情報は第２および第３フレームに対する音声信号のピッチを表し、その方法は、第１スペクトル係数および第１ワープ情報を用いて第１結合フレームを導き出す工程であって、第１結合フレームは第１および第２フレームに関する情報を有する、工程と、第２スペクトル係数および第２ワープ情報を用いて第２結合フレームを導き出す工程であって、第２結合フレームは第２および第３フレームに関する情報を有する、工程と、第１結合フレームおよび第２結合フレームを用いて第２フレームを再生する工程とを含む。

本発明の第５の態様によれば、この目的は、第１フレームと、第１フレームに続く第２フレームと、第２フレームに続く第３フレームとを有する音声信号の表現によって達成され、その表現は、第１および第２フレームに対する第１スペクトル係数であって、第１および第２フレームのワープ処理表現のスペクトル組成を表す第１スペクトル係数と、第２および第３フレームのワープ処理表現のスペクトル組成を表す第２スペクトル係数とを含む。

本発明の第６の態様によれば、この目的は、コンピュータ上で実行されるときに、上述の方法のいずれかを実行するためのプログラム・コードを有するコンピュータ・プログラムによって達成される。

本発明は、後のブロック変換がワープ情報を追加して用いることができるように、任意の２つの隣り合うフレームに共通のタイムワープを推定すれば、連続する音声フレームを有する音声信号のスペクトル表現をもっと効率的に導き出すことができるという知見に基づいている。

このように、再生過程においてオーバーラップして加える手順をうまく適用するために必要な窓関数を導き出して適用することができ、窓関数は、タイムワープ処理による信号の再サンプリングを既に予測している。したがって、タイムワープ処理信号の高効率のブロック・ベースの変換符号化を、可聴な切れ目がはいることなく用いることができる。

このように、本発明は、従来技術の問題に対する魅力的な解決策を提供する。一方、音声信号の区分化に関係する問題は、オーバーラップして加えるという独特の技術によって克服され、その技術は、タイムワープ操作と窓操作とを統合し、ブロック変換の時間オフセットを取り入れる。これにより得られる連続時間変換は完全な再生能力を有し、その離散時間対応信号は、再生過程で適用されるデコーダの再サンプリング技術の品質によってのみ制限される。この特質は、得られる音声符号化スキームの高いビットレート収束をもたらす。量子化の粗さを低減することによって、すなわち送信ビットレートを増加することによって、信号の無損失送信を実現することは基本的には可能である。これは、例えば、単にパラメトリック符号化方法だけでは実現できない。

本発明のさらなる利点は、タイムワープ処理を逆処理するために送信する必要のある追加情報のビットレート必要量を大幅に低減していることである。これは、ピッチのサイド情報ではなく、ワープ・パラメータのサイド情報を送信することによって達成される。これは、多くのピッチ・パラメータ・ベースの音声符号化方法が、ピッチ検出の正確さに大きく依存しているのに対して、本発明は適度のパラメータ依存性だけを示すというさらなる利点を有する。これは、ピッチ・パラメータの送信には局所的な高調波信号の基本周波数の検知が必要となり、このことが必ずしも容易でないことによる。したがって、本発明のスキームは非常に頑強で、上述のワープ・パラメータの定義を考えると明白なように、高次高調波が検出されても送信されるワープ・パラメータが変形されることはない。

本発明の１つの実施形態において、連続するフレームの中、具体的には相互に追従する第１、第２、および第３フレームの中に配置された音声信号を符号化するための符号化スキームが適用される。第２フレームの信号に関する全情報は、第１および第２フレームの結合のスペクトル表現と、第１および第２フレームに対するワープ・パラメータ・シーケンスと、第２および第３フレームの結合のスペクトル表現と、第２および第３フレームに対するワープ・パラメータ・シーケンスとによって提供される。タイムワープ処理の逆の概念を用いれば、フレーム境界での急激なピッチ変動と、その結果生じる付加的な可聴な不連続性とをもたらすことなく、信号をオーバーラップして加える再生を行うことができる。

本発明のさらなる実施形態において、ワープ・パラメータ・シーケンスは、周知のピッチ・トラッキング・アルゴリズムを用いて導き出され、これら周知のアルゴリズムの使用が可能で、そのため、既存の符号化スキームに本発明を容易に実装することができる。

本発明のさらなる実施形態において、ワープ処理は、音声信号がワープ・パラメータによって指示されるようにタイムワープ処理されると、フレーム内の音声信号のピッチができるだけ定常的になるように実施される。

本発明のさらなる実施形態において、ビットレートについては、スペクトル係数の符号化された表現のサイズが最小化されるようにワープ・パラメータ・シーケンスが選択されれば、符号化の間に高度に複雑な計算をすることなく、さらにもっと低減される。

本発明のさらなる実施形態において、本発明の符号化および復号化は、窓関数（窓処理）、再サンプリングおよびブロック変換の適用に分解される。この分解には、特に変換に対して、既存のソフトウエアおよびハードウエア実装を用いて本発明の符号化概念を効率的に実施できるという大きな利点がある。デコーダ側では、信号を再生するために、オーバーラップして加えるさらなる独立したステップが取り入れられる。

本発明のデコーダの別の実施形態において、時間領域に変換する前に、信号のスペクトル係数に追加のスペクトル重み付けが適用される。これにより信号の再サンプリングの計算複雑性を軽減することができるので、これを行うことでデコーダ側での計算複雑性をさらに低減できる利点がある。

「ピッチ」という用語は、一般的意味で解釈するものとする。また、この用語は、ワープ情報が関わる箇所に関しては、ピッチ変動を含む。ワープ情報が、絶対値ピッチへのアクセスを示さず、相対的または正規化されたピッチ情報へのアクセスを示すような状況があり得る。したがって、ワープ情報として、ｙ軸の値がない正確なピッチ・カーブ形状を得ることができる場合には、そういった信号のピッチの表現がされることがある。

本発明の好適な実施形態が添付図面を参照して以下に説明され、これらの図面としては：

図１は、本発明のワープ・マップの例を示す。図２〜図２ｂは、本発明のワープ依存性の窓のアプリケーションを示す。図３ａ、図３ｂは、本発明の再サンプリングの例を示す。図４ａ、図４ｂは、デコーダ側での本発明の信号合成の例を示す。図５ａ、図５ｂは、デコーダ側での本発明の窓処理の例を示す。図６ａ、図６ｂは、デコーダ側での本発明のタイムワープ処理の例を示す。図７は、デコーダ側での本発明のオーバーラップして加える手順の例を示す。図８は、本発明の音声エンコーダの例を示す。図９は、本発明の音声デコーダの例を示す。図１０は、本発明のデコーダのさらなる例を示す。図１１は、本発明の概念の下位互換性のある実施の例を示す。図１２は、本発明の符号化の実施のブロック図を示す。図１３は、本発明の復号化の例のブロック図を示す。図１４は、本発明の復号化のさらなる実施形態のブロック図を示す。図１５ａ、図１５ｂは、本発明の概念の実施において達成可能な符号化効率の実例を示す。

以下に説明する実施形態は、音声信号のタイムワープ処理変換符号化に関する本発明の原理の単なる例示である。当業者は、本明細書に記載された構成および細部の変更および変形を容易に理解できると思われる。したがって、本発明は、添付の特許請求の範囲によってだけ限定され、記述および説明の目的で本明細書中に提示された特定の詳細な内容によって限定されないと意図される。

以下に、本発明の概念の理解促進のために、ワープ処理およびブロック変換の基本的な考え方および概念について簡単に概説し、本発明の概念については、その後、添付の図を参照しながらさらに詳細に説明する。

一般に、タイムワープ処理変換の詳細は、連続時間信号の領域において導き出すのが最も分かりやすい。以下のパラグラフでは、一般的な理論を説明し、その後引き続いてこれを特殊化し、本発明による離散時間信号への適用に変換する説明をする。この変換の主要なステップは、平均サンプル密度が維持されるような、すなわち音声信号の継続時間が変わらないようなやり方で、連続時間信号に対して行われる座標の変更を、離散時間信号の不均一再サンプリングで置換えることである。

ｓ＝Ψ（ｔ）によって連続微分可能な単調増加関数Ψで表された時間座標の変更を表すものとし、ｔ軸間隔Ｉをｓ軸間隔Ｊにマップする。

したがって、Ψ（ｔ）は、時間依存性の量の時間軸を変換するために使用可能な関数であり、時間離散の場合の再サンプリングと同等である。なお、以下の説明において、ｔ軸間隔Ｉは、通常の時間領域における間隔であり、ｓ軸間隔Ｊは、ワープ処理された時間領域における間隔である。

間隔Ｊにおける有限エネルギーの信号に対する正規直交基底｛να｝を考えると、以下のルール
により間隔Ｉにおける有限エネルギーの信号に対する正規直交基底｛ｕα｝を得る。

無限時間間隔Ｉを考えると、タイムワープの局所仕様は、Ｉを分割し、その後、正規化ワープ・マップの再スケールされた断片を一緒に併合してΨを構築することによって得ることができる。

正規化ワープ・マップは、それ自体の上に単位間隔［０，１］をマップしている連続微分可能な単調増加関数である。ｔ_k+1＞ｔ_kの区分化点ｔ＝ｔ_kのシーケンス、および正規化ワープ・マップΨ_kの対応するシーケンスから
が構築され、ここで、ｄ_k＝ｓ_k+1−ｓ_kであり、シーケンスｄ_kは、Ψ（ｔ）が連続微分可能となるように調整される。これにより、正規化ワープ・マップΨ_kのシーケンスから、タイプＡΨ（ｔ）＋Ｂのスケールのアフィン変換に至るまでのΨ（ｔ）が定義される。

ｓ＜ｓ_kまたはｓ＞ｓ_k+Kの場合にν_k,n（ｓ）＝０となるオーバーラップ係数の整数Ｋが存在するということを条件として、｛ν_k,n｝を、区分化ｓ_k＝Ψ（ｔ_k）に適応させた間隔Ｊにおける有限エネルギーの信号に対する正規直交基底とする。

Ｋ＝１の場合は、オーバーラップのない従来技術の方法に相当するので、本発明は、Ｋ＝２の場合に焦点を絞る。なお、現在、Ｋ＝３に対する知られた構成は少ない。修正離散コサイン変換（ＭＤＣＴ）および他の離散時間重複変換（ｄｉｓｃｒｅｔｅｔｉｍｅｌａｐｐｅｄｔｒａｎｓｆｏｒｍｓ）にも用いられている局所三角関数基底を含め、Ｋ＝２の場合に対する本発明の概念の具体的な例を以下に展開する。

ｌ＜ｋ−ｐまたはｌ＞ｋ＋Ｋ＋ｐに対してν_k,n（ｓ）がｓ_lに依存しないような整数ｐが存在するということを条件として、区分化からの｛ν_k,n｝の構成が局所的なものであるとする。最後に、その構成は、区分化をＡｓ_k＋Ｂにアフィン変換することにより、Ａ^-1/2ν_k,n（（ｓ−Ｂ）／Ａ）への基底の変換が得られるようなものであるとする。これにより、
は、間隔Ｉにおける有限エネルギーの信号に対するタイムワープ処理正規直交基底であり、この式は、式（２）のパラメータ・シーケンスｓ_kおよびｄ_kの初期設定とは関係なく、区分化点ｔ_kおよび正規化ワープ・マップΨ_kのシーケンスから明確に定義される。これは、ｔ＜ｔ_kまたはｔ＞ｔ_k+Kにおいてｕ_k,n（ｔ）＝０であるということを条件として、任意の区分化に適合し、さらに、これは、ｕ_k,n（ｔ）が、ｌ＜ｋ−ｐまたはｌ＞ｋ＋Ｋ＋ｐにおいてｔ_lに依存せず、ｌ＜ｋ−ｐまたはｌ≧ｋ＋Ｋ＋ｐにおいて正規化ワープ・マップΨ_lにも依存しないということを条件として、局所的に定義される。

合成波形（３）は、連続的であるが、ヤコビアン因子（Ψ’（ｔ））^1/2のせいで必ずしも微分可能ではない。このため、さらに離散時間の場合における計算負荷を軽減するために、導双直交系（ｄｅｒｉｖｅｄｂｉｏｒｔｈｏｇｏｎａｌｓｙｓｔｅｍ）を同様にうまく構築することができる。シーケンスη_k＞０に対して、
のような定数０＜Ｃ₁＜Ｃ₂があると想定する。その結果、
は、間隔Ｉにおける有限エネルギーの信号の空間に対するリース基底の双直交のペアを定義する。

このように、ｆ_k,n（ｔ）およびｇ_k,n（ｔ）を分析に用いることができ、特に、ｆ_k,n（ｔ）を合成波形として、ｇ_k,n（ｔ）を分析波形として用いることが好都合である。

上述の全般的考察に基づいて、本発明の概念の例が、均一な区分化ｔ_k＝ｋおよびオーバーラップ係数Ｋ＝２の場合について、ｓ軸上に得られた区分化に適合された局所コサイン基底を用いて、後述のパラグラフにおいて導き出される。

なお、本発明の概念を不均一な区分化にも同様に適用可能とするためのこういった不均一区分化を取り扱うために必要な補正は明らかにされている。例えば、Ｍ．Ｗ．ウイッカーハウザー（Ｗｉｃｋｅｒｈａｕｓｅｒ）の「理論からソフトウエアへの適合ウェーブレット分析（Ａｄａｐｔｅｄｗａｖｅｌｅｔａｎａｌｙｓｉｓｆｒｏｍｔｈｅｏｒｙｔｏｓｏｆｔｗａｒｅ）」Ａ．Ｋ．ピーター（Ｐｅｔｅｒｓ）社、１９９４年、第４章に提案されているように、局所コサイン基底を構築する出発点は、ｒ＜−１に対してはρ（ｒ）＝０、ｒ＞１に対してはρ（ｒ）＝１、アクティブ領域である−１≦ｒ≦１においてはρ（ｒ）²＋ρ（−ｒ）²＝１となる上昇カットオフ関数（ｒｉｓｉｎｇｃｕｔｏｆｆｆｕｎｃｔｉｏｎ）ρである。

区分化ｓ_kと考えると、各々の間隔ｓ_k≦ｓ≦ｓ_k+2における窓は、カットオフ中点をｃ_k＝（ｓ_k＋ｓ_k+1）／２とし、カットオフ半径をε_k＝（ｓ_k+1−ｓ_k）／２とすれば、
により構成することができる。これは、ヴィッカーハウザー（Ｗｉｃｋｅｒｈａｕｓｅｒ）の中間点構造に相当する。

ｌ_k＝ｃ_k+1−ｃ_k＝ε_k＋ε_k+1とおけば、正規直交基底は、
から得られ、ここで周波数指数はｎ＝０，１，２，…。この構成がρ＝０の局所性条件と上述したアフィン不変とに従うことの検証は容易である。ｔ軸上に得られるワープ処理基底（３）は、この場合、ｋ≦ｔ≦ｋ＋２に対して、
の形に書き換えることができ、ここで、φ_kは、間隔［０，２］の連続微分可能なマップをそれ自体の上に形成するために、Ψ_kおよびΨ_k+1を一緒に併せることにより定義される。

これは、
とおくことによって得られる。

Ψ_kの構成は、図１に描かれ、ｘ軸上には正規化時間が示され、ｙ軸上にはワープ時間が示されている。図１は、特にｋ＝０の場合について論じる必要があり、これはφ₀（ｔ）を求めるため、すなわち、正規化時間０から正規化時間１まで続く第１フレーム１０および正規化時間１から正規化時間２まで続く第２フレーム１２に対するワープ関数を導き出すためである。第１フレーム１０はワープ関数１４を有し、第２フレーム１２はワープ関数１６を有し、これら関数は、時間軸が図示のようにワープ関数１４および１６によって変換されたときに、個別のフレーム内で等しいピッチを実現する狙いで導き出されているとさらに仮定する。なお、ワープ関数１４はΨ₀に対応し、ワープ関数１６はΨ₁に対応している。式９によれば、結合ワープ関数φ₀（ｔ）１８は、間隔［０，２］の連続微分可能なマップをそれ自体の上に形成するために、ワープ・マップ１４および１６を一緒に併せることによって構築される。結果として、点（１，１）は（１，ａ）に変換され、ａは、式９中の２ｍ_kに対応する。

本発明の概念は、オーバーラップして加えるシナリオによるタイムワープ処理の利用を対象としているので、フレーム１２および後続のフレーム２０に対する次の結合ワープ処理関数の構築の例も図１に示されている。なお、このオーバーラップして加える原理によれば、フレーム１２を完全に再生するためには、ワープ関数１８および２２の双方についての知識が必要となる。

さらに、２つの別々に導き出されたワープ関数を一緒に併せることは、必ずしも適切な結合ワープ関数φ.（１８，２２）を導き出す唯一の方法ではないことに留意すべきであり、それは、φが２つの連続するフレームに対して適切なワープ関数を直接フィットすることによっても十分うまく導き出せるからである。２つのワープ関数の定義域のオーバーラップにおいてそれらの２つの関数のアフィン整合性（ａｆｆｉｎｅｃｏｎｓｉｓｔｅｎｃｅ）を保持することが望ましい。

式６によれば、式８中の窓関数は、
により定義され、上式は、間隔［０，２ｍ_k］で０から１まで増加し、間隔［２ｍ_k，２］で１から０まで減少する。

また、全てのｋに対して、
のような定数０＜Ｃ₁＜Ｃ₂が存在すれば、（８）式の双直交バージョンを導き出すことができる。（４）式中でη_k＝ｌ_kを選択することにより、（５）式の
への特殊化が得られる。

このようにして、連続時間の場合に対しては、合成および分析関数（式１２）が導き出され、これらは結合ワープ処理関数に依存する。この依存性により、オーバーラップして加えるシナリオの内で、元となる信号に関する情報のロスのないタイムワープ処理、すなわち、信号の完全な再生が可能となる。

なお、実施上の点からは、式１２内で行われるオペレーションは、連続する個別のプロセス・ステップのシーケンスに分解することができる。これを行う特に魅力的なやり方は、まず、信号の窓処理を行い、次に窓処理された信号の再サンプリングをし、最後に変換を行うやり方である。

通常と同様に、音声信号は、所定のサンプリング周波数でサンプルされた離散サンプル値としてデジタル的に格納され、送信されるが、後述において、離散型のアプリケーションに対する本発明の概念の実施の特定例がさらに展開される。

タイムワープ処理修正離散コサイン変換（ＴＷＭＤＣＴ）は、解析積分および合成波形を離散化することによって、タイムワープ処理局所コサイン基底から得ることができる。以下の説明は、双直交基底（式１２参照）に基く。直交問題（８）を取り扱うために必要な変更は、ヤコビアン因子√（φ’_k（ｔ−ｋ））によるさらなる時間領域の重み付けからなる。ワープ非適用の特殊な場合においては、双方の構成とも通常のＭＤＣＴに帰着する。Ｌを変換サイズとし、ある値ｑ＜１に対して、ｑπＬ（ｒａｄ／ｓ）により帯域制限された分析対象の信号ｘ（ｔ）を仮定する。これにより、その信号を、サンプリング周期１／Ｌにおけるその信号のサンプルにより表すことが可能になる。

分析係数は、
により与えられる。

窓処理された信号部分ｘ_k（τ）＝ｘ（τ＋ｋ）ｂ_k（φ_k（τ））を定義し、積分式（１３）にτ＝ｔ−ｋおよびｒ＝φ_k（τ）の代入を行うことによって
を得る。

本発明により教示されるこの積分式を離散化するための特に魅力的なやり方は、νが整数値であるサンプル点ｒ＝ｒν＝ｍ_k＋（ν＋１／２）／Ｌを選択することである。軽度のワープおよび上述の帯域制限を仮定すれば、近似式
が得られ、ここで、
である。

式（１５）中の総和間隔（ｓｕｍｍａｔｉｏｎｉｎｔｅｒｖａｌ）は、０≦ｒν＜２により定義される。これは、ν＝０，１，…，Ｌ−１を含み、ポイントの合計数が２Ｌになるように、各終端においてこの間隔を超えてのびる。なお、この結果は、一部の整数ν₀に対して、ｍ_k＝（ν₀＋１／２）／Ｌの場合に生ずる可能性のあるエッジ問題の処理には、窓処理が理由で影響されない。

和（式１５）が、基本的な畳み込み演算およびそれに続くＩＶ型のＤＣＴによって計算可能なことは周知であり、既存の効率的なハードウエアおよびソフトウエア実装、特にＤＣＴ（離散コサイン変換）を活用するために、式１５の演算を一連の引き続く演算および変換に分解することが適切である。離散化された積分式により、所定の離散時間信号を、サンプリング周期ｘ（ｔ）の１／Ｌの等間隔サンプルとして読み取ることができる。このようにして、窓処理の第１ステップにより、ｐ＝０，１，２，…，２Ｌ−１に対して、
が得られることになる。（ｍ_kに応じて追加のオフセットを導入する）式１５によって表されているようなブロック変換の前に、
をマップする再サンプリングが必要となる。

任意の適切な非等間隔の再サンプリングの方法によって再サンプリング操作を行うことができる。

要約すれば、本発明のタイムワープ処理ＭＤＣＤは、窓処理操作、再サンプリングおよびブロック変換に分解することができる。

以下に、図２〜図３ｂまでを参照しながら、個別のステップについて簡単に説明する。図２〜図３ｂは、合成的に生成されたピッチ信号の２つだけの窓で処理された信号ブロックを考慮するタイムワープ処理ＭＤＣＴ符号化のステップを示す。各個別のフレームは１０２４のサンプルを含み、２つの考慮された結合フレーム２４および２６（元のフレーム３０および３２と、元のフレーム３２および３４）の各々は、２０４８のサンプルからなり、２つの窓処理された結合フレームは、１０２４のサンプルのオーバーラップを有する。図２〜図２ｂは、ｘ軸に処理対象の３つのフレームの正規化時間を示している。第１フレーム３０は時間軸上の０から１に分布し、第２フレーム３２は１から２に分布し、第３フレームは２から３に分布している。このようにして、正規化時間領域において、各時間単位は１０２４の信号サンプルを有する１つの完全なフレームに対応している。正規化分析窓は、正規化時間間隔［０，２］および［１，３］の範囲にわたっている。以下の考察の狙いは、信号の中間フレーム３２を再生することである。外側の信号フレーム（３０，３４）の再生には、それらに隣接した窓処理された信号セグメントが必要であるが、この再生についてはここで考慮の対象としない。なお、図１に示された結合ワープ・マップは、図２の信号から導き出されたワープ・マップであり、３つの連続する正規化ワープ・マップ（点線カーブ）を２つのオーバーラップするワープ・マップ（実線カーブ）への本発明の結合を図示している。上述のように、本発明の結合ワープ・マップ１８および２２は、信号分析のため導き出される。さらに、ワープ処理のアフィン不変性に起因して、このカーブは、元の２つのセグメント中のワープと同じようにワープしたマップを表す。

図２は、元の信号を実線グラフで示している。その定形パルス列は、時間とともにリニアに増加するピッチを有し、これから、ワープがピッチの対数微分係数で定義されていることを考慮すれば、そのパルス列は正の低減するワープを有する。図２において、式１７を用いて導き出された本発明の分析窓は、点線カーブと重なっている。なお、標準的な対称窓（例えば、ＭＤＣＴ）からの偏差は、ワープが最大の箇所、すなわち第１セグメント［０，１］で最大になる。窓だけの数学的定義は、式１１の窓を再サンプリングすることによって求められ、再サンプリングは、式１７の右側項の第２因数によって表されるように実施される。

図２ａおよび図２ｂは、図２の窓を個別の信号セグメントに適用する本発明の窓処理をした結果を示す。

図３ａおよび図３ｂは、図２ａおよび図２ｂの窓処理された信号ブロックの再サンプリングによるワープ・パラメータの結果を示し、その再サンプリングは、図１の実線カーブのワープ・マップによって示されるように実施される。正規化時間間隔［０，１］にワープ時間間隔［０，ａ］がマップされ、これは窓処理された信号ブロックの左半分を圧縮したもの等しい。このため、窓処理された信号ブロックの右半分の拡張が行われ、内部［１，２］は［ａ，２］としてマップされる。ワープ・マップは、一定のピッチのワープ処理信号を得ることを目的として信号から導き出されるので、ワープ処理（式１８による再サンプリング）の結果は、一定のピッチを有する窓処理された信号ブロックとなる。なお、ワープ処理マップと信号との間の不一致により、この時点ではまだ変化のあるピッチを有する信号ブロックがもたらされようが、最終的な再生の障害とはならない。

引き続くブロック変換のオフセットは、丸でマークされており、この間隔［ｍ，ｍ＋１］は、式１５中においてＬ＝１０２４で離散サンプルν＝１，０，…，Ｌ−１に対応している。このことは、ブロック変換の変調波形が、ｍにおいて偶数対称性の点を、ｍ＋１において奇数対称性の点を共有する、ということに等しい。さらに、ａは２ｍに等しく、ｍは０とａとの間の中点であり、ｍ＋１はａと２との間の中点であることに留意するのが重要である。要約すれば、図３ａおよび図３ｂは、式１８によって表された本発明の再サンプリング後の状況を表し、当然ながら、これはワープ・パラメータにより決まる。

図３ａおよび図３ｂの信号のタイムワープ処理変換領域サンプルは、次に量子化および符号化され、正規化ワープ・マップΨ_kを表すワープ・サイド情報と一緒にデコーダに送信することができる。量子化は広く知られた技術なので、特定の量子化ルールを用いた量子化は、以下の図では例示せず、デコーダ側での信号の再生に焦点を絞ることにする。

本発明の１つの実施形態において、デコーダは、復号化されたタイムワープ処理変換領域サンプルｄ_k,nと併せてワープ・マップ・シーケンスを受信し、信号の帯域制限を想定しているので、ｎ＝Ｌではｄ_k,n＝０を前提とすることができる。エンコーダ側では、離散時間合成を実現するための開始点に関しては、式１２の合成波形を用いる連続時間再生を考慮しなければならない。
ここで
であり、さらに、
である。

式（１９）は、窓処理された変換合成の通常のオーバーラップして加える手順である。分析段階において、点ｒ＝ｒν＝ｍ_k＋（ν＋１／２）／Ｌにおいて式（２１）のサンプルをするのが有利であり、
が導き出され、上式は、次のステップで容易に計算される：まず、ＩＶ型のＤＣＴを行い、次に、０≦ｒν＜２の条件の下で、オフセット・パラメータｍ_kによって決まるサンプルを２Ｌに拡大する。次に、窓ｂ_k（ｒν）による窓処理を行う。ｚ_k（ｒν）が求まれば、再サンプリング
により、式（１９）に表されたオーバーラップして加える操作に対する等距離サンプル点（ｐ＋１／２）／Ｌにおける信号セグメントｙ_kが得られる。

再サンプリング法も同様に全く自由に選択することができ、エンコーダと同じである必要はない。本発明の１つの実施形態において、スプライン補間ベースの方法が用いられ、スプライン関数の次数を、計算の複雑性と再生の品質との間での折衷が達成されるように、帯域制限パラメータｑの関数として調整することができる。パラメータｑの一般値はｑ＝１／３であり、この場合、多くは二次スプラインで十分である。

図３ａおよび図３ｂに示された信号に対する復号化を以下の図４ａ〜７に示す。ブロック変換および変換パラメータの送信は一般に知られた技術なので、ここでは説明しないことをかさねて強調しておく。復号化プロセスのスタートとして、図４ａおよび図４ｂに、逆ブロック変換が既に行われ得られた信号の構成を示す。この逆ブロック変換の１つの重要な特徴は、図３ａおよび図３ｂの元の信号中に存在しない信号成分を加えることであり、これは、上記で説明した合成関数の対称性によるものである。具体的には、その合成関数は、ｍに対して偶数対称性を、ｍ＋１に対しては奇数対称性を有する。したがって、区間［０，ａ］においては正信号成分が逆ブロック変換に加えられ、区間［ａ，２］においては負信号成分が逆ブロック変換に加えられる。さらに、合成窓処理操作に用いられる本発明の窓関数は、図４ａおよび図４ｂの点線カーブと重なり合っている。

ワープ時間領域におけるこの合成窓の数学的定義は、式１１で与えられる。図５ａおよび図５ｂは、本発明の窓処理を適用後、まだワープ処理領域にある信号を示す。

図６ａおよび図６ｂは、図５ａおよび図５ｂの信号のワープ・パラメータ依存性の再サンプリングの結果を最終的に示す。

最後に、図７は、オーバーラップして加える操作の結果を示し、これは信号の合成における最終ステップである。(式１９を参照)。このオーバーラップして加える操作は、図６ａの波形と図６ｂの波形との重ねあわせである。既に上述したように、全面的に再生の対象となるフレームは中間フレーム３２だけであり、これを図２の元の状態と比較すると中間フレーム３２が高い正確度で再生されていることが分かる。逆ブロック変換の過程で導入された障害になる追加信号成分の正確な排除は、図１の２つの結合ワープ処理マップ１４および２２が、オーバーラップした正規化時間間隔［１，２］内のアフィン・マップにおいてだけ違っているという本発明の重要な特質があることによってのみ可能となる。この結果として、信号部分と、ワープ時間セグメント［ａ，２］および［１，ｂ］との間には対応性がある。図４ａおよび図４ｂを考慮すると、セグメント［１，ｂ］の［ａ，２］へのリニアな引き伸ばしによって信号グラフが生成されることになり、窓の半分ずつは、標準的ＭＤＣＴの時間領域エイアリシング除去の周知の原理を表す。エイリアス除去された後の信号は、一般的な逆ワープ・マップによって正規時間間隔［１，２］の上にそのままマップすることができる。

なお、本発明のさらなる実施形態によれば、周波数領域においてプレフィルタリング・ステップを適用することによって計算複雑性のさらなる軽減を達成することができる。これは、送信されたサンプル値ｄ_knの簡単な事前重み付けを行うことにより可能である。このようなプレフィルタリングについては、例えば、Ｍ．アンサー（Ｕｎｓｅｒ）、Ａ．アルドロウビ（Ａｌｄｒｏｕｂｉ）、およびＭ．エデン（Ｅｄｅｎ）の「Ｂ−スプライン信号処理パートＩＩ−効率的な設計およびアプリケーション（Ｂ−ｓｐｌｉｎｅｓｉｎｇｎａｌｐｒｏｃｅｓｓｉｎｇｐａｒｔＩＩ−ｅｆｆｉｃｉｅｎｔｄｅｓｉｇｎａｎｄａｐｐｌｉｃａｔｉｏｎｓ）」に記載されている。この実施のためには、窓処理操作の前に、逆ブロック変換の出力にＢ−スプライン再サンプリングを適用することが必要である。この実施形態においては、修正されたｄ_k,nを有する式２２から導き出された信号に対して再サンプリングが行われる。ここでは窓関数ｂ_k（ｒν）の適用は行われない。したがって、再サンプリングに際しては、ブロック変換の選択によってもたらされる周期性および対称性の点から、信号セグメントの各終端において端部状態に注意しなければならない。次に、窓ｂ_k（φ_k（（ｐ＋１／２）／Ｌ））を用いた再サンプリングの後、必要な窓処理が行われる。

要約すれば、本発明のデコーダの第１の実施形態によれば、逆タイムワープ処理ＭＤＣＴは、個別のステップに分解すると以下を含む。
・逆変換
・窓処理
・再サンプリング
・オーバーラップおよび加算

本発明の第２の実施形態によれば、逆タイムワープ処理ＭＤＣＴは、以下を含む。
・スペクトル重み付け
・逆変換
・再サンプリング
・窓処理
・オーバーラップおよび加算

なお、ワープを適用しない場合、すなわち正規化ワープ・マップ全てがトリビアルな（Ψ_k（ｔ）＝ｔ）である場合、前に詳述したように、本発明の実施形態は通常のＭＤＣＴと一致する。

前述の特徴を組み込んだ本発明のさらなる実施形態を、図８〜図１５を参照しながら説明する。

図８は、入力としてデジタル音声信号１００を受信し、本発明のタイムワープ処理変換符号化の概念を組み込んだデコーダに送信するビットストリームを生成する本発明の音声エンコーダの例を示す。デジタル音声入力信号１００は、未処理の音声信号とすることも前処理済された音声信号とすることもでき、この前処理を、例えば、入力信号のスペクトルを白色化するための白色化操作とすることができる。本発明のエンコーダは、ワープ・パラメータ・エクストラクタ１０１、ワープ・トランスフォーマ１０２、知覚モデル・カルキュレータ１０３、ワープ・コーダ１０４、エンコーダ１０５、およびマルチプレクサ１０６を内蔵する。ワープ・パラメータ・エクストラクタ１０１は、ワープ・パラメータ・シーケンスを推定し、それがワープ・トランスフォーマ１０２とワープ・コーダ１０４とに入力される。ワープ・トランスフォーマ１０２は、デジタル音声入力信号１００のタイムワープ処理スペクトル表現を導き出す。そのタイムワープ処理スペクトル表現は、量子化と例えば差分符号化など可能な他の符号化とのためのエンコーダ１０５に入力される。エンコーダ１０５は、知覚モデル・カルキュレータ１０３によって付加的に制御される。これにより、例えば、多くが他の信号成分にマスクされている信号成分を符号化する場合には、量子化の粗さを大きくすることができる。ワープ・コーダ１０４は、送信時のビットストリーム内におけるサイズを小さくするために、ワープ・パラメータ・シーケンスを符号化する。これには、例えば、パラメータの量子化、または、例えば、差分符号化またはエントロピ符号化技術、さらには算術符号化スキームを含めることができる。

マルチプレクサ１０６は、エンコーダから出力されるビットストリームの中に双方のデータを多重化するために、ワープ・コーダ１０４から符号化されたワープ・パラメータ・シーケンスと、デジタル音声入力信号１００の符号化されたタイムワープ処理スペクトル表現とを受信する。

図９は、出力として再生された音声信号を導き出すための互換性のあるビットストリーム２００を受信するタイムワープ処理変換デコーダの例を示す。そのデコーダは、逆マルチプレクサ２０１、ワープ・デコーダ２０２、デコーダ２０３、および逆ワープ・トランスフォーマ２０４を含む。逆マルチプレクサは、ビットストリームを符号化されたワープ・パラメータ・シーケンスに逆多重化し、それがワープ・デコーダ２０２に入力される。逆マルチプレクサは、音声信号のタイムワープ処理スペクトル表現の符号化された表現をさらに逆多重化し、それが図８の音声エンコーダの対応するエンコーダ１０５と逆機能になっているデコーダ２０３に入力される。ワープ・デコーダ２０２は、ワープ・パラメータ・シーケンスの再生を導き出し、デコーダ２０３は、元の音声信号のタイムワープ処理スペクトル表現を導き出す。ワープ・パラメータ・シーケンスの表現とタイムワープ処理スペクトル表現とは、音声信号のタイムワープ処理オーバーラップ変換符号化の本発明の概念を実施してデジタル音声出力信号を導き出す逆ワープ・トランスフォーマ２０４に入力される。

図１０は、デコーダ自体の中でワープ・パラメータ・シーケンスが導き出されるタイムワープ処理変換デコーダのさらなる実施形態を示す。図１０に示された別の実施形態は、デコーダ２０３、ワープ推定器３０１、および逆ワープ・トランスフォーマ２０４を含む。デコーダ２０３および逆ワープ・トランスフォーマ２０４は、前の実施形態の対応する装置と同じ機能を有し、したがって、これらの装置の内容はどちらの実施形態内においても全く変わらない。ワープ推定器３０１は、先行の周波数領域ピッチ推定と現在の周波数領域ピッチ推定とを結合して、デコーダ２０３から出力されたタイムワープ処理スペクトル表現の実際のワープを導き出す。このようにして、ワープ・パラメータ・シーケンスは、暗黙的に信号伝達され、これにより、デコーダに入力されるビットストリームにおいて追加のワープ・パラメータ情報を送信する必要がなくなり、さらにビットレートが節約できるという大きな利点が得られる。ただし、ワープ処理データの暗黙の信号伝達は、変換の時間分解能によって制限される。

図１１は、タイムワープ処理復号化の本発明の概念を処理する能力のない従来技術のデコーダが用いられた場合における本発明の概念の下位互換性を示す。そのようなデコーダは、追加のワープ・パラメータ情報を無視し、したがって、ビットストリームを周波数領域信号に復号化し、ワープ処理を一切行わない逆トランスフォーマ４０１に送り込むことになる。本発明のエンコーダのタイムワープ処理変換によって実施される周波数分析は、タイムワープ処理を一切含まない変換とうまく協働するので、ワープ・データを感知しないデコーダであっても意味のある音声出力を生成することはできる。これは、従来技術のデコーダ内ではタイムワープ処理は逆変換されないので、これに起因する音声品質の劣化という犠牲を払って行われる。

図１２は、タイムワープ処理変換の本発明の方法のブロック図を示す。本発明のタイムワープ処理変換は、窓処理５０１、再サンプリング５０２、およびブロック変換５０３を含む。まず、入力信号は、個別の符号化ステップ５０１〜５０３の各々への追加入力として供給されるワープ・パラメータ・シーケンスによって決まるオーバーラップする窓シーケンスによって窓処理が行われる。各々の窓処理された入力信号セグメントは、引き続いて、再サンプリングステップ５０２において再サンプリングされ、その再サンプリングはワープ・パラメータ・シーケンスによって指示されるように実行される。

ブロック変換ステップ５０３の中で、ブロック変換は、通常、周知の離散三角変換を用いて導き出される。このようにして、変換は、窓処理され再サンプリングされた信号セグメントにおいて実行される。なお、ブロック変換は、オフセット値によっても左右され、この値はワープ・パラメータ・シーケンスから導き出される。このようにして、出力は、変換領域フレームのシーケンスで構成される。

図１３は、逆タイムワープ処理変換方法のフローチャートを示す。その方法は、逆ブロック変換６０１、窓処理６０２、再サンプリング６０３、およびオーバーラップおよび加算６０４のステップを含む。変換領域信号の各フレームは、逆ブロック変換６０１によって時間領域信号に変換される。符号化ステップに対応して、ブロック変換は、逆ブロック変換６０１、窓処理６０２、および再サンプリング６０３への追加入力として供給される受信パラメータ・シーケンスから導き出されたオフセット値に依存する。ブロック変換６０１によって導き出された信号セグメントは、続いて、窓処理ステップ６０２において窓処理され、再サンプリング６０３においてワープ処理パラメータ・シーケンスを用いて再サンプリングされる。最後に、オーバーラップおよび加算６０４において、窓処理され再サンプリングされたセグメントは、通常のオーバーラップして加える操作で、その前に逆変換されたセグメントに加えられ、時間領域の出力信号の再生が得られる。

図１４は、本発明の逆タイムワープ・トランスフォーマの別の実施形態を示し、これは、計算複雑性をさらに軽減するように実装されている。このデコーダは、部分的に、図１３のデコーダと同一の機能を有する。したがって、両方の実施形態における同一機能の内容は、どちらも全く変わりがない。この別の実施形態は、これが逆ブロック変換６０１の前に、スペクトル事前重み付け７０１を実装している点において、図１３の実施形態とは異なっている。この定まったスペクトル事前重み付けは、ブロック変換の選択によってもたらされる周期性および対称性による時間領域フィルタリングに相当する。そのようなフィルタリング操作は、ある種のスプライン基底の再サンプリング方法の一部分であり、後での修正再サンプリング７０２の計算複雑性の軽減を可能にする。これにより、このような再サンプリングは、ブロック変換の選択によってもたらされた周期性および対称性を有する信号領域において行われる。したがって、修正窓処理ステップ７０３は、再サンプリング７０２の後で実行される。最後に、オーバーラップおよび加算６０４において、窓処理され再サンプリングされたセグメントが、通常のオーバーラップして加える手順で、先行して逆変換されたセグメントに加えられ、再生された時間領域の出力信号が得られる。

図１５ａおよび図１５ｂは、タイムワープ処理符号化の本発明の概念の強度を示し、同一信号においてタイムワープ処理を適用されたものとされていないものとのスペクトル表現を示している。図１５ａは、１６ｋＨｚでサンプルされた男性のスピーチ信号セグメントの変換サイズ１０２４の修正離散コサイン変換から生じるスペクトル線のフレームを図示する。得られた周波数分解能は７．８Ｈｚであり、この図示では初めの６００本だけがプロットされ、これは４．７ｋＨｚの帯域幅に相当する。基本周波数およびプロットから分かるように、セグメントは、約１５５Ｈｚの平均ピッチを有する有声音である。図１５ａからさらに分かるように、わずかのピッチ周波数の基本成分が明確に識別されるが、高周波に向かうほど、分析の密度とスクランブルが増加している。これは、分析対象の信号セグメントの長さ内にあるピッチの変化によるものである。したがって、中間から高周波の範囲の符号化には、復号化で可聴なアーチファクトが持ち込まれないようにするために相当量のビットが必要となる。逆に、ビットレートを固定すると、量子化の粗さを大きくする必要性から、必然的にかなりの量の歪みが生ずることになる。

図１５ｂは、本発明によるタイムワープ処理修正離散コサイン変換から生じるスペクトル線のフレームを図示する。当然ながら、図１５ａにおけるのと同じ元の男性音声信号が用いられている。変換パラメータは、図１５ａのものと同じであるが、その信号に適合されたタイムワープ処理変換によって、スペクトル表現に明らかに飛躍的な効果がもたらされている。タイムワープ処理された変換領域における信号の疎で整った特徴によって、追加のワープ・データの符号化のコストを考慮に入れても、ずっと良好なレート・歪パフォーマンスによる符号化が達成される。

既に述べたように、ピッチまたは速度情報の送信の代わりに、ワープ・パラメータを送信することにより、必要な追加ビットレートを飛躍的に低減する利点が得られる。したがって、以下のパラグラフでは、必要なワープ・パラメータ情報を送信する本発明のスキームのいくつかを詳述する。

時間ｔにおけるワープａ（ｔ）を有する信号に対して、局所コサイン基底（（８）、（１２）参照）の正規化ワープ・マップ・シーケンスΨ_kの最適な選択は、
を解くことによって得られる。

しかしながら、このワープ・マップ・シーケンスを表すために必要な情報の量は大きすぎ、ａ（ｔ）の点別の値の定義および測定は困難である。実際上は、ワープ更新間隔Δｔが決定され、各ワープ・マップΨ_kはＮ＝１／Δｔのパラメータによって表される。スピーチ信号に対しては、通常１０〜２０ｍｓ位のワープ更新間隔で十分である。（９）式のΨ_kおよびΨ_k+1からφ_kを構成するのと同様に、連続微分可能な正規化ワープ・マップを、適切のアフィン再スケール操作を介して、Ｎの正規化ワープ・マップにより一緒に接合することができる。正規化ワープ・マップのプロトタイプの例には、
が含まれ、ここで、ａはワープ・パラメータである。ｈ”／ｈ’によってマップｈ（ｔ）のワープを定義すれば、３つのマップ全てがｔ＝１／２においてａに等しくなる。指数関数マップは、０≦ｔ≦１の全区間において一定のワープを有し、ａの小さな値に対しては、他の２つのマップは、この一定の値から非常に小さな偏差を示す。再サンプリング（２３）のためのデコーダの中で適用される所定のワープ・マップに対して、エンコーダでは、再サンプリング（式１８）に対してその逆が必要となる。反転作業の主要部分は、正規化ワープ・マップの反転から生じる。二次マップの反転には、平方根操作が必要であり、指数関数マップの反転には、対数が必要であり、有理メビウス・マップの反転は、否定ワープ・パラメータを用いたメビウス・マップである。指数関数および分割は同等に高価なので、デコーダにおける計算を最大に軽減することを重視すれば、区分的な二次ワープ・マップ・シーケンスΨ_kが好ましい選択となる。

正規化ワープ・マップΨ_kは、次にＮのワープ・パラメータａ_k（０），ａ_k（１），…，ａ_k（Ｎ−１）によって、以下を要件として全面的に定義される。
・正規化ワープ・マップである。
・円滑なプロトタイプ・ワープ・マップ（２５）の１つの再スケールされたコピーによって一緒に結合されている。
・連続微分可能である。
・次式を満たす。

本発明は、ワープ・パラメータを、典型的には、約０．５Ｈｚのステップ・サイズでリニアに量子化することが可能であると教示する。次に得られた整数値が符号化される。この代わりに、微分係数Ψ_k’を正規化ピッチ・カーブとして解釈することができ、値
が、一定のステップ・サイズ、通常０．００５で量子化される。この場合、得られた整数値は、逐次的にまたは階層的な仕方で、さらに差分符号化される。双方の場合において、得られたサイド情報のビットレートは、通常、１秒あたり数百ビットであり、これは、スピーチ・コーデックにおけるピッチ・データを表すために必要なレートのわずかな部分でしかない。

大きな計算資源を有するエンコーダは、符号化コストを最適に削減しまたはスペクトル線の希薄さの尺度を最大化するワープ・データ・シーケンスを、決定することができる。もっと低コストの手順は、ピッチをトラッキングし測定されたピッチ関数ｐ（ｔ）を得、さらに、ピッチ・トラックが存在し、ピッチ値の大きなジャンプがないような間隔内で、区分線形関数ｐ₀（ｔ）によるピッチ・カーブを近似するという周知の方法を用いることである。このとき、推定されたワープ・シーケンスは、ピッチ・トラッキング間隔内部で
によって与えられる。これら間隔の外側において、ワープはゼロに設定される。なお、ピッチ周期重複のようなピッチ推定中の系統誤差は、ワープ推定にほとんど影響を与えない。

図１０に示すように、本発明の別の実施形態では、ワープ処理パラメータ・シーケンスは、ワープ推定器によって、復号化された変換領域データから導き出すことができる。原理は、変換データの各フレームに対する、または、その後の復号化された信号ブロックのピッチから、周波数領域のピッチ推定を計算することである。次に、式（２８）と同様な式からワープ情報が導き出される。

本発明の概念の適用を、主として、単一の音声チャネル・シナリオにおける本発明のタイムワープ処理を適用することによって説明してきた。当然ながら、本発明の概念は、そのようなモノラルのシナリオに決して限定されるものではない。本発明の概念によって実現可能な高い符号化利得をマルチチャネル符号化アプリケーションの中で用いるとさらに大きな効果を得ることができ、本発明の概念を用いて送信する必要のある単一のまたは複数のチャネルを符号化することができる。

さらに、ワープ処理を、ｘに依存する任意の関数のｘ軸の変換として一般的に定義することができる。したがって、本発明の概念を、明示的に時間に依存しない関数または信号表現をワープ処理するシナリオに適用することもできる。例えば、信号の周波数表現のワープ処理も実施することもできる。

さらに、上述のパラグラフで説明したように、本発明の概念を、任意のセグメント長で区分化されるが等しい長さには区分化されていない信号にも有利に適用することができる。

さらに、上述のパラグラフで提示した基底関数および離散化の使用については、本発明の概念を適用する上での１つの有利な例として理解される。他のアプリケーションに対して、違った基底関数および違った離散化を用いることもできる。本発明の方法の特定の実現要求によっては、本発明の方法は、ハードウエアまたはソフトウエアで実施することができる。この実施は、本発明の方法が実行されるように、プログラム可能なコンピュータ・システムと協働する、それに記憶された電子的に読み取り可能な制御信号を有する、デジタル記憶媒体、特に、ディスク、ＤＶＤまたはＣＤを用いて実行することができる。そのため、本発明は、一般に、コンピュータ・プログラム製品がコンピュータ上で実行される場合に、機械で読み取り可能なキャリアに記憶された本発明の方法を実行するためのプログラム・コードを有するコンピュータ・プログラム製品である。言い換えると、本発明は、コンピュータ・プログラムがコンピュータ上で実行される場合に、少なくとも１つの本発明の方法を実行するためのプログラム・コードを有するコンピュータ・プログラムである。

上述には本発明の特定の実施の形態に関して特に示され説明されたが、形式や詳細のさまざまな他の変更が本発明の精神および範囲から逸脱することなくできるということは、当業者にとって理解されよう。さまざまな変更が本願明細書において開示されさらに特許請求の範囲によって理解される上位概念から逸脱することなく異なる実施の形態に適応する際にできることを理解すべきである。

Claims

音声入力信号（１００）を受信し、さらにデコーダに送信されるビットストリームを生成するための音声エンコーダであって、
ワープ・パラメータ・シーケンスを推定するためのワープ・パラメータ・エクストラクタ（１０１）と、
前記ワープ・パラメータ・シーケンスを受信し、さらに前記音声入力信号（１００）のタイムワープ処理スペクトル表現を導き出すためのワープ・トランスフォーマ（１０２）と、
前記音声入力信号（１００）を受信するための知覚モデル・カルキュレータ（１０３）と、
送信時の前記ビットストリーム内におけるサイズを小さくするために、前記ワープ・パラメータ・シーケンスを符号化するためのワープ・コーダ（１０４）と、
前記音声入力信号の符号化されたタイムワープ処理スペクトル表現を得るために、量子化のための前記タイムワープ処理スペクトル表現を受信するためのエンコーダ（１０５）であって、前記エンコーダ（１０５）は前記知覚モデル・カルキュレータ（１０３）によって制御される、エンコーダと、
前記符号化されたワープ・パラメータ・シーケンスおよび前記音声入力信号の前記符号化されたタイムワープ処理スペクトル表現を受信しさらに多重化するためのマルチプレクサ（１０６）とを含む、音声エンコーダ。
再生された音声信号を導き出すためのタイムワープ処理変換デコーダであって、
ビットストリームを符号化されたワープ・パラメータ・シーケンスおよびタイムワープ処理スペクトル表現の符号化された表現に逆多重化するための逆マルチプレクサ（２０１）と、
前記ワープ・パラメータ・シーケンスの再生を導き出すために、前記符号化されたワープ・パラメータ・シーケンスを復号化するためのワープ・デコーダ（２０２）と、
音声信号のタイムワープ処理スペクトル表現を導き出すために、前記タイムワープ処理スペクトル表現の前記符号化された表現を復号化するためのデコーダ（２０３）と、
前記ワープ・パラメータ・シーケンスの前記再生および前記音声信号の前記タイムワープ処理スペクトル表現を受信し、さらにタイムワープ処理オーバーラップ変換符号化を用いて前記再生された音声出力信号を導き出すための逆ワープ・トランスフォーマ（２０４）とを含む、デコーダ。
ビットストリームを生成するための音声符号化の方法であって、
音声入力信号（１００）を受信するステップと、
ワープ・パラメータ・シーケンスを推定するステップ（１０１）と、
前記ワープ・パラメータ・シーケンスを用いて前記音声入力信号（１００）のタイムワープ処理スペクトル表現を導き出すステップ（１０２）と、
送信時に前記ビットストリーム内におけるサイズを小さくするために、前記ワープ・パラメータ・シーケンスを符号化するステップ（１０４）と、
前記音声入力信号の符号化されたタイムワープ処理スペクトル表現を得るために、前記タイムワープ処理スペクトル表現を量子化するステップ（１０５）であって、量子化するステップ(１０５)は知覚モデル・カルキュレータ（１０３）によって制御される、ステップと、
前記符号化されたワープ・パラメータ・シーケンスおよび前記音声入力信号の前記符号化されたタイムワープ処理スペクトル表現を多重化するステップ（１０６）とを含む、方法。
再生された音声信号を導き出すためのタイムワープ処理変換復号化の方法であって、
ビットストリームを符号化されたワープ・パラメータ・シーケンスおよびタイムワープ処理スペクトル表現の符号化された表現に逆多重化するステップ（２０１）と、
前記ワープ・パラメータ・シーケンスの再生を導き出すために、前記符号化されたワープ・パラメータ・シーケンスを復号化するステップ（２０２）と、
音声信号のタイムワープ処理スペクトル表現を導き出すために、前記タイムワープ処理スペクトル表現の前記符号化された表現を復号化するステップ（２０３）と、
前記ワープ・パラメータ・シーケンスの前記再生および前記音声信号の前記タイムワープ処理スペクトル表現を用いて、タイムワープ処理オーバーラップ変換符号化を用いて前記再生された音声出力信号を導き出すステップ（２０４）とを含む、方法。
コンピュータ上で実行されるときに、請求項３または請求項４に記載の方法のいずれかを実行するように構成されるプログラム・コードを有するコンピュータ・プログラム。