JP2011527458A

JP2011527458A - タイムワープ作動信号供給部、オーディオ信号エンコーダ、タイムワープ作動信号を供給するための方法、オーディオ信号をエンコードするための方法、及びコンピュータープログラム

Info

Publication number: JP2011527458A
Application number: JP2011517015A
Authority: JP
Inventors: バイエル・シュテファン; ディッシュ・ザーシャ; ゲイゲル・ラルフ; フッハス・グイルラウメ; ノイエンドルフ・マックス; シュルレル・ゲラルド; エドレル・ベルンド
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2008-07-11
Filing date: 2009-07-06
Publication date: 2011-10-27
Anticipated expiration: 2029-07-06
Also published as: ES2758799T3; CN103000177A; CA2730239A1; HK1184903A1; CA2836863C; RU2012150075A; JP5591386B2; CA2836862A1; KR20110043589A; US9646632B2; JP5567191B2; KR101360456B1; RU2012150074A; US20150066488A1; CN102150201B; KR101400513B1; PT2410522T; TW201009812A; EP2311033A2; EP2410521A1

Abstract

オーディオエンコーダは、ウインドウ関数コントローラ（５０４）、ウインドウ設定部（５０２）、最終的な品質チェック機能を有するタイムワーパー（５０６）、時間／周波数コンバータ（５０８）、ＴＮＳ段（５１０）又は量子化部エンコーダ（５１２）を備えており、ウインドウ関数コントローラ（５０４）、タイムワーパー（５０６）、ＴＮＳ段（５１０）又は追加のノイズフィリング分析部（５２４）は、タイムワープ分析部（５１６）又は信号分類部（５２０）によって得られる信号分析結果によって制御される。さらに、デコーダは、オーディオ信号のハーモニック又はスピーチ特性に応じて操作されたノイズフィリングの推定を使用してノイズフィリング操作を作動させる。
【選択図】図５Ａ

Description

本発明はオーディオエンコーディング及びデコーディングに関し、具体的には、タイムワープ処理を加えることができるハーモニック成分又はスピーチ成分を有するオーディオ信号のエンコーディング／デコーディングに関する。

以下で、タイムワープ型オーディオエンコーディングの分野への簡単な案内を提示する。タイムワープ型オーディオエンコーディングの考え方は、本発明の実施の形態のいくつかに関連して適用することができる。

近年において、オーディオ信号を周波数ドメイン表現へ変換し、この周波数ドメイン表現を、例えば知覚のマスキングしきい値を考慮して、効率的にエンコードするための技法が開発されてきている。オーディオ信号のエンコーディングのこの考え方は、ブロック長（ブロック長ごとに１組のエンコード後のスペクトル係数が送信される。）が長い場合、及びグローバルなマスキングしきい値を充分に上回るスペクトル係数の数が比較的少数であって、スペクトル係数のうちの多くがグローバルなマスキングしきい値の付近又はそれ以下であり、ゆえに無視することが可能である（あるいは、最小限のコード長でコーディングすればよい）場合に、特に効率的である。

例えば、余弦ベース又は正弦ベースの変調重複変換（modulated lapped transform）が、それらのエネルギー圧縮特性ゆえに、ソースコーディングのための用途において頻繁に使用される。すなわち、一定の基本周波数（ピッチ）を有する倍音については、信号のエネルギーが少数のスペクトル成分（サブ帯域）に集中させられ、効率的な信号の表現がもたらされる。

一般に、信号の（基本）ピッチは、信号のスペクトルから識別することができる最も低い優位周波数（dominant frequency）と理解されるべきである。一般的なスピーチモデルにおいては、ピッチは人間ののどによって変調された励起信号の周波数である。ただ１つの基本周波数だけが存在すると考えられる場合、スペクトルはきわめて単純になり、基本周波数及び倍音だけを含むと考えられる。そのようなスペクトルは、きわめて効率的にエンコードすることが可能である。しかしながら、ピッチが変化する信号においては、各々のハーモニック成分に対応するエネルギーが、いくつかの変換係数にわたって広がり、コーディング効率が低下する結果となる。

このコーディング効率の低下を克服するために、エンコードすべきオーディオ信号が非一様な時間格子上で効率的に再サンプリングされる。続く処理において、非一様な再サンプリングによって得られたサンプル位置があたかも一様な時間格子上の値を表わしているかのように処理される。この操作は、一般に、「タイムワーピング(time warping)」という用語で呼ばれている。サンプル時間は、オーディオ信号のタイムワープ後のバージョンにおけるピッチ変化がオーディオ信号の（タイムワーピング前の）元のバージョンにおけるピッチ変化よりも小さくなるように、ピッチの時間変化に依存して好都合に選択することができる。このピッチ変化は「タイムワープコンター（time warp contour）」という用語で呼ばれることもある。オーディオ信号のタイムワーピングの後で、オーディオ信号のタイムワープ済みのバージョンが周波数ドメインへ変換される。ピッチ依存のタイムワーピングは、タイムワープ後のオーディオ信号の周波数ドメイン表現が、典型的には、元の（タイムワープが加えられていない）オーディオ信号の周波数ドメイン表現と比べて、はるかに少数のスペクトル成分へのエネルギー圧縮を呈するという効果を有する。

デコーダ側において、タイムワープ済みのオーディオ信号の周波数ドメイン表現は、タイムワープ済みのオーディオ信号の時間ドメイン表現をデコーダ側において利用できるように、再び時間ドメインへ変換される。しかしながら、デコーダ側で再現されたタイムワープ済みのオーディオ信号の時間ドメイン表現には、エンコーダ側での入力オーディオ信号の元のピッチ変化が含まれていない。したがって、デコーダ側で再現されたタイムワープ済みのオーディオ信号の時間ドメイン表現について、再サンプリングによるさらに別のタイムワーピングが適用される。デコーダ側においてエンコーダ側での入力オーディオ信号の良好な再現を得るために、デコーダ側でのタイムワーピングが、エンコーダ側でのタイムワーピングに対して少なくともほぼ逆の操作であることが望ましい。適切なタイムワーピングを得るために、デコーダ側でのタイムワーピングの調節を可能にする情報がデコーダにおいて入手可能であることが望ましい。

そのような情報をオーディオ信号のエンコーダからオーディオ信号のデコーダへ伝達することが典型的に必要とされるため、この伝達に必要なビットレートを小さく保ちつつ、デコーダ側における必要なタイムワープ情報の確実な再現を依然として可能にすることが望まれる。

以上の検討に鑑み、オーディオエンコーダにおいて、タイムワープの考え方をビットレートに関して効率的に応用できるようにする考え方を生み出すことが望まれている。

本発明の目的は、タイムワーピング式オーディオ信号エンコーダ又はタイムワープ式オーディオ信号デコーダにおいて入手できる情報に基づいてエンコード済みのオーディオ信号によってもたらされる聴覚的印象を改善するための考え方を生み出すことにある。

この目的は、オーディオ信号の表現に基づいてタイムワープ作動信号を供給するための請求項１に記載のタイムワープ作動信号供給部、入力オーディオ信号をエンコードするための請求項１２に記載のオーディオ信号エンコーダ、タイムワープ作動信号を供給するための請求項１４に記載の方法、入力オーディオ信号のエンコード済み表現を供給するための請求項１５に記載の方法、又は請求項１６に記載のコンピュータープログラムによって達成される。

本発明のさらなる目的は、より高い品質又はより低いビットレートを提供する優れたオーディオエンコーディング／デコーディングの仕組みを提供することにある。

この目的は、請求項１７、２６、３２、又は３７に記載のオーディオエンコーダ、請求項２０に記載のオーディオデコーダ、請求項２３、３０、３５、又は３７に記載のオーディオエンコーディングの方法、請求項２４に記載のデコーディングの方法、あるいは請求項２５、３１、３６、又は４３に記載のコンピュータープログラムによって達成される。

本発明による実施の形態はタイムワープＭＤＣＴ変換コーダーのための方法に関する。いくつかの実施の形態はエンコーダのみのツールに関する。しかしながら、他の実施の形態はデコーダツールにも関する。

本発明の一実施の形態は、オーディオ信号の表現に基づいてタイムワープ作動信号を供給するためのタイムワープ作動信号供給部を生み出す。タイムワープ作動信号供給部は、オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を描写するエネルギー圧縮情報を供給するように構成されたエネルギー圧縮情報供給部を備えている。さらに、タイムワープ作動信号供給部は、エネルギー圧縮情報を基準値と比較して、比較の結果に応じてタイムワープ作動信号を供給するように構成された比較部を備えている。

この実施の形態は、オーディオ信号のタイムワープ変換後のスペクトル表現が、エネルギーが１つ以上のスペクトル領域（又はスペクトルライン）に集中しているという点で充分にコンパクトなエネルギー分布を含む場合に、オーディオ信号エンコーダにおけるタイムワープ機能の使用が、典型的には、エンコード後のオーディオ信号のビットレートの削減という意味の改善をもたらすという発見に基づいている。これは、成功したタイムワーピングは、例えばオーディオフレームの不鮮明なスペクトルを、１つ以上の識別可能なピークを有し、したがって元の（非タイムワープの）オーディオ信号のスペクトルよりも高いエネルギー圧縮を有しているスペクトルへ変換することによって、ビットレートの減少という効果をもたらすという事実によるものである。

この件に関し、オーディオ信号のフレームで、そのオーディオ信号のピッチが大きく変化するものは不鮮明なスペクトルを含むことを理解すべきである。オーディオ信号の時間変化するピッチは、オーディオ信号のフレームについて実行される時間ドメインから周波数ドメインへの変換が信号エネルギーの不鮮明な分布を周波数に、特に高い方の周波数の領域にもたらすという結果を有している。したがって、そのような元の（非タイムワープの）オーディオ信号のスペクトル表現は低いエネルギー圧縮を含んでおり、典型的にはスペクトルの高い方の周波数の部分にスペクトルのピークを呈していないか、又はスペクトルの高い方の周波数の部分に比較的小さいスペクトルのピークを呈するだけである。それに対し、タイムワーピングが（エンコーディング効率の改善をもたらすことに関して）成功した場合、元のオーディオ信号のタイムワーピングによって、（特にスペクトルの高い方の周波数の部分に）比較的高くかつ明確なピークを持つスペクトルを有するタイムワープ後オーディオ信号がもたらされる。これは、時間変化するピッチを有するオーディオ信号が、ピッチの変化がより小さく又はピッチがほぼ一定でさえあるタイムワープ後オーディオ信号へ変換されるという事実によるものである。結果として、タイムワープ後オーディオ信号のスペクトル表現（オーディオ信号のタイムワープ変換後のスペクトル表現と考えることができる）が、１つ以上の明確なスペクトルピークを含む。換言すると、元のオーディオ信号（時間変化するピッチを有している）のスペクトルの不鮮明さが成功したタイムワープ操作によって軽減され、オーディオ信号のタイムワープ変換後のスペクトル表現が元のオーディオ信号のスペクトルよりも高いエネルギーの圧縮を含む。しかしながら、タイムワーピングは、コーディング効率の改善に常に成功するわけではない。例えば、タイムワーピングは、入力オーディオ信号が大きなノイズ成分を含んでいる場合や、抽出されたタイムワープコンターが不正確である場合にはコーディング効率を改善しない。

この状況に鑑み、エネルギー圧縮情報供給部によってもたらされるエネルギー圧縮情報が、タイムワープがビットレートの削減に関して成功するか否かを判断するための価値ある目安である。

本発明の一実施の形態は、オーディオ信号の表現に基づいてタイムワープ作動信号を供給するためのタイムワープ作動信号供給部を生み出す。タイムワープ作動供給部は、同じオーディオ信号について異なるタイムワープコンター情報を使用して２つのタイムワープ表現を供給するように構成された２つのタイムワープ表現供給部を備えている。したがって、タイムワープ表現供給部は（構造的及び／又は機能的に）同じ方法で構成することができ、同じオーディオ信号を使用するが、異なるタイムワープコンター情報を使用する。さらに、タイムワープ作動信号供給部は、第１のタイムワープ表現に基づいて第１のエネルギー圧縮情報を供給し、第２のタイムワープ表現に基づいて第２のエネルギー圧縮情報を供給するように構成された２つのエネルギー圧縮情報供給部を備えている。エネルギー圧縮情報供給部は、同じ方法で、しかし異なるタイムワープ表現を使用するように構成することができる。さらに、タイムワープ作動信号供給部は、２つの異なるエネルギー圧縮情報を比較して、比較の結果に応じてタイムワープ作動信号を供給するための比較部を備えている。

好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報として、オーディオ信号のタイムワープ変換後のスペクトル表現を描写するスペクトルの平坦さの指標を供給するように構成される。タイムワープは、入力オーディオ信号のスペクトルを入力オーディオ信号のタイムワープ後のバージョンを表わすより平坦でないタイムワープスペクトルへ変換する場合に、ビットレートの削減に関して成功であることが明らかになっている。したがって、スペクトルの平坦さの指標は、スペクトルのエンコーディングプロセスをすべては実行することなく、タイムワープを有効にすべきか又は無効にすべきかを判断するために使用することができる。

好ましい実施の形態においては、エネルギー圧縮情報供給部は、スペクトルの平坦さの指標を得るために、タイムワープ変換後のパワースペクトルの幾何平均とタイムワープ変換後のパワースペクトルの算術平均との商を計算するように構成される。この商は、タイムワーピングによって得ることができる可能なビットレートの節約の描写によく適合したスペクトルの平坦さの指標であることが明らかになっている。

他の好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報を得るために、タイムワープ変換後のスペクトル表現の高い方の周波数部分を、タイムワープ変換後のスペクトル表現の低い方の周波数部分に比べて強調するように構成される。この考え方は、タイムワープが、典型的には、低い方の周波数範囲よりも高い方の周波数範囲に対してはるかに大きな影響を有しているという発見に基づいている。したがって、高い方の周波数範囲を優先的に評価することが、タイムワープの効果をスペクトルの平坦さの指標を使用して判断するために適切である。加えて、典型的なオーディオ信号は、周波数が高くなるにつれて強度が減少するハーモニック成分（基本周波数の高調波を含んでいる）を呈している。タイムワープ変換後のスペクトル表現の高い方の周波数部分をタイムワープ変換後のスペクトル表現の低い方の周波数部分に比べて強調することは、この典型的な周波数の増加につれてのスペクトルラインの減衰を補償するうえでも役にたつ。要約すると、スペクトルの高い方の周波数部分を強調して考慮することで、エネルギー圧縮情報の信頼性の向上がもたらされ、したがってタイムワープ作動信号のより確実な供給が可能になる。

他の好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報を得るために、スペクトルの平坦さについて複数の帯域ごとの指標を得、この複数の帯域ごとのスペクトルの平坦さの指標の平均を計算するように構成される。帯域ごとのスペクトルの平坦さの指標を考慮することで、タイムワープがエンコード後のオーディオ信号のビットレートの削減に有効であるか否かについて、きわめて信頼できる情報がもたらされることが明らかになっている。第１に、タイムワープ変換後のスペクトル表現のエンコーディングが典型的には帯域ごとの方法で実行され、したがって帯域ごとのスペクトルの平坦さの指標の組み合わせがエンコーディングによく適合し、したがって得ることができるビットレートの改善を良好な精度で表わす。さらに、スペクトルの平坦さの指標を帯域ごとに計算することで、高調波の分布からのエネルギー圧縮情報の依存性が実質的に除かれる。例えば、たとえ高い方の周波数帯が比較的小さなエネルギー（低い方の周波数帯のエネルギーよりも小さい）を含む場合でも、高い方の周波数帯が、依然として知覚的に重要である可能性がある。しかしながら、スペクトルの平坦さの指標を帯域ごとの方法で計算しない場合には、単純に高い方の周波数帯のエネルギーが小さいという理由で、この高い方の周波数帯に対するタイムワープの肯定的影響（スペクトルラインの不鮮明さの軽減という意味で）が小さいと判断されてしまうであろう。それに対し、帯域ごとのスペクトルの平坦さの指標はそれぞれの周波数帯の絶対的なエネルギーから独立しているため、帯域ごとの計算を適用することによってタイムワープの肯定的影響を適切な重みで考慮することができる。

他の好ましい実施の形態においては、タイムワープ作動信号供給部は、前記基準値を得るために、オーディオ信号のタイムワーピングされていないスペクトル表現を描写するスペクトルの平坦さの指標を計算するように構成された基準値計算部を備えている。したがって、入力オーディオ信号のタイムワーピングされていない（すなわち、「非ワープ」の）バージョンのスペクトルの平坦さと、入力オーディオ信号のタイムワーピングされたバージョンのスペクトルの平坦さとの比較に基づいて、タイムワープ作動信号を供給することができる。

他の好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報として、オーディオ信号のタイムワープ変換後のスペクトル表現を描写する知覚エントロピーの指標を供給するように構成される。この考え方は、タイムワープ変換後のスペクトル表現の知覚エントロピーが、タイムワープ変換後のスペクトルをエンコードするために必要なビット数（又はビットレート）の良好な推定であるという発見に基づいている。したがって、タイムワープが使用される場合に追加のタイムワープ情報をエンコードしなければならないという事実に鑑みても、タイムワープ変換後のスペクトル表現の知覚エントロピーの指標はタイムワーピングによるビットレートの削減が期待できるか否かについての良好な指標である。

他の好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報として、オーディオ信号のタイムワープ後の表現の自己相関を描写する自己相関の指標を供給するように構成される。この考え方は、タイムワープの（ビットレートの削減に関する）効率をタイムワーピングされた（又は、非一様に再サンプリングされた）時間ドメイン信号に基づいて測定（又は、少なくとも推定）できるという発見に基づいている。タイムワープ後の時間ドメイン信号が比較的高度な周期性を含み、これが自己相関の指標に反映される場合にタイムワーピングが効率的であることが発見されている。それに対し、タイムワープ後の時間ドメイン信号が有意な周期性を含んでいない場合には、タイムワーピングが効率的でないと結論付けることができる。

この発見は、効率的なタイムワーピングが、（周期性を含んでいない）変化する周波数の正弦波信号の一部分を（高度の周期性を含んでいる）ほぼ一定の周波数の正弦波信号の一部分へ変換するという事実に基づいている。それに対し、タイムワーピングが高度な周期性を有する時間ドメイン信号を供給することができない場合、タイムワーピングが、タイムワーピングの適用を正当化すると考えられる大きなビットレートの節約ももたらさないと予想することができる。

好ましい実施の形態においては、エネルギー圧縮情報供給部は、エネルギー圧縮情報を得るために、オーディオ信号のタイムワープ後の表現の（複数のラグ（lag）値にわたる）正規化された自己相関関数の絶対値の合計を割り出すように構成される。演算に関して複雑な自己相関ピークの割り出しは、タイムワーピングの効率の推定のためには不要であることが明らかになっている。むしろ、或る（広い）範囲の自己相関ラグ値にわたって自己相関の評価を合計することも、きわめて信頼できる結果をもたらすことが明らかになっている。これは、タイムワープが、変化する周波数の複数の信号成分（例えば、基本周波数及びその高調波）を周期的な信号成分へ実際に変換するという事実に起因する。したがって、そのようなタイムワープ後信号の自己相関は複数の自己相関ラグ値にピークを呈する。したがって、和の形成は自己相関からエネルギー圧縮情報を抽出する演算に関して効率的な方法である。

別の好ましい実施の形態においては、タイムワープ作動信号供給部は、オーディオ信号のタイムワーピングされていないスペクトル表現に基づき、又はオーディオ信号のタイムワーピングされていない時間ドメイン表現に基づいて、前記基準値を計算するように構成された基準値計算部を備える。この場合、前記比較部は、典型的には、オーディオ信号のタイムワープ変換後のスペクトルにおけるエネルギーの圧縮を描写するエネルギー圧縮情報と前記基準値を使用して比の値を形成するように構成される。さらに比較部は、前記比の値を１つ以上のしきい値と比較してタイムワープ作動信号を得るように構成される。非タイムワープの場合のエネルギー圧縮情報とタイムワープされた場合のエネルギー圧縮情報との間の比は、演算に関して効率的であり、さらに充分に信頼することができるタイムワープ作動信号の生成を可能にすることが明らかになっている。

本発明の別の好ましい実施の形態は、入力オーディオ信号をエンコードして、この入力オーディオ信号のエンコード済み表現を得るためのオーディオ信号エンコーダを生み出す。このオーディオ信号エンコーダは入力オーディオ信号に基づいてタイムワープ変換済みのスペクトル表現を供給するように構成されたタイムワープ変換部を備えている。さらに、このオーディオ信号エンコーダは上述のようなタイムワープ作動信号供給部を備えている。タイムワープ作動信号供給部は、入力オーディオ信号を受信し、入力オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を描写するようなエネルギー圧縮情報を供給するように構成されている。さらにオーディオ信号エンコーダは、発見された非一定の（変化する）タイムワープコンター部分もしくはタイムワーピング情報、又は標準の一定な（変化しない）タイムワープコンター部分もしくはタイムワーピング情報を、タイムワープ作動信号に応じて選択的にタイムワープ変換部へ供給するように構成されたコントローラを備えている。このように、入力オーディオ信号からのエンコード済みのオーディオ信号表現の導出において、発見された非一定のタイムワープコンター部分を選択的に受理又は拒絶することができる。

この考え方は、タイムワープ情報をエンコードするためにかなりのビット数が必要になるため、タイムワープ情報を入力オーディオ信号のエンコード済みの表現へ導入することは常に効率的であるとは限らないという発見に基づいている。さらに、タイムワープ作動信号供給部によって計算されるエネルギー圧縮情報は、タイムワープ変換部に発見された変化する（非一定の）タイムワープコンター部分又は標準の（変化しない一定の）タイムワープコンターを供給することが有利であるかを判断するための演算に関して効率的な指標であることが明らかになっている。タイムワープ変換部がオーバーラッピング変換を含む場合に、発見されたタイムワープコンター部分を２つ以上の次の変換ブロックの計算に使用できることに注意すべきである。特に、タイムワーピングがビットレートの節約を可能にするか否かを判断できるようにするために、新たに発見された変化するタイムワープコンター部分を使用した入力オーディオ信号のタイムワープ変換後のスペクトル表現のバージョン、及び標準の（非変化の）タイムワープコンター部分を使用した入力オーディオ信号のタイムワープ変換後のスペクトル表現のバージョンの両方を、完全にエンコードする必要のないことが明らかになっている。むしろ、入力オーディオ信号のタイムワープ変換後のスペクトル表現のエネルギー圧縮の評価が、決定の信頼できる根拠を形成することが明らかになっている。したがって、必要とされるビットレートを小さく保つことができる。

さらなる好ましい実施の形態においては、オーディオ信号エンコーダは、発見された変化するタイムワープコンターを表わすタイムワープコンター情報をオーディオ信号のエンコード済み表現へとタイムワープ作動信号に応じて選択的に含ませるように構成された出力インターフェイスを備える。その結果、入力信号がタイムワーピングによく適しているか否かにかかわらず、高効率のオーディオ信号エンコーディングを得ることができる。

本発明によるさらなる実施の形態は、オーディオ信号に基づいてタイムワープ作動信号を供給するための方法を生み出す。この方法は、タイムワープ作動信号供給部の機能を実現し、タイムワープ作動信号供給部に関して本明細書において説明される特徴及び機能の任意のいずれかによって補うことができる。

本発明による別の実施の形態は、入力オーディオ信号をエンコードして、この入力オーディオ信号のエンコード済み表現を得るための方法を生み出す。この方法は、オーディオ信号エンコーダに関して本明細書において説明される特徴及び機能の任意のいずれかによって補うことができる。

本発明による別の実施の形態は、本明細書に記載の方法を実行するためのコンピュータープログラムを生み出す。

本発明の第１の態様によれば、オーディオ信号がハーモニック特性又はスピーチ特性を有するか否かについてのオーディオ信号の分析が、エンコーダ側及び／又はデコーダ側でのノイズフィリング処理を制御するために好都合に使用される。タイムワープ機能は、一方ではスピーチと他方ではミュージックとの間の区別及び／又は有声のスピーチと無声のスピーチとの間の区別のための、ピッチ追跡部及び／又は信号分類部を一般的に含んでいるため、タイムワープ機能が使用されるシステムにおいてはオーディオ信号の分析は容易に得ることができる。この情報は、そのような背景においてはさらなるコストを必要とせずに利用可能であるため、この利用可能な情報は、特にスピーチ信号についてハーモニックラインの間のノイズフィリングを少なくし又はなくすように、ノイズフィリングの特徴を制御するために好都合に使用することができる。強いハーモニック成分が得られるが、スピーチがスピーチ検出部によって直接には検出されない状況においても、ノイズフィリングを減らすことでより高い知覚品質がもたらされる。この特徴は、ハーモニック／スピーチの分析がいずれにせよ実行され、したがってこの情報が追加のコストを必要とせずに利用可能であるシステムにおいて特に有用であるが、信号がハーモニック又はスピーチ特性を有するか否かについての信号分析に基づくノイズフィリングの仕組みの制御は、特定の信号分析部をシステムへ挿入しなければならない場合であってもさらに有用である。というのは、エンコーダからデコーダへと送信することができるノイズフィリングレベルそのものが下げられる場合にノイズフィリングレベルをエンコードするために必要なビットが少なくなるため、ビットレートを増加させることなく品質が高められ、逆に言えば、品質を損なうことなくビットレートが下げられるからである。

本発明のさらなる態様においては、信号分析結果、すなわち信号がハーモニック信号又はスピーチ信号であるか否かが、オーディオエンコーダのウインドウ関数の処理を制御するために使用される。スピーチ信号又はハーモニック信号が始まる状況において、簡単なエンコーダは、長いウインドウから短いウインドウへ切り換わる可能性が高いことが明らかになっている。しかしながら、これらの短いウインドウは、結果的に低い周波数分解能を有し、このことが、他方において、強いハーモニック信号におけるコーディングゲインを低下させ、したがってそのような信号部分のコーディングに必要なビット数が増えると考えられる。これに照らし、この態様において定められる本発明は、スピーチ又はハーモニック信号の開始が検出されるときに短いウインドウよりも長いウインドウを使用する。あるいは、長いウインドウとおおむね同様の長さを有するが、前エコーを効果的に減らすためにより短い重なり合いのウインドウが選択される。一般に、信号特性、すなわちオーディオ信号の時間フレームがハーモニック又はスピーチ特性を有しているか否かが、この時間フレームのためのウインドウ関数を選択するために使用される。

本発明のさらなる態様によれば、ＴＮＳ（時間ノイズ整形）ツールが、基礎となる信号がタイムワーピング操作に基づいているか又は線形ドメインにあるかに基づいて制御される。典型的には、タイムワーピング操作によって処理された信号は強いハーモニック成分を有する。そうでない場合、タイムワーピング段に組み合わせられたピッチ追跡部が有効なピッチコンターを出力しないと考えられ、そのような有効なピッチコンターが存在しない場合、オーディオ信号のこの時間フレームについて、タイムワーピングの機能が無効にされていると考えられる。しかしながら、ハーモニック信号は、通常はＴＮＳ処理に適していない。ＴＮＳ処理は、ＴＮＳ段によって処理される信号がきわめて平坦なスペクトルを有する場合に特に有用であり、ビットレート／品質の大きなゲインを含む。しかしながら、信号の外観が調性を有する（tonal）場合、すなわちハーモニック成分又は有声成分を有するスペクトルの場合のように非平坦である場合、ＴＮＳツールによってもたらされる品質／ビットレートのゲインは少なくなるであろう。したがって、ＴＮＳツールの本発明による改良がない場合、タイムワープされた部分は典型的にはＴＮＳ処理を受けず、ＴＮＳフィルタ処理なしで処理される。それでもなお、他方では、ＴＮＳのノイズ整形の特徴は、特に信号の振幅／パワーが変化している状況において品質の改善をもたらす。ハーモニック信号又はスピーチ信号の開始が存在し、かつブロック切り替えの特徴が、この開始にもかかわらず長いウインドウ又は少なくとも短いウインドウよりも長いウインドウが維持されるように実現される場合において、このフレームについて時間ノイズ整形の特徴を有効にすることで、スピーチの開始の周辺へのノイズの集中がもたらされ、これが、後のエンコーダ処理において生じるフレームの量子化に起因してスピーチの開始の前に生じうる前エコーを効果的に軽減する。

本発明のさらなる態様によれば、可変のタイムワーピング特性／ワーピングコンターによるタイムワーピング操作の実行に起因して持ち込まれるフレームごとに変化する帯域幅を補償するために、可変の数のラインがオーディオエンコーディング装置内の量子化部／エントロピーエンコーダによって処理される。タイムワーピング操作がタイムワープ後のフレームに含まれるフレームの時間（線形項での）が増加する状況をもたらす場合、単一の周波数ラインの帯域幅が減少し、一定の全体としての帯域幅のために、処理される周波数ラインの数を非タイムワープの状況に関して増やさなければならない。他方で、タイムワーピング操作が、タイムワープ後のドメインにおけるオーディオ信号の実際の時間が線形ドメインでのオーディオ信号のブロック長に対して減少する状況をもたらす場合、単一の周波数ラインの周波数帯域幅が増加し、したがって帯域幅の変動を減らし、最適には帯域幅の変動をなくすために、ソースエンコーダによって処理されるラインの数を非タイムワーピングの状況に対して減らさなければならない。

次に、いくつかの好ましい実施の形態を、添付の図面に関して説明する。

本発明の一実施の形態によるタイムワープ作動信号供給部の概略のブロック図を示している。本発明の一実施の形態によるオーディオ信号エンコーダの概略のブロック図を示している。本発明の一実施の形態によるタイムワープ作動信号供給部の別の概略のブロック図を示している。オーディオ信号のタイムワーピングされていないバージョンのスペクトルのグラフ表示を示している。オーディオ信号のタイムワープ後のバージョンのスペクトルのグラフ表示を示している。個々の周波数帯のスペクトルの平坦さの指標の個別の計算のグラフ表示を示している。スペクトルの高い方の周波数部分だけを考慮するスペクトルの平坦さの指標の計算のグラフ表示を示している。高い方の周波数部分が低い方の周波数部分に対して強調されているスペクトル表現を用いてのスペクトルの平坦さの指標の計算のグラフ表示を示している。本発明の別の実施の形態によるエネルギー圧縮情報供給部の概略のブロック図を示している。時間ドメインにおける時間変化するピッチを有するオーディオ信号のグラフ表示を示している。図３Ｇのオーディオ信号の時間信号のタイムワープ後の（非一様に再サンプリングされた）バージョンのグラフ表示を示している。図３Ｇによるオーディオ信号の自己相関関数のグラフ表示を示している。図３Ｈによるオーディオ信号の自己相関関数のグラフ表示を示している。本発明の別の実施の形態によるエネルギー圧縮情報供給部の概略のブロック図を示している。オーディオ信号に基づいてタイムワープ作動信号を供給するための方法のフロー図を示している。入力オーディオ信号をエンコードして入力オーディオ信号のエンコード済み表現を得るための本発明の実施の形態による方法のフロー図を示している。本発明の態様を有するオーディオエンコーダの好ましい実施の形態を示している。本発明の態様を有するオーディオデコーダの好ましい実施の形態を示している。本発明のノイズフィリングの態様の好ましい実施の形態を示している。ノイズフィリングレベル操作部によって実行される制御動作を規定する表を示している。本発明に従ってタイムワープベースのブロック切り替えを実行するための好ましい実施の形態を示している。ウインドウ関数を操るための別の実施の形態を示している。タイムワープ情報に基づくウインドウ関数を示すためのさらに別の実施の形態を示している。有声の開始における通常のＡＡＣの挙動のウインドウの並びを示している。本発明の好ましい実施の形態に従って得られる代案のウインドウの並びを示している。ＴＮＳ（時間ノイズ整形）ツールのタイムワープベースの制御の好ましい実施の形態を示している。図８Ａのしきい値制御信号生成部において実行される制御手順を規定する表を示している。種々のタイムワーピング特性ならびにそれらに対応する、デコーダ側でのタイムデワーピング操作の後に生じるオーディオ信号の帯域幅への影響を示している。種々のタイムワーピング特性ならびにそれらに対応する、デコーダ側でのタイムデワーピング操作の後に生じるオーディオ信号の帯域幅への影響を示している。種々のタイムワーピング特性ならびにそれらに対応する、デコーダ側でのタイムデワーピング操作の後に生じるオーディオ信号の帯域幅への影響を示している。種々のタイムワーピング特性ならびにそれらに対応する、デコーダ側でのタイムデワーピング操作の後に生じるオーディオ信号の帯域幅への影響を示している。種々のタイムワーピング特性ならびにそれらに対応する、デコーダ側でのタイムデワーピング操作の後に生じるオーディオ信号の帯域幅への影響を示している。エンコーディングプロセッサ内のライン数を制御するコントローラの好ましい実施の形態を示している。破棄／追加すべきラインの数とサンプリングレートとの間の依存関係を示している。線形な時間尺とワープ後の時間尺との間の比較を示している。帯域幅の拡張における実施例を示している。タイムワープ後のドメインにおける局部サンプリングレートとスペクトル係数の制御との間の依存関係を示す表を示している。

図１は本発明の実施の形態によるタイムワープ作動信号供給部の概略のブロック図を示している。タイムワープ作動信号供給部１００は、オーディオ信号の表現１１０を受信し、これに基づいてタイムワープ作動信号１１２を供給するように構成されている。タイムワープ作動信号供給部１００は、オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を表わすエネルギー圧縮情報１２２を供給するように構成されたエネルギー圧縮情報供給部１２０を備えている。タイムワープ作動信号供給部１００は、エネルギー圧縮情報１２２を基準値１３２と比較して、比較の結果に応じてタイムワープ作動信号１１２を供給するように構成された比較部１３０をさらに備えている。

上述のように、エネルギー圧縮情報は、時間ワープがビットの節約をもたらすか否かを計算により効率的に推定できるようにする貴重な情報であることが明らかになっている。ビットの節約の存在が、タイムワープがエネルギーの圧縮をもたらすか否かという問いに密接に相関していることが明らかになっている。

図２Ａは本発明の一実施の形態によるオーディオ信号エンコーダ２００の概略のブロック図を示している。オーディオ信号エンコーダ２００は入力オーディオ信号２１０（ａ（ｔ）とも称される）を受信し、これに基づいて入力オーディオ信号２１０のエンコード済み表現２１２を供給するように構成されている。オーディオ信号エンコーダ２００はタイムワープ変換部２２０を備えており、タイムワープ変換部２２０は入力オーディオ信号２１０（時間ドメインで表現されていてよい）を受信し、これに基づいて入力オーディオ信号２１０のタイムワープ変換済みのスペクトル表現２２２を供給するように構成されている。オーディオ信号エンコーダ２００はさらにタイムワープ分析部２８４を備えており、タイムワープ分析部２８４は入力オーディオ信号２１０を分析し、これに基づいてタイムワープコンター情報（例えば、絶対的又は相対的なタイムワープコンター情報）２８６を供給するように構成されている。

オーディオ信号エンコーダ２００は、さらに、発見されたタイムワープコンター情報２８６又は標準のタイムワープコンター情報２８８のどちらがさらなる処理に使用されるのかを決定するための、例えば被制御スイッチ２４０の形態のスイッチング機構を備えている。すなわち、スイッチング機構２４０は、タイムワープ作動情報に応じて選択的に、発見されたタイムワープコンター情報２８６又は標準のタイムワープコンター情報２８８のいずれかを、新たなタイムワープコンター情報２４２として、さらなる処理のために、例えばタイムワープ変換部２２０へ供給するように構成されている。タイムワープ変換部２２０は、例えば、オーディオフレームのタイムワーピングのために、新たなタイムワープコンター情報２４２（例えば、新たなタイムワープコンター部分）を使用でき、さらには以前に得られたタイムワープ情報（例えば、１つ以上の以前に得られたタイムワープコンター部分）を使用できることに注意すべきである。随意によるスペクトル事後処理が、例えば、時間ノイズ整形（temporal noise shaping）及び／又はノイズフィリング（noise filling）分析を含むことができる。オーディオ信号エンコーダ２００は量子化部／エンコーダ２６０も備えており、量子化部／エンコーダ２６０はスペクトル表現２２２（随意によりスペクトル事後処理２５０によって処理されている）を受信し、変換済みのスペクトル表現２２２を量子化及びエンコードするように構成されている。この目的のために、量子化部／エンコーダ２６０は、知覚マスキングを考慮し、人間の知覚に応じて種々の周波数ビンの量子化精度を調節するために、知覚モデル２７０に接続することができ、知覚モデル２７０から知覚関連情報２７２を受信することができる。オーディオ信号エンコーダ２００はさらに出力インターフェイス２８０を備えており、出力インターフェイス２８０は、量子化部／エンコーダ２６０によって供給される量子化及びエンコード済みのスペクトル表現２６２に基づいて、オーディオ信号のエンコード済み表現２１２を供給するように構成されている。

オーディオ信号エンコーダ２００はさらにタイムワープ作動信号供給部２３０を備えており、タイムワープ作動信号供給部２３０はタイムワープ作動信号２３２を供給するように構成されている。タイムワープ作動信号２３２は、例えば、新たに発見されたタイムワープコンター情報２８６又は標準のタイムワープコンター情報２８８のどちらが（例えば、タイムワープ変換部２２０によって）さらなる処理工程において使用されるのかを決定するために、スイッチング機構２４０を制御するために使用することができる。さらには、タイムワープ作動情報２３２は、選択された新たなタイムワープコンター情報２４２（新たに発見されたタイムワープコンター情報２８６及び標準のタイムワープコンター情報から選択される）を入力オーディオ信号２１０のエンコード済み表現２１２に含ませるか否かを決定するために、スイッチ２８０において使用することができる。典型的には、タイムワープコンター情報は、選択されたタイムワープコンター情報が非一定（変化する）タイムワープコンターを表わしている場合に限り、オーディオ信号のエンコード済み表現２１２へ含められる。また、タイムワープ作動情報２３２そのものは、例えばタイムワープの作動又は非作動を示す１ビットのフラグの形態でエンコード済み表現２１２に含まれることができる。

理解を容易にするために、タイムワープ変換部２２０は、典型的には、分析ウインドウ設定部２２０ａ、リサンプラー又は「タイムワーパー」２２０ｂ、及びスペクトルドメイン変換部（又は、時間／周波数コンバータ）２２０ｃを備えることに注意すべきである。しかしながら、実施例によっては、タイムワーパー２２０ｂは、信号処理の方向において分析ウインドウ設定部２２０ａの前に配置することができる。しかしながら、タイムワーピング及び時間ドメイン−スペクトルドメイン変換は、いくつかの実施の形態においては、単一のユニットに組み合わせてもよい。

以下で、タイムワープ作動信号供給部２３０の動作に関する詳細を説明する。タイムワープ作動信号供給部２３０は、タイムワープ作動信号供給部１００と同等であってよいことに注意すべきである。

タイムワープ作動信号供給部２３０は、好ましくは、時間ドメインのオーディオ信号表現２１０（ａ（ｔ）とも示されている）、新たに発見されたタイムワープコンター情報２８６、及び標準のタイムワープコンター情報２８８を受け取るように構成されている。また、タイムワープ作動信号供給部２３０は、時間ドメインのオーディオ信号２１０、新たに発見されたタイムワープコンター情報２８６及び標準のタイムワープコンター情報２８８を使用して、新たに発見されたタイムワープコンター情報２８６に起因するエネルギーの圧縮を表わすエネルギー圧縮情報を得、このエネルギー圧縮情報に基づいてタイムワープ作動信号２３２を供給するように構成されている。

図２Ｂは本発明の一実施の形態によるタイムワープ作動信号供給部２３４の概略のブロック図を示している。タイムワープ作動信号供給部２３４は、いくつかの実施の形態においてタイムワープ作動信号供給部２３０の役目を果たすことができる。タイムワープ作動信号供給部２３４は、入力オーディオ信号２１０並びに２つのタイムワープコンター情報２８６及び２８８を受け取り、これらに基づいてタイムワープ作動信号２３４ｐを供給するように構成されている。タイムワープ作動信号２３４ｐはタイムワープ作動信号２３２の役目を果たすことができる。タイムワープ作動信号供給部は２つの同一なタイムワープ表現供給部２３４ａ、２３４ｇを備えている。タイムワープ表現供給部２３４ａ及び２３４ｇは、入力オーディオ信号２１０とそれぞれのタイムワープコンター情報２８６及び２８８を受け取り、これらに基づいて２つのタイムワープ後の表現２３４ｅ及び２３４ｋをそれぞれ供給するように構成されている。タイムワープ作動信号供給部２３４は、さらに２つの同一なエネルギー圧縮情報供給部２３４ｆ及び２３４ｌを備えており、エネルギー圧縮情報供給部２３４ｆ及び２３４ｌは、タイムワープ後の表現２３４ｅ及び２３４ｋをそれぞれ受け取り、これに基づいてエネルギー圧縮情報２３４ｍ及び２３４ｎをそれぞれ供給するように構成されている。タイムワープ作動信号供給部は、さらに比較部２３４ｏを備えており、比較部２３４ｏはエネルギー圧縮情報２３４ｍ及び２３４ｎを受け取り、これらに基づいてタイムワープ作動信号２３４ｐを供給するように構成されている。

理解を容易にするために、タイムワープ表現供給部２３４ａ及び２３４ｇは、典型的には、（随意による）同一の分析ウインドウ設定部２３４ｂ及び２３４ｈ、同一のリサンプラー又はタイムワーパー２３４ｃ及び２３４ｉ、ならびに（随意による）同一のスペクトルドメイン変換部２３４ｄ及び２３４ｊを備えていることに注意すべきである。

以下で、エネルギー圧縮情報を得るための種々の考え方を説明する。あらかじめ、典型的なオーディオ信号におけるタイムワーピングの効果を説明する序論を提示する。

以下で、オーディオ信号におけるタイムワーピングの効果を、図３Ａ及び３Ｂを参照して説明する。図３Ａはオーディオ信号のスペクトルのグラフ表示を示している。横座標３０１は周波数を表わしており、縦座標３０はオーディオ信号の強度を表わしている。曲線３０３はタイムワープされていないオーディオ信号の強度を周波数ｆの関数として示している。

図３Ｂは図３Ａに示したオーディオ信号のタイムワープ後のバージョンのスペクトルのグラフ表示を示している。やはり、横座標３０６は周波数を表わしており、縦座標３０７はオーディオ信号のワープ後のバージョンの強度を表わしている。曲線３０８はオーディオ信号のタイムワープ後のバージョンの強度を周波数に対して示している。図３Ａ及び３Ｂのグラフ表現の比較の結果から見て取ることができるように、オーディオ信号の非タイムワープの（「ワープ前の」）バージョンは、特に高い周波数の領域に、不鮮明なスペクトルを含んでいる。それに対し、入力オーディオ信号のタイムワープ後のバージョンは、高い周波数領域においても、明確に区別することができるスペクトルピークを有するスペクトルを含んでいる。さらに、入力オーディオ信号のタイムワープ後のバージョンの低い方のスペクトル領域においても、スペクトルピークの或る程度の尖鋭化を観察することができる。

図３Ｂに示されている入力オーディオ信号のタイムワープ後のバージョンのスペクトルは、例えば量子化部／エンコーダ２６０によって、図３Ａに示されているワーピングされていない入力オーディオ信号のスペクトルよりも低いビットレートで量子化及びエンコードできることに注意すべきである。これは、不鮮明なスペクトルは一般的に多数の知覚的に無視することができないスペクトル係数を含む（すなわち、ゼロ又は小さな値へ量子化されるスペクトル係数の数が比較的少ない）のに対し、図３に示されているような「非平坦」なスペクトルは一般的にゼロ又は小さな値へ量子化されるスペクトル係数をより多く含むことに起因する。ゼロ又は小さな値へ量子化されるスペクトル係数は、より大きな値へ量子化されるスペクトル係数に比べて、より少ないビットでエンコードすることが可能であり、したがって図３Ｂのスペクトルは、図３Ａのスペクトルと比べ、より少数のビットを使用してエンコードすることが可能である。

しかしながら、タイムワープの使用が、必ずしも常にタイムワープ後の信号についてコーディング効率の大きな改善をもたらすわけではないことにも注意すべきである。すなわち、場合によっては、タイムワープ情報（例えば、タイムワープコンター）のエンコーディングに必要なビットレートに関する代価が、タイムワープ変換後のスペクトルをエンコードすることによるビットレートに関する節約（タイムワープ変換を行わずにスペクトルをエンコードする場合と比べて）を超えてしまう可能性がある。この場合、タイムワープ変換を制御するために標準的な（変化しない）タイムワープコンターを使用してオーディオ信号のエンコード済み表現を供給することが好ましい。結果として、タイムワープ情報（すなわち、タイムワープコンター情報）の送信を、（タイムワーピングの非作動を知らせるフラグを除き）省略することができ、ビットレートを低く保つことができる。

以下では、タイムワープ作動信号１１２、２３２、２３４ｐの確実かつ演算に関して効率的な計算のための種々の考え方を、図３Ｃ〜３Ｋを参照して説明する。しかしながら、その前に、本発明の考え方の背景を簡単に要約する。

基本的な仮定は、変化するピッチを有するハーモニック信号にタイムワーピングを加えることでピッチが一定にされ、ピッチを一定にすることで、異なる倍音がいくつかの周波数ビンに不鮮明にまたがる（図３Ａを参照）のではなく、限られた数の大きなラインだけが残る（図３Ｂを参照）ため、以後の時間−周波数変換によって得られるスペクトルのコーディングが改善されるということである。しかしながら、ピッチの変化が検出されたときでも、コーディングゲイン（すなわち、節約されるビットの量）の改善が無視できる程度でしかない（例えば、ハーモニック信号に内在する強いノイズを有している場合や、変化が小さく、高い方の高調波の不鮮明さが問題にならない場合など）かもしれず、タイムワープコンターをデコーダへ伝達するために必要なビットの量よりも少ないかもしれず、又は単純に不適切かもしれない。これらの場合、タイムワープコンターエンコーダによって生成された変化するタイムワープコンター（例えば、２８６）を拒絶し、標準の（変化しない）タイムワープコンターを知らせる効率的な１ビットの信号を代わりに使用することが好ましい。

本発明の技術的範囲は、得られたタイムワープコンター部分が充分なコーディングゲイン（例えば、タイムワープコンターへのエンコーディングに必要な諸経費を補うために充分なコーディングゲイン）をもたらすか否かを判断するための方法を生み出すことを含む。

上述のように、タイムワーピングの最も重要な態様は、スペクトルのエネルギーをより少数のラインへと圧縮することである（図３Ａ及び３Ｂを参照）。これを一見すると、エネルギーの圧縮は、スペクトルのピークと谷との間の差が増やされるため、より「非平坦」なスペクトル（図３Ａ及び３Ｂを参照）にも相当する。エネルギーがより少数のラインに集中され、それらのラインの間のラインは前よりも少ないエネルギーを有することになる。

図３Ａ及び３Ｂは、強力な高調波及びピッチ変化を有しているフレームのワーピング前のスペクトル（図３Ａ）及び同じフレームのタイムワープ後のバージョンのスペクトル（図３Ｂ）による概要の例を示している。

この状況に照らし、スペクトルの平坦さの指標をタイムワーピングの効率に関する指標の候補として使用することが好都合であることが明らかになっている。

スペクトルの平坦さは、例えば、パワースペクトルの幾何平均をパワースペクトルの算術平均で除算することによって計算することができる。例えば、スペクトルの平坦さ（短く、「平坦さ」とも称する）は、以下の式に従って計算することができる。

上記において、ｘ（ｎ）は、番号ｎのビンの大きさを表わしている。さらに、上記において、Ｎは、スペクトルの平坦さの指標の計算において考慮されるスペクトルビンの総数を表わしている。

本発明の一実施の形態においては、エネルギー圧縮情報として機能することができる「平坦さ」の上述の計算は、以下の関係を保持できるようにタイムワープ変換後のスペクトル表現２３４ｅ、２３４ｋを使用して実行することができる。
ｘ（ｎ）＝│Ｘ│_tw（ｎ）

この場合、Ｎはスペクトルドメイン変換部２３４ｄ、２３４ｊによってもたらされるスペクトルラインの数に等しくすることができ、│Ｘ│_tw（ｎ）は、タイムワープ変換後のスペクトル表現２３４ｅ、２３４ｋである。

たとえスペクトル的な指標がタイムワープ作動信号の供給にとって有用な量であるとしても、スペクトルの平坦さという指標の１つの欠点は、信号対雑音比（ＳＮＲ）の指標と同様、スペクトル全体に適用された場合に、高い方のエネルギーを有する部分が強調される点にある。通常は、高調波のスペクトルは特定のスペクトルの傾斜を有しており、すなわちエネルギーの多くが最初のいくつかの部分音に集中し、周波数が高くなるにつれて減少しており、結果として、指標において高い部分が過小に表現されることになる。これは、いくつかの実施の形態において望ましくない。なぜならば、これらの高い部分が最も不鮮明になっているため（図３Ａを参照）、これらの高い部分の品質の改善が望まれるからである。以下では、スペクトルの平坦さの指標の妥当性を改善するためのいくつかの選択肢としての考え方を説明する。

本発明による一実施の形態においては、いわゆる「部分的ＳＮＲ（segmental SNR）」指標に類似する手法が選択され、帯域ごとの周波数の平坦さの指標がもたらされる。スペクトルの平坦さの指標の計算がいくつかの帯域において（例えば、別々に）行われ、主な値(main)（又は平均値）が採用される。別々の帯域が同じ帯域幅を有してもよい。しかしながら、好ましくは、帯域幅は、臨界帯域（critical band）などの知覚スケールに従うことができ、又は、例えばいわゆる「アドバンスト・オーディオ・コーディング(advanced audio coding)」（ＡＡＣとしても知られる）の換算係数帯域に対応することができる。

上述の考え方を、種々の周波数帯についてスペクトルの平坦さの指標の個々の計算のグラフ表示を示している図３Ｃを参照して、以下で簡単に説明する。見て取ることができるとおり、スペクトルは種々の周波数帯３１１、３１２、３１３に分割することができ、それらの周波数帯は同じ帯域幅をもつことも又は異なる帯域幅をもつこともできる。例えば、第１のスペクトルの平坦さの指標は、例えば上述の「平坦さ」のための式を使用して第１の周波数帯３１１について計算することができる。この計算において、第１の周波数帯の周波数ビンを考慮することができ（変化する変数ｎとして第１の周波数帯の周波数ビンの周波数ビンインデックスをとることができる）、第１の周波数帯３１１の幅を考慮することができる（変数Ｎとして第１の周波数帯の周波数ビンに関する幅をとることができる）。このようにして、第１の周波数帯３１１について平坦さの指標が得られる。同様に、第２の周波数帯３１２の平坦さの指標は、第２の周波数帯３１２の周波数ビン及び第２の周波数帯の幅を考慮して計算することができる。さらには、第３の周波数帯３１３など、さらなる周波数帯の平坦さの指標を同じ方法で計算することができる。

次いで、種々の周波数帯３１１、３１２、３１３の平坦さの指標の平均を計算し、平均をエネルギー圧縮情報として使用することができる。

（タイムワープ作動信号の導出を改善するための）別の手法は、スペクトルの平坦さの指標を、特定の周波数を上回る周波数だけに適用することである。そのような手法が図３Ｂに示されている。見て取ることができるとおり、スペクトルの上方の周波数部分３１６の周波数ビンだけがスペクトルの平坦さの指標の計算に考慮されている。スペクトルの下方の周波数部分は、スペクトルの平坦さの指標の計算において無視される。高い方の周波数部分３１６は、スペクトルの平坦さの指標の計算において、周波数帯ごとの方法で考慮することができる。あるいは、高い方の周波数部分３１６の全体を、スペクトルの平坦さの指標の計算において全体として考慮してもよい。

以上を要約すると、スペクトルの平坦さの減少（タイムワープを適用することによって引き起こされる）をタイムワーピングの効率についての第１の指標として考えることができる、と言うことができる。

例えば、タイムワープ作動信号供給部１００、２３０、２３４（又は、その比較部１３０、２３４ｏ）は、タイムワープ変換後のスペクトル表現２３４ｅのスペクトルの平坦さの指標を、標準のタイムワープコンター情報を使用したタイムワープ変換後のスペクトル表現２３４ｋのスペクトルの平坦さの指標と比較し、この比較に基づいてタイムワープ作動信号を有効又は無効のいずれにすべきかを決定することができる。例えば、タイムワープは、タイムワーピングがタイムワーピングのない場合に比べてスペクトルの平坦さの指標の充分な減少をもたらす場合に、タイムワープ作動信号の適切な設定によって作動させる。

上述の手法に加えて、スペクトルの平坦さの指標の計算において、スペクトルの上方の周波数部分を低い方の周波数部分に対して（例えば、適切なスケーリングによって）強調することができる。図３Ｃは、高い方の周波数部分が低い方の周波数部分に対して強調されているタイムワープ変換後のスペクトルのグラフ表示を示している。結果として、スペクトルの高い方の部分の過小表現が補償されている。このようにして、図３Ｅに示されているように高い方の周波数ビンが低い方の周波数ビンに対して強調された、完全なスケーリングされたスペクトルについて、平坦さの指標を計算することができる。

ビットの節約に関して、コーディング効率の典型的な指標は、3GPP TS 26.403 V7.0.0: 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; General audio codec audio processing functions; Enhanced aacPlus general audio codec; Encoder specification AAC part: Section 5.6.1.1.3 Relation between bit demand and perceptual entropyに記載のように、特定のスペクトルをエンコードするために必要な実際のビット数にきわめて精密に相関するような方法で規定できる知覚エントロピーであると考えられる。結果として、知覚エントロピーの減少がタイムワーピングの効率のもう１つの指標である。

図３Ｆはエネルギー圧縮情報供給部３２５を示しており、エネルギー圧縮情報供給部３２５はエネルギー圧縮情報供給部１２０、２３４ｆ、２３４ｌと置き換えることができ、タイムワープ作動信号供給部１００、２９０、２３４において使用することができる。エネルギー圧縮情報供給部３２５は、例えば、│Ｘ│_twとしても示されているタイムワープ変換後のスペクトル表現２３４ｅ、２３４ｋの形態のオーディオ信号の表現を受信するように構成されている。また、エネルギー圧縮情報供給部３２５は、エネルギー圧縮情報１２２、２３４ｍ、２３４ｎと置き換えることができる知覚エントロピー情報３２６を供給するように構成されている。

エネルギー圧縮情報供給部３２５はフォームファクター計算部３２７を備えており、フォームファクター計算部３２７はタイムワープ変換後のスペクトル表現２３４ｅ、２３４ｋを受信し、これに基づいて、周波数帯に関連付けることができるフォームファクター情報３２８を供給するように構成されている。さらに、エネルギー圧縮情報供給部３２５は周波数帯エネルギー計算部３２９を備えており、周波数帯エネルギー計算部３２９はタイムワープ後のスペクトル表現２３４ｅ、２３４ｋに基づいて周波数帯エネルギー情報ｅｎ（ｎ）（３３０）を計算するように構成されている。エネルギー圧縮情報供給部３２５はまた、ライン数推定部３３１を備えており、ライン数推定部３３１はインデックスｎを有する周波数帯について推定によるライン数情報ｎｌ（３３２）を供給するように構成されている。さらに、エネルギー圧縮情報供給部３２５は知覚エントロピー計算部３３３を備えており、知覚エントロピー計算部３３３は周波数帯エネルギー情報３３０及び推定によるライン数情報３３２に基づいて知覚エントロピー情報３２６を計算するように構成されている。例えば、フォームファクター計算部３２７は、以下に従ってフォームファクターを計算するように構成することができる。

上記の式において、ｆｆａｃ（ｎ）は、周波数帯インデックスｎを有する周波数帯のフォームファクターを指している。ｋは、スケール係数帯（又は、周波数帯）ｎのスペクトルビンインデックスを始めから終わりへわたって変化する変数を指している。Ｘ（ｋ）は、スペクトルビンインデックス（又は、周波数ビンインデックス）ｋを有するスペクトルビン（又は、周波数ビン）のスペクトル値（例えば、エネルギー値又は大きさの値）を指している。

ライン数推定部は、以下の式に従って、ｎｌで表わされる非ゼロのラインの数を推定するように構成することができる。

上記の式において、ｅｎ（ｎ）は、インデックスｎを有する周波数帯又はスケール係数帯のエネルギーを指している。kOffset(n+1)-kOffset(n)は、周波数ビンに関してインデックスｎの周波数帯又はスケール係数帯の幅を指している。

さらに、知覚エントロピー計算部３３２は、以下の式に従って知覚エントロピー情報sfbPeを計算するように構成することができる。

上記において、以下の関係を保持することができる。

全体としての知覚エントロピーｐｅは、複数の周波数帯又はスケール係数帯の知覚エントロピーの和として計算することができる。

上述のように、知覚エントロピー情報３２６はエネルギー圧縮情報として使用することができる。

知覚エントロピーの計算に関するさらなる詳細については、国際規格「3GPP TS 26.403 V7.0.0(2006-06)」のセクション5.6.1.1.3が参照される。

以下では、時間ドメインにおけるエネルギー圧縮情報の計算の考え方を説明する。

ＴＷ−ＭＤＣＴ（タイムワープ修正離散コサイン変換）の別の見方は、１ブロック内で一定又はほぼ一定のピッチを有するような方法で信号を変化させるための基本的な考え方である。一定のピッチが達成される場合、これは１処理ブロックの自己相関の最大値が増加することを意味する。タイムワープ及び非タイムワープの場合について自己相関において対応する最大値を発見することは自明でないため、正規化された自己相関の絶対値の和を改善のための指標として使用することができる。この和の増加がエネルギーの圧縮の増加に対応する。

この考え方を、図３Ｇ、３Ｈ、３Ｉ、３Ｊ及び３Ｋを参照して以下でさらに詳しく説明する。

図３Ｇは時間ドメインにおける非タイムワープ信号のグラフ表示を示している。横座標３５０は時間を表わしており、縦座標３５１は非タイムワープ時間信号ａ（ｔ）のレベルを表わしている。曲線３５２は非タイムワープ信号の時間変化を示している。曲線３５２によって表わされている非タイムワープ時間信号の周波数は、図３Ｇに見て取ることができるように、時間とともに高くなるものと仮定されている。

図３Ｈは図３Ｇの時間信号のタイムワープ後のバージョンのグラフ表示を示している。横座標３５５はワープ後の時間（例えば、正規化された形態の）を表わしており、縦座標３５６は信号ａ（ｔ）のタイムワープ後のバージョンａ（ｔ_w）のレベルを表わしている。図３Ｈに見て取ることができるように、非タイムワープ時間信号ａ（ｔ）のタイムワープ後のバージョンａ（ｔ_w）は、ワープ後の時間ドメインにおいて（少なくともほぼ）時間的に一定の周波数を含んでいる。

換言すると、図３Ｈは、時間的に変化する周波数の時間信号が、タイムワーピングの再サンプリングを含むことができる適切なタイムワープ操作によって時間的に一定な周波数の時間信号へ変換されるという事実を示している。

図３Ｉは非ワープの時間信号ａ（ｔ）の自己相関関数のグラフ表示を示している。横座標３６０は自己相関ラグ（autocorrelation lag）τを表わしており、縦座標３６１は自己相関関数の大きさを表わしている。目印３６２は自己相関ラグτの関数としての自己相関関数Ｒ_uw（τ）の推移を示している。図３Ｉから見て取ることができるように、非ワープの時間信号ａ（ｔ）の自己相関関数Ｒ_uwは（信号ａ（ｔ）のエネルギーを反映する）τ＝０におけるピークを含んでおり、τ≠０において小さな値をとる。

図３Ｊはタイムワープ後の時間信号ａ（ｔ_w）の自己相関関数Ｒ_twのグラフ表示を示している。図３Ｊから見て取ることができるように、自己相関関数Ｒ_twはτ＝０におけるピークを含んでおり、自己相関ラグτの他の値τ₁、τ₂、τ₃におけるピークも含んでいる。これらのτ₁、τ₂、τ₃におけるさらなるピークは、タイムワープ後の時間信号ａ（ｔ_w）の周期性を高めるためのタイムワープの効果によって得られている。この周期性は、自己相関関数Ｒ_uW（τ）と比べたときの自己相関関数Ｒ_tw（τ）の追加のピークに反映されている。したがって、元のオーディオ信号の自己相関関数と比べたときに、タイプワープ後のオーディオ信号の自己相関関数の追加のピークの存在（又は、ピークの強度の増加）は、タイムワープの（ビットレートの削減に関する）有効性の指標として使用することができる。

図３Ｋはエネルギー圧縮情報供給部３７０の概略のブロック図を示している。エネルギー圧縮情報供給部３７０は、例えばタイムワープ後の信号２３４ｅ、２３４ｋ（スペクトルドメイン変換２３４ｄ、２３４ｊが省略され、随意により分析ウインドウ設定部２３４ｂ及び２３４ｈが省略されている）など、オーディオ信号のタイムワープ後の時間ドメイン表現を受信し、これに基づいて、エネルギー圧縮情報３７２の役割を果たすことができるエネルギー圧縮情報３７４を供給するように構成されている。図３Ｋのエネルギー圧縮情報供給部３７０は、τの所定の範囲の不連続な値についてタイムワープ後の信号ａ（ｔ_w）の自己相関関数Ｒ_tw（τ）を計算するように構成された自己相関計算部３７１を備えている。また、エネルギー圧縮情報供給部３７０は、（例えば、τの所定の範囲の不連続な値について）自己相関関数Ｒ_tw（τ）の複数の値を合計し、得られた合計をエネルギー圧縮情報１２２、２３４ｍ、２３４ｎとして供給するように構成された自己相関合計部３７２を備えている。

このようにして、エネルギー圧縮情報供給部３７０は、入力オーディオ信号２１０のタイムワープ時間ドメインバージョンのスペクトルドメイン変換を実際に実行することなく、タイムワープの効率を表わす信頼できる情報の供給を可能にする。したがって、入力オーディオ信号３１０のタイムワープバージョンのスペクトルドメイン変換を、時間ワープが実際にエンコーディング効率の改善をもたらすことがエネルギー圧縮情報供給部３７０によって供給されるエネルギー圧縮情報１２２、２３４ｍ、２３４ｎに基づいて明らかである場合に限って、実行することが可能である。

以上を要約すると、本発明によるいくつかの実施の形態は、最終的な品質をチェックするための考え方を生み出す。得られたピッチコンター（タイムワープオーディオ信号エンコーダにおいて使用される）は、コーディングゲインに関して評価され、容認又は拒絶される。例えばスペクトルの平坦さの指標、帯域ごとの部分スペクトルの平坦さの指標、及び／又は知覚エントロピーなど、スペクトルの希薄度（sparsity）又はコーディングゲインに関するいくつかの指標は、この決定において考慮することができる。

例えばスペクトルの平坦さの指標の使用、知覚エントロピー指標の使用、及び時間ドメイン自己相関指標の使用など、種々のスペクトル圧縮情報の使用について説明した。しかしながら、タイムワープ後のスペクトルにおけるエネルギーの圧縮を表わす他の指標も存在する。

これらの指標はすべて使用可能である。好ましくは、これらの指標のすべてにおいて、ワープ前とタイムワープ後のスペクトルについての指標の間の比が規定され、エンコーダにおいて、この比についてのしきい値が、得られたタイムワープコンターがエンコーディングにおいて利益を有するか否かを判断するために設定される。

これらの指標はすべて、ピッチコンターの第３の部分だけが新しいフレームの全体に適用することができ（例えば、ピッチコンターの３つの部分がフレーム全体に関連付けられている）、又は、好ましくは、例えば（それぞれの）信号部分に中心を有する少ない重なり合いのウインドウによる変換を使用して得られた信号の新しい部分についてのみ適用することができる。

当然ながら、ただ１つの指標又は上述の指標の組み合わせを所望に応じて使用することができる。

図４Ａはオーディオ信号に基づいてタイムワープ作動信号を供給するための方法のフロー図を示している。図４Ａの方法４００はオーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を表わすエネルギー圧縮情報を供給するステップ４１０を含んでいる。方法４００はエネルギー圧縮情報を基準値と比較するステップ４２０をさらに含んでいる。さらに、方法４００は比較の結果に応じてタイムワープ作動信号を供給するステップ４３０を含んでいる。

方法４００は、タイムワープ作動信号の供給に関して本明細書において説明した特徴及び機能の任意のいずれかによって補うことができる。

図４Ｂは、入力オーディオ信号をエンコードして入力オーディオ信号のエンコード済み表現を得るための方法のフロー図を示している。この方法４５０は、随意により、入力オーディオ信号に基づいてタイムワープ変換後のスペクトル表現を供給するステップ４６０を含んでいる。また、方法４５０はタイムワープ作動信号を供給するステップ４７０を含んでいる。ステップ４７０は、例えば、方法４００の機能を備えることができる。すなわち、エネルギー圧縮情報を、入力オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を表わすように供給することができる。さらに、方法４５０は、時間ワープ作動信号に応じて選択的に、新たに発見されたタイムワープコンター情報を使用して入力オーディオ信号のタイムワープ変換後のスペクトル表現の記述を供給し、又は標準の（非変化の）タイムワープコンター情報を使用して入力オーディオ信号のタイムワープ変換されていないスペクトル表現の記述を供給し、入力オーディオ信号のエンコード済み表現へと含ませるステップ４８０を含んでいる。

方法４５０は、入力オーディオ信号のエンコーディングに関して本明細書において説明した特徴及び機能の任意のいずれかによって補うことができる。

図５は本発明のいくつかの態様が実施されている本発明によるオーディオエンコーダの好ましい実施の形態を示している。オーディオ信号はエンコーダの入力５００に供給される。このオーディオ信号は、典型的には、通常サンプリングレートとも称されるサンプリングレートを使用してアナログオーディオ信号から導出された不連続なオーディオ信号である。この通常サンプリングレートはタイムワーピング操作において生成されるローカルサンプリングレートとは異なり、入力５００におけるオーディオ信号の通常サンプリングレートは、一定の時間部分によって隔てられたオーディオサンプルをもたらす一定のサンプリングレートである。このオーディオ信号は分析ウインドウ設定部５０２へ送り込まれ、分析ウインドウ設定部５０２はこの実施の形態においてはウインドウ関数コントローラ５０４へ接続されている。分析ウインドウ設定部５０２はタイムワーパー５０６へ接続されている。しかしながら、実施例によっては、タイムワーパー５０６は信号処理の方向において分析ウインドウ設定部５０２の前に配置することができる。この実施例は、タイムワーピング特性がブロック５０２における分析ウインドウの設定に必要であって、タイムワーピング操作が非ワープのサンプルにではなくタイムワープ後のサンプルについて実行されるべき場合に、好ましい。具体的には、Bernd Edlerらの「Time Warped MDCT」という国際特許出願ＰＣＴ／ＥＰ２００９／００２１１８に記載されているようなＭＤＣＴベースのタイムワーピングにおいて。L.Villemoesの「Time Warped Transform Coding of Audio Signals」という２００５年１１月の国際特許出願ＰＣＴ／ＥＰ２００６／０１０２４６に記載のような他のタイムワーピングの応用においては、タイムワーパー５０６及び分析ウインドウ設定部５０２の間の配置は必要に応じて設定することができる。さらに、時間／周波数コンバータ５０８が、タイムワープ後のオーディオ信号のスペクトル表現への時間／周波数変換を実行するために設けられている。そのスペクトル表現は、ＴＮＳ情報を出力５１０ａとして供給し、スペクトル残余値を出力５１０ｂとして供給するＴＮＳ（時間ノイズ整形）段５１０へ入力することができる。出力５１０ｂは量子化部／コーダーブロック５１２へ接続される。量子化部／コーダーブロック５１２は、量子化雑音がオーディオ信号の知覚マスキングしきい値の下方に隠されるように信号を量子化すべく知覚モデル５１４によって制御することができる。

さらに、図５Ａに示されているエンコーダはタイムワープ分析部５１６を備えている。タイムワープ分析部５１６はピッチ追跡部として実現でき、タイムワーピング情報を出力５１８に供給する。ライン５１８上の信号は、タイムワーピング特性、ピッチ特性、ピッチコンター、又はタイムワープ分析部によって分析された信号がハーモニック信号又は非ハーモニック信号のどちらであるかについての情報を含むことができる。さらに、タイムワープ分析部は、有声のスピーチと非有声のスピーチの間の区別を行う機能を実現することができる。しかしながら、実施例に応じ、かつ信号分類部５２０が備えられるか否かに応じて、有声／非有声の判断を信号分類部５２０によって行なうことができる。その場合には、タイムワープ分析部は必ずしも同じ機能を実行する必要はない。タイムワープ分析部の出力５１８は、ウインドウ関数コントローラ５０４、タイムワーパー５０６、ＴＮＳ段５１０、量子化部／コーダー５１２及び出力インターフェイス５２２を含む機能群のうちの少なくとも１つ、好ましくは、２つ以上の機能へ接続される。

同様に、信号分類部５２０の出力５２２は、ウインドウ関数コントローラ５０４、ＴＮＳ段５１０、ノイズフィリング分析部５２４、又は出力インターフェイス５２２を含む機能群のうちの１つ以上の機能へ接続することができる。さらに、タイムワープ分析部の出力５１８はノイズフィリング分析部５２４にも接続することができる。

図５Ａは、分析ウインドウ設定部の入力５００におけるオーディオ信号がタイムワープ分析部５１６及び信号分類部５２０へ入力される状況を説明しているが、これらの機能のための入力信号を分析ウインドウ設定部５０２の出力から得ることも可能であり、信号分類部に関しては、タイムワーパー５０６の出力、時間／周波数コンバータ５０８の出力、又はＴＮＳ段５１０の出力から得ることさえ可能である。

量子化部／エンコーダ５１２によって出力される信号５２６に加えて、出力インターフェイス５２２は、ＴＮＳ副情報５１０ａ、エンコードされた形態のスケール係数を含むことができる知覚モデル副情報５２８、ライン５１８上のピッチコンターなどのさらに進んだタイムワープ副情報のためのタイムワープ表示データ、及びライン５２２上の信号分類情報を受信する。さらに、ノイズフィリング分析部５２４も、出力インターフェイス５２２への出力５３０にノイズフィリングデータを出力することができる。出力インターフェイス５２２は、デコーダへの送信又はメモリ装置などのストレージ装置への保存のために、ライン５３２上にエンコード済みのオーディオ出力データを生成するように構成されている。実施例によっては、出力データ５３２は、出力インターフェイス５２２への入力をすべて含むことができ、又は、機能の少ない対応のデコーダが情報を必要としない場合や、情報が別の送信チャネル経由の送信によってデコーダにおいてすでに入手可能である場合には、より少ない情報を含んでもよい。

図５Ａに示されているエンコーダは、ＭＰＥＧ−４規格に比べて進んだ機能を有しているウインドウ関数コントローラ５０４、ノイズフィリング分析部５２４、量子化エンコーダ５１２及びＴＮＳ段５１０によって代表される図５Ａの本発明のエンコーダに示されている追加の機能の他は、ＭＰＥＧ−４規格に詳しく規定されているように実施することができる。さらなる説明は、ＡＡＣ規格（国際規格１３８１８−７）又は３ＧＰＰＴＳ２６．４０３Ｖ７．０．０：Third generation partnership project; technical specification group services and system aspect; general audio codec audio processing functions; enhanced AAC plus general audio codecにある。

次に、入力５４０を介して受信されたエンコード済みのオーディオ信号をデコードするためのオーディオデコーダの好ましい実施の形態を示している図５Ｂを検討する。入力インターフェイス５４０は、情報の種々の情報項目をライン５４０上の信号から抽出できるように、エンコード済みのオーディオ信号を処理するように動作することができる。この情報は、信号分類情報５４１、タイムワープ情報５４２、ノイズフィリングデータ５４３、スケール係数５４４、ＴＮＳデータ５４５及びエンコード済みのスペクトル情報５４６を含んでいる。エンコード済みのスペクトル情報はエントロピーデコーダ５４７へ入力される。エントロピーデコーダ５４７は、図５Ａのブロック５１２のエンコーダ機能がハフマン（Huffman）エンコーダ又は算術エンコーダなどの対応するエンコーダとして実施されている限りにおいて、ハフマンデコーダ又は算術デコーダを備えることができる。デコード後のスペクトル情報は再量子化部５５０へと入力され、再量子化部５５０はノイズフィラー５５２へ接続されている。ノイズフィラー５５２の出力は、ライン５４５上のＴＮＳデータも受信する逆ＴＮＳ段５５４へ入力される。実施例によっては、ノイズフィラー５５２及びＴＮＳ段５５４は、ノイズフィラー５５２がＴＮＳの入力データに対してではなくＴＮＳ段５５４の出力データに対して動作するように、別の順序で適用することができる。さらに、周波数／時間コンバータ５５６が設けられ、タイムデワーパー５５８に接続されている。この一連の信号処理の出力において、好ましくはオーバーラップ／加算の処理を実行する合成ウインドウ設定部５６０が適用される。タイムデワーパー５５８と合成段５６０の順序は変更することができるが、好ましい実施の形態においては、ＡＡＣ規格（ＡＡＣ＝advanced audio coding）に規定されているようにＭＤＣＴ−ベースのエンコーディング／デコーディングアルゴリズムを実行することが好ましい。むしろ、すべてのブロッキングアーチファクトが効果的に回避されるように、オーバーラップ／加算の処理による１つのブロックから次のブロックへの固有のクロスフェード操作が、一連の処理の最後の操作として好都合に使用される。

さらに、ノイズフィリング分析部５６２が設けられている。ノイズフィリング分析部５６２はノイズフィラー５５２を制御するように構成され、タイムワープ情報５４２及び／又は信号分類情報５４１を入力として受信し、場合に応じて再量子化されたスペクトルについての情報も入力として受信する。

好ましくは、以下で説明されるすべての機能が、強化型のオーディオエンコーダ／デコーダの仕組みにおいてまとめて適用される。しかしながら、以下で説明される機能は互いに別個独立に適用することも可能であり、すなわち、それらの機能のすべてではなく、それらの機能のうちの１つ又は或る機能群を特定のエンコーダ／デコーダの仕組みにおいて実施することができる。

次に、本発明のノイズフィリングの態様を詳しく説明する。

一実施の形態においては、図５Ａのタイムワーピング／ピッチコンターツール５１６によって供給される追加情報は、他のコーデックツール及び特にノイズフィリングツールを制御するために有益に使用される。そのノイズフィリングツールとは、エンコーダ側においてノイズフィリング分析部５２４によって実現され、さらには／あるいはデコーダ側においてノイズフィリング分析部５６２及びノイズフィラー５５２によって実現されるものである。

ノイズフィリングツールなど、ＡＡＣの枠組みにおけるいくつかのエンコーダツールは、ピッチコンター分析によって集められる情報、及び／又は信号分類部５２０により供給される信号の分類についての追加情報によって集められる情報により制御される。

発見されたピッチコンターは明確な高調波構造を有する信号セグメントを表わしており、高調波ラインの間へのノイズフィリングは、特にスピーチ信号において、知覚される品質を低下させる可能性があるので、ピッチコンターが発見された場合にはノイズレベルが減らされる。そうしなければ、部分音の間に、不鮮明なスペクトルにおける量子化ノイズの増加と同じ影響を有するノイズが存在したであろう。さらに、ノイズレベルの低減の量は、例えばスピーチ信号においてはノイズフィリングが存在せず、強い高調波構造を有する一般的な信号には適度なノイズフィリングが加えられるなど、信号分類部の情報を使用することによってさらに改良することができる。

一般に、エンコーダからデコーダへゼロが送信されており、すなわち図５Ａの量子化部５１２がスペクトルのラインをゼロへ量子化している場合には、ノイズフィラー５５２はデコード後のスペクトルにスペクトルラインを挿入するために有用である。当然ながら、スペクトルラインをゼロへ量子化することは送信される信号のビットレートを大いに少なくしており、理論的には、これらのスペクトルラインが知覚モデル５１４によって決定されるような知覚マスキングしきい値を下回る場合は、これらの（小さい）スペクトルラインの除去は聞き取ることができない。しかしながら、多数の隣接するスペクトルラインを含むことができるこれらの「スペクトルの穴」が、かなり不自然な音をもたらすことが明らかになっている。したがって、ラインがエンコーダ側の量子化部によってゼロへ量子化されている位置にスペクトルラインを挿入するためのノイズフィリングツールが設けられている。これらのスペクトルラインは無作為な振幅又は位相を有することができ、これらのデコーダ側の合成されたスペクトルラインは、図５Ａに示されるようにエンコーダ側において決定されるノイズフィリングの指標を使用し、又は随意によるブロック５６２によって図５Ｂに示されるようにデコーダ側において決定される指標に応じて、拡大／縮小される。したがって、図５Ａのノイズフィリング分析部５２４は、オーディオ信号の時間フレームについてゼロへ量子化されるオーディオ値のエネルギーのノイズフィリングの指標を推定するように構成される。

本発明の一実施の形態において、ライン５００上のオーディオ信号をエンコードするためのオーディオエンコーダは、オーディオ値を量子化するように構成された量子化部５１２を備えており、量子化部５１２は量子化しきい値を下回るオーディオ値をゼロへ量子化するようにさらに構成されている。この量子化しきい値は階段方式の量子化部の第１の段階とすることができ、特定のオーディオ値がゼロ、すなわち、ゼロという量子化インデックス、又は１、すなわち、オーディオ値がこの第１のしきい値を上回っていることを示す１という量子化インデックスのどちらに量子化されるかを決定するために使用される。図５Ａの量子化部は周波数ドメインの値の量子化を実行するものとして示されているが、ノイズフィリングが周波数ドメインにおいてではなく時間ドメインにおいて実行される別の実施の形態においては、量子化部は時間ドメインの値を量子化するために使用することもできる。

ノイズフィリング分析部５２４は、量子化部５１２によってオーディオ信号の時間フレームにおいてゼロへ量子化されたオーディオ値のエネルギーのノイズフィリングの指標を推定するためのノイズフィリング計算部として実現することができる。さらに、オーディオエンコーダは図６Ａに示されているオーディオ信号分析部６００を備えており、オーディオ信号分析部６００はオーディオ信号の時間フレームがハーモニック特性又はスピーチ特性を有しているかを分析するように構成されている。信号分析部６００は、例えば、図５Ａのブロック５１６又は図５Ａのブロック５２０を含むことができ、又は信号がハーモニック信号もしくはスピーチ信号であるか否かを分析するための任意の他の装置を備えることができる。タイムワープ分析部５１６は常にピッチコンターを探すように実現され、ピッチコンターの存在が信号の高調波構造を示すため、図６Ａの信号分析部６００はタイムワープ分析部のピッチ追跡部又はタイムワーピングコンター計算部として実現することができる。

オーディオエンコーダは図６Ａに示されているノイズフィリングレベル操作部６０２をさらに備えており、ノイズフィリングレベル操作部６０２は図５Ａに５３０で示されている出力インターフェイス５２２へ出力されるべき操作後のノイズフィリングの指標／レベルを出力する。ノイズフィリング指標操作部６０２は、オーディオ信号のハーモニック又はスピーチ特性に応じてノイズフィリングの指標を操作するように構成されている。さらに、オーディオエンコーダは、送信又は保存のためのエンコード済みの信号であって、ブロック６０２によってライン５３０上に出力される操作済みのノイズフィリングの指標を含むエンコード済みの信号を生成する出力インターフェイス５２２を備えている。ブロック６０２によって出力される値が、図５Ｂに示したデコーダ側の実施例においてブロック５６２によって出力される値に相当する。

図５Ａ及び５Ｂに示されるように、ノイズフィリングレベルの操作はエンコーダとデコーダのいずれかにおいて実施することができ、又は両方の装置において一緒に実施することができる。デコーダ側での実施においては、エンコード済みのオーディオ信号をデコードするためのデコーダは、ライン５４０上のエンコード済み信号を処理してノイズフィリングの指標、すなわち、ライン５４３上のノイズフィリングデータ、及びライン５４６上のエンコード済みオーディオデータを得る入力インターフェイス５３９を備えている。デコーダは、デコーダ５４７及び再量子化されたデータを生成するための再量子化部５５０をさらに備えている。

さらに、デコーダは信号分析部６００（図６Ａ）を備えており、信号分析部６００はオーディオデータの時間フレームがハーモニック又はスピーチ特性を有しているかについての情報を取り出すための図５Ｂのノイズフィリング分析部５６２内に実装することができる。

さらに、ノイズフィラー５５２がノイズフィリングオーディオデータを生成するために設けられており、ノイズフィラー５５２は、エンコード済みの信号によって送信されて入力インターフェイスによって生成されるライン５４３のノイズフィリングの指標と、エンコーダ側の信号分析部５１６及び／又は５５０によって規定され、又はデコーダ側の項目５６２によって規定されるとおりのオーディオデータのハーモニック又はスピーチ特性とに応答して、特定の時間フレームにタイムワーピング処理が加えられているか否かを知らせるタイムワープ情報５４２を処理及び解釈することによって、ノイズフィリングデータを生成するように構成されている。

さらに、デコーダは、再量子化されたデータ及びノイズフィリングオーディオデータを処理してデコード済みのオーディオ信号を得るためのプロセッサを備えている。プロセッサは、場合に応じて、図５Ｂの項目５５４、５５６、５５８及び５６０を含むことができる。さらに、エンコーダ／デコーダのアルゴリズムの特定の実施例によっては、プロセッサは、例えばＡＭＲＷＢ＋エンコーダ又は他のスピーチコーダーなどの時間ドメインエンコーダに設けられる他の処理ブロックを含むことができる。

したがって、本発明のノイズフィリング操作は、エンコーダ側において簡単なノイズの指標を計算し、このノイズの指標をハーモニック／スピーチ情報に基づいて操作し、後にデコーダによって簡単な方法で適用することができる、すでに正しい操作済みのノイズフィリングの指標を送信するだけで、実現することができる。あるいは、非操作のノイズフィリングの指標をエンコーダからデコーダへ送信することができ、次いでデコーダが、オーディオ信号の実際の時間フレームがタイムワープされているか否か、すなわちハーモニック又はスピーチ特性を有しているか否かを分析し、ノイズフィリングの指標の実際の操作をデコーダ側で行うことができる。

次に、ノイズレベルの見積りの操作のための好ましい実施の形態を説明するために、図６Ｂを検討する。

第１の実施の形態においては、信号がハーモニック又はスピーチ特性を有していない場合に、通常のノイズレベルが適用される。これは、タイムワープが適用されない場合である。さらに、信号分類部が設けられている場合、スピーチと非スピーチとの間を区別する信号分類部は、タイムワープが有効にならず、すなわちピッチコンターが発見されなかったときは非スピーチを表わす。

しかしながら、タイムワープが有効である場合、すなわちピッチコンターが発見された場合、これはハーモニック成分を示しており、したがってノイズフィリングレベルが、通常の場合よりも低くなるように操作される。追加の信号分類部が設けられ、この信号分類部がスピーチを示し、同時にタイムワープ情報がピッチコンターを示す場合、より低い、又は、ゼロでもよい、ノイズフィリングレベルが合図される。このようにして、図６Ａのノイズフィリングレベル操作部６０２は、操作後のノイズレベルをゼロ又は少なくとも図６Ｂに示されている低い値よりも低い値に減らす。好ましくは、信号分類部は、図６Ｂの左方に示されているように、有声／無声検出部をさらに有している。有声のスピーチの場合に、きわめて低いノイズフィリングレベル又はゼロのノイズフィリングレベルが合図／適用される。しかしながら、無声のスピーチの場合は、タイムワープの表示はピッチが発見されないという事実によりタイムワープ処理を示していないが、信号分類部がスピーチ成分を合図しているときはノイズフィリングの指標は操作されず、通常のノイズフィリングレベルが適用される。

好ましくは、オーディオ信号分析部は、ピッチコンター又はオーディオ信号の時間フレームの絶対ピッチなど、ピッチの表示を生成するためのピッチ追跡部を備えている。その場合、操作部は、ピッチが発見されたときにノイズフィリングの指標を減らし、ピッチが発見されない場合にノイズフィリングの指標を減らさないように構成される。

図６Ａに示されるように、信号分析部６００はデコーダ側に適用されるときはピッチ追跡部又は有声／無声検出部などの実際の信号の分析を実行していないが、信号分析部は、タイムワープ情報又は信号分類情報を抽出するためにエンコード済みのオーディオ信号を解析する。したがって、信号分析部６００は図５Ｂのデコーダの入力インターフェイス５３９内に実装することができる。

次に、本発明のさらなる実施の形態を図７Ａ〜７Ｅに関して検討する。

有声のスピーチ部が比較的静かな信号部分の後で始まるスピーチの開始に関して、ブロック切り替えアルゴリズムは、それをアタックに分類し、かつこの特定のフレームのために短いブロックを選択する可能性があり、明確な高調波構造を有する信号セグメントにおけるコーディングゲインの損失を伴う。したがって、ピッチ追跡部の有声／無声の分類は、有声の開始を検出し、ブロック切り替えアルゴリズムが発見された開始の周囲の過渡のアタックを示すことがないようにするために使用される。この特徴は、スピーチ信号におけるブロックの切り替えを防止し、他のすべての信号についてブロックの切り替えを可能にするために、信号分類部と組み合わせることもできる。さらに、ブロック切り替えのより細かい制御を、アタックの検出を可能又は不可能にすることによってだけでなく、有声の開始及び信号分類情報に基づくアタック検出に可変のしきい値を使用することによって、実現することができる。さらに、信号分類情報は、上述の有声の開始などのアタックを検出し、しかし短いブロックへの切り替えを行うのではなく、好ましいスペクトル分解能を保ちつつ事前及び事後のエコーが生じうる時間領域を短縮する短い重なり合いを有する長いウインドウを使用するために、使用することができる。図７Ｄは適応なしの典型的な挙動を示しており、図７Ｅは２つの異なる適応の可能性を示している（防止及び少ない重なり合いのウインドウ）。

本発明の一実施の形態によるオーディオエンコーダは、図５Ａの出力インターフェイス５２２によって出力される信号などのオーディオ信号を生成するように動作する。オーディオエンコーダは、図５Ａのタイムワープ分析部５１６又は信号分類部５２０などのオーディオ信号分析部を備えている。一般に、オーディオ信号分析部は、オーディオ信号の時間フレームがハーモニック又はスピーチ特性を有しているか否かを分析する。この目的のために、図５Ａの信号分類部５２０は、有声／無声検出部５２０ａ又はスピーチ／非スピーチ検出部５２０ｂを含むことができる。図７Ａには示されていないが、ピッチ追跡部を含むことができる図５Ａのタイムワープ分析部５１６などのタイムワープ分析部を、項目５２０ａ及び５２０ｂに代え、又はこれらの機能に加えて設けることもできる。さらには、オーディオエンコーダは、オーディオ信号分析部によって割り出されたとおりのオーディオ信号のハーモニック又はスピーチ特性に応じてウインドウ関数を選択するためのウインドウ関数コントローラ５０４を備えている。次いで、ウインドウ設定部５０２は、オーディオ信号又は特定の実施例によってはタイムワープ後のオーディオ信号にウインドウを適用し、選択されたウインドウ関数を使用してウインドウフレームを得る。次いで、このウインドウフレームは、エンコード済みのオーディオ信号を得るためにプロセッサによってさらに処理される。プロセッサは、図５Ａに示した項目５０８、５１０及び５１２を備えることができ、又はスピーチコーダー、特に、ＡＭＲ−ＷＢ＋規格に従って実現されたスピーチコーダーなどのＬＰＣフィルタを備えている変換ベースのオーディオエンコーダもしくは時間ドメインベースのオーディオエンコーダなどの周知のオーディオエンコーダの何らかの機能を備えることができる。

好ましい実施の形態においては、ウインドウ関数コントローラ５０４はオーディオ信号内の過渡を検出するための過渡検出部７００を備えており、ウインドウ関数コントローラは、過渡が検出され、かつオーディオ信号分析部によってハーモニック又はスピーチ特性が発見されない場合に、長いブロックのためのウインドウ関数から短いブロックのためのウインドウ関数へ切り替えを行うように構成されている。しかしながら、過渡が検出され、かつオーディオ信号分析部によってハーモニック又はスピーチ特性が発見された場合には、ウインドウ関数コントローラ５０４は短いブロックのためのウインドウ関数への切り替えを行わない。過渡が得られないときの長いウインドウ及び過渡が過渡検出部によって検出されたときの短いウインドウを示しているウインドウ関数の出力が、図７Ａに７０１及び７０２として示されている。周知のＡＡＣエンコーダによって実行されるとおりのこの通常の手順が、図７Ｄに示されている。声の開始の位置において、過渡検出部７００は、或るフレームから次のフレームへのエネルギーの増加を検出し、長いウインドウ７１０から短いウインドウ７１２への切り替えを行う。この切り替えに対応するために、第１の重なり合い部分７１４ａ、非エイリアシング部分７１４ｂ、第２の短い重なり部分７１４ｃ、及び点７１６から２０４８個のサンプルによって示される時間軸上の点まで延びているゼロ部分を有する長いストップウインドウ７１４が使用される。次いで、７１２に示されている一連の短いウインドウが実行され、一連の短いウインドウは、図７Ｄには示されていない次の長いウインドウに重なる長い重なり合い部分７１８ａを有している長いスタートウインドウ７１８によって終わる。さらに、このウインドウは、非エイリアシング部分７１８ｂ、短い重なり部分７１８ｃ、及び時間軸上の点７２０から２０４８の点まで延びているゼロ部分を有している。この部分がゼロ部分である。

通常は、短いウインドウへの切り替えは、有声の開始、又は、一般的には、スピーチの開始もしくはハーモニック成分を有する信号の開始の位置である過渡の事象の前のフレームにおいて生じうる前エコーを回避するために有用である。一般に、信号がピッチを有するとピッチ追跡部が判断する場合に、信号はハーモニック成分を有している。また、突出したピークが互いに高調波の関係にある特性とともに存在する特定の最小レベルを上回る調性の指標のような他の高調波の指標が存在する。信号がハーモニックであるか否かを判断するために、複数のさらなる技法が存在する。

短いウインドウの欠点は、時間分解能が高くなるため周波数分解能が低下する点にある。スピーチ、特に有声スピーチ部分又は強いハーモニック成分を有する部分の高品質なエンコーディングのためには、良好な周波数分解能が望まれる。したがって、５１６、５２０又は５２０ａ、５２０ｂに示されているオーディオ信号分析部は、有声スピーチセグメント又は強いハーモニック特性を有する信号セグメントが検出されたときに短いウインドウへの切り替えが防止されるように、過渡検出部７００へ無効信号を出力するように動作することができる。これは、そのような信号部分のコーディングにおいて、高い周波数分解能が維持されることを保証する。これは、一方、すなわち、前エコーと他方、すなわち、スピーチ信号又はハーモニックな非スピーチ信号のピッチの高品質及び高分解能なエンコーディングとの間のトレードオフである。ハーモニックなスペクトルが正確にエンコードされない場合が、生じうる前エコーに比べて、はるかに煩わしいことが明らかにされている。前エコーをさらに減らすために、そのような状況においては、図８Ａ及び８Ｂに関して説明されるＴＮＳ処理が好ましい。

図７Ｂに示されている別の実施の形態においては、オーディオ信号分析部は有声／無声及び／又はスピーチ／非スピーチ検出部５２０ａ、５２０ｂを備えている。しかしながら、ウインドウ関数コントローラに含まれる過渡検出部７００は図７Ａのように完全に有効／無効にされるのではなく、過渡検出部に含まれるしきい値がしきい値制御信号７０４を使用して制御される。この実施の形態において、過渡検出部７００はオーディオ信号の定量的特性を割り出し、定量的特性を制御可能なしきい値と比較するように構成され、定量的特性が制御可能なしきい値に対して所定の関係を有する場合に過渡が検出される。その定量的特性は、或るブロックから次のブロックへのエネルギーの増加を表わす数とすることができ、しきい値は特定のしきい値エネルギー増加とすることができる。或るブロックから次のブロックへのエネルギーの増加がしきい値エネルギー増加よりも大きい場合に過渡が検出され、すなわちこの場合には、所定の関係が「・・・よりも大きい」である。他の実施の形態においては、所定の関係は、例えば定量的特性が反転されたエネルギー増加である場合など、「・・・よりも少ない」とすることもできる。図７Ｂの実施の形態において、制御可能なしきい値は、オーディオ信号分析部がハーモニック又はスピーチ特性を発見したときに短いブロックのためのウインドウ関数への切り替えの可能性が少なくなるように制御される。エネルギー増加の実施の形態において、しきい値制御信号７０４は、或るブロックから次のブロックへのエネルギーの増加が特に大きなエネルギーの増加である場合に限って短いブロックへの切り替えが行われるように、しきい値の増加をもたらす。

別の実施の形態においては、有声／無声検出部５２０ａ又はスピーチ／非スピーチ検出部５２０ｂからの出力信号も、スピーチの開始における短いブロックへの切り替えの代わりに短いブロックのためのウインドウ関数よりも長いウインドウ関数への切り替えが実行されるような方法で、ウインドウ関数コントローラ５０４を制御するために使用することができる。このウインドウ関数は、短いウインドウ関数よりも高い周波数分解能を保証するが、長いウインドウ関数よりも短い長さを有するため、一方、すなわち、前エコーと他方、すなわち、充分な周波数分解能との間の良好な妥協が得られる。別の実施の形態においては、より小さな重なり合いを有するウインドウ関数への切り替えを、図７Ｅに破線７０６によって示されるように実行することができる。ウインドウ関数７０６は長いブロックとして２０４８個のサンプルからなる長さを有しているが、このウインドウは、ウインドウ７０６から対応するウインドウ７０７への短い重なり長７１２が得られるように、ゼロ部分７０８及び非エイリアシング部分７１０を有している。ウインドウ関数７０７も、ウインドウ関数７１０と同様に、領域７１２の左方のゼロ部分及び領域７１２の右方の非エイリアシング部分を有している。この少ない重なり合いの実施の形態は、ウインドウ７０６及び７０７のゼロ部分により前エコーを減らすためのより短い時間長を効果的にもたらすが、他方では充分な周波数分解能が維持されるように重なり部分７１４及び非エイリアシング部分７１０による充分な長さを有する。

ＡＡＣエンコーダによって実現されるとおりの好ましいＭＤＣＴの実施例においては、特定の重なりを維持することは、デコーダ側において重なり合い／加算の処理を実行することができ、すなわちブロック間の一種のクロスフェーディングが実行されるというさらなる利点をもたらす。これは、ブロッキングアーチファクトを効果的に回避する。さらに、この重なり合い／加算の特徴は、ビットレートを増加させることなくクロスフェーディング特性をもたらし、すなわち、きわどくサンプリングされたクロスフェードが得られる。通常の長いウインドウ又は短いウインドウにおいては、重なり合い部分は、重なり部分７１４によって示されるように５０％の重なり合いである。ウインドウ関数が２０４８個のサンプルからなる長さである実施の形態においては、重なり部分が５０％、すなわち１０２４個のサンプルである。スピーチの開始又はハーモニック信号の開始に効果的にウインドウを設定するために使用されるより短い重なり合いを有するウインドウ関数は、好ましくは５０％未満であり、図７Ｅの実施の形態においてはわずかに１２８個のサンプルであり、全ウインドウ長の１／１６である。好ましくは、ウインドウ関数の全長の１／４〜１／３２の間の重なり部分が使用される。

図７Ｃはこの実施の形態を示しており、７４９に示されているように短い重なりのウインドウ形状を選択するか又は７５０に示されているように長い重なりのウインドウ形状を選択するために、典型的な有声／無声検出部５２０ａが、ウインドウ関数コントローラ５０４に含まれるウインドウ形状選択部を制御する。両方の形状のうちの一方の選択は有声／無声検出部５００ａが７５１において有声検出信号を出力する場合に実施されるが、分析に使用されるオーディオ信号は、図５Ａの入力５００におけるオーディオ信号とすることができ、又はタイムワープ後のオーディオ信号もしくは任意の他の前処理の機能が加えられたオーディオ信号などの前処理されたオーディオ信号とすることができる。好ましくは、図５Ａのウインドウ関数コントローラ５０４に含まれる図７Ｃのウインドウ形状選択部５０４は、ウインドウ関数コントローラに含まれる過渡検出部が過渡を検出し、図７Ａに関して説明したように長いウインドウ関数から短いウインドウ関数への切り替えを指令する場合に、信号７５１だけを使用する。

好ましくは、ウインドウ関数の切り替えの実施の形態は、図８Ａ及び８Ｂに関して説明される時間ノイズ整形の実施の形態と組み合わせられる。しかしながら、ＴＮＳ（時間ノイズ整形）の実施の形態は、ブロック切り替えの実施の形態を備えずに実現することもできる。

タイムワープＭＤＣＴのスペクトルエネルギー圧縮特性は時間ノイズ整形（ＴＮＳ）ツールにも影響する。なぜならば、ＴＮＳゲインは、特にいくつかのスピーチ信号において、タイムワープされたフレームについて減少する傾向にあるからである。しかしながら、例えば、ブロック切り替えが望ましくないが依然としてスピーチ信号の時間包絡線が急激な変化を呈する有声の開始又は消失における前エコーを減らす（ブロック切り替えの適応を参照）ためにＴＮＳを有効にすることが望ましい。典型的には、エンコーダが、例えばスペクトルに適用されたときのＴＮＳフィルタの予測ゲインなど、ＴＮＳの適用が特定のフレームにおいて有益であるか否かを判断するためのいくつかの指標を使用する。したがって、有効なピッチコンターを有するセグメントについてより低い可変のＴＮＳゲインしきい値が好ましく、そのようにすることで、そのような有声の開始などの重要な信号部分について、ＴＮＳがより頻繁に有効になるように保証される。他のツールと同様に、これは信号の分類を考慮に入れることによって補うことも可能である。

オーディオ信号を生成するためのこの実施の形態によるオーディオエンコーダは、オーディオ信号にタイムワーピングを加えてタイムワープオーディオ信号を得るためのタイムワーパー５０６などの制御可能なタイムワーパーを備えている。さらに、タイムワープオーディオ信号の少なくとも一部分をスペクトル表現へ変換するための時間／周波数コンバータ５０８が備えられている。時間／周波数コンバータ５０８は、好ましくは、ＡＡＣエンコーダから公知のとおりのＭＤＣＴ変換を実行するが、時間／周波数コンバータはＤＣＴ、ＤＳＴ、ＤＦＴ、ＦＦＴ又はＭＤＳＴ変換などといった任意の他の種類の変換を実行することもでき、又はＱＭＦフィルタバンクなどのフィルタバンクを備えることができる。

さらに、エンコーダは、時間ノイズ整形制御命令に従ってスペクトル表現の周波数について予測フィルタ処理を実行するための時間ノイズ整形段５１０を備えているが、予測フィルタ処理は時間ノイズ整形制御命令が存在しない場合には実行されない。

さらに、エンコーダは、スペクトル表現に基づいて時間ノイズ整形制御命令を生成するための時間ノイズ整形コントローラを備えている。

具体的には、時間ノイズ整形コントローラは、スペクトル表現がタイムワープ時間信号に基づいている場合に周波数についての予測フィルタ処理を実行する可能性を高め、スペクトル表現がタイムワープ時間信号に基づいていない場合に周波数についての予測フィルタ処理を実行する可能性を減らすように構成されている。時間ノイズ整形コントローラの仕様は図８に関連して検討される。

さらに、オーディオエンコーダは、周波数についての予測フィルタ処理の結果をさらに処理し、エンコード済み信号を得るためのプロセッサを備えている。一実施の形態においては、プロセッサは図５Ａに示されている量子化部エンコーダ段５１２を備えている。

図５Ａに示したＴＮＳ段５１０が図８に詳しく示されている。好ましくは、ＴＮＳ段５１０に含まれる時間ノイズ整形コントローラは、ＴＮＳゲイン計算部８００と、その後に接続されたＴＮＳ決定部８０２と、しきい値制御信号生成部８０４とを備えている。タイムワープ分析部５１６もしくは信号分類部５２０又は両者からの信号に応じて、しきい値制御信号生成部８０４はしきい値制御信号８０６をＴＮＳ決定部へ出力する。ＴＮＳ決定部８０２は、しきい値制御信号８０６に従って増やされ又は減らされる制御可能なしきい値を有している。ＴＮＳ決定部８０２におけるしきい値は、この実施の形態においてはＴＮＳゲインしきい値である。ブロック８００によって出力される実際に計算されたＴＮＳゲインがしきい値を超える場合、ＴＮＳ制御命令が出力としてＴＮＳ処理を要求し、一方、ＴＮＳゲインがＴＮＳゲインしきい値を下回る他の場合においては、ＴＮＳ命令が出力されないか、又はこの特定の時間フレームにおいてはＴＮＳ処理が有用でなく実行すべきでない旨を指示する信号が出力される。

ＴＮＳゲイン計算部８００は、入力として、タイムワープ済みの信号から導出されるスペクトル表現を受信する。典型的には、タイムワープ済み信号はより低いＴＮＳゲインを有するが、他方では、タイムワーピング操作が加えられた有声／ハーモニック信号が存在する特定の状況においては、ＴＮＳ処理は時間ドメインにおける時間ノイズ整形の特徴により有益である。他方では、ＴＮＳ処理はＴＮＳゲインが低い状況においては有用でなく、すなわちライン５１０ｂにおけるＴＮＳ残余信号がＴＮＳ段５１０の前の信号と同じか又はそれよりも高いエネルギーを有する。ライン５１０ｄ上のＴＮＳ残余信号のエネルギーがＴＮＳ段５１０の前のエネルギーよりもわずかに低い状況においては、量子化部／エントロピーエンコーダ段５１２によって効率的に使用される信号におけるわずかに小さいエネルギーによるビットの削減が、図５Ａに５１０ａで示されているＴＮＳ副情報の必要な送信によって持ち込まれるビットの増加よりも小さいため、ＴＮＳ処理はやはり有利ではないかもしれない。タイムワープ済みの信号がブロック５１６からのピッチ情報又はブロック５２０からの信号分類部情報によって示される入力である一実施の形態は、すべてのフレームについてＴＮＳ処理を自動的にオンにするが、好ましい実施の形態は、ゲインが実際に低く、あるいは少なくともハーモニック／スピーチ信号が処理されない通常の場合よりも低い場合に限り、ＴＮＳ処理を無効にする可能性も維持する。

図８Ｂは、３つの異なるしきい値設定がしきい値制御信号生成部８０４／ＴＮＳ決定部８０２によって実現される実施例を示している。ピッチコンターが存在せず、信号分類部が無声のスピーチ又は全くの非スピーチを示す場合、ＴＮＳ決定しきい値は、ＴＮＳを有効にするために比較的高いＴＮＳゲインを必要とする通常の状態となるように設定される。しかしながら、ピッチコンターが検出されるが、信号分類部が非スピーチを示し、又は有声／無声検出部が無声のスピーチを検出する場合、ＴＮＳ決定しきい値はより低いレベルに設定され、すなわち比較的低いＴＮＳゲインが図８Ａのブロック８００によって計算された場合でもＴＮＳ処理が有効にされる。

有効なピッチコンターが検出され、有声スピーチが発見される状況においては、ＴＮＳ決定しきい値はより低い同じ値又はさらに低い状態に設定され、したがってさらに小さなＴＮＳゲインであってもＴＮＳ処理を有効にするために充分である。

一実施の形態においては、オーディオ信号に周波数についての予測フィルタ処理が加えられる場合、ＴＮＳゲインコントローラ８００はビットレート又は品質にてゲインを推定するように構成される。ＴＮＳ決定部８０２は推定されたゲインを決定しきい値と比較し、推定によるゲインが決定しきい値に対して所定の関係にあるとき、予測フィルタ処理を支持するＴＮＳ制御情報がブロック８０２によって出力される。ここで、この所定の関係は、「・・・よりも大きい」という関係にすることができるが、例えば逆ＴＮＳゲインにおいては「・・・よりも小さい」という関係にすることもできる。上述のように、時間ノイズ整形コントローラは、推定によるゲインが同じであっても、スペクトル表現がタイムワープ後のオーディオ信号に基づいている場合には予測フィルタ処理が有効にされ、スペクトル表現がタイムワープ後の予測信号に基づいていない場合には予測フィルタ処理が無効にされるように、好ましくはしきい値制御信号８０６を使用して決定しきい値を変化させるようにさらに構成される。

通常は、有声のスピーチはピッチコンターを呈し、摩擦音又は歯擦音などの無声のスピーチはピッチコンターを呈さない。しかしながら、スピーチ検出部はスピーチを検出しないが、強力なハーモニック成分、したがってピッチコンターを有する非スピーチ信号が存在する。さらに、オーディオ信号分析部（例えば、図５Ａの５１６）によってハーモニック成分を有すると判断されるが、信号分類部５２０によってスピーチ信号であるとして検出されることはない特定のミュージック上スピーチ又はスピーチ上ミュージックの信号が存在する。そのような状況においては、有声スピーチ信号のためのすべての処理操作をやはり適用することができ、やはり利点がもたらされる。

次に、オーディオ信号をエンコードするためのオーディオエンコーダに関する本発明のさらなる好ましい実施の形態を説明する。このオーディオエンコーダは帯域幅拡張においてとくに有用であるが、オーディオエンコーダが特定の帯域幅限定／低域通過フィルタ処理操作を得るために特定の数のラインをコーディングするように設定されるスタンドアロンのエンコーダ用途においても有用である。非タイムワープの用途において、特定の所定の数のラインを選択することによるこの帯域幅の限定は、オーディオ信号のサンプリング周波数が一定であるため一定の帯域幅をもたらす。しかしながら、図５Ａのブロック５０６などによるタイムワープ処理が実行される状況においては、固定の数のラインに頼るエンコーダは、慣れた聴取者によって知覚可能なだけでなく、不慣れな聴取者にとっても知覚可能である強力なアーチファクトを持ち込む変化する帯域幅をもたらすであろう。

ＡＡＣコアコーダーは、通常は、固定の数のラインをコーディングし、最大のラインを上回る他のすべてをゼロに設定する。ワーピングされていない場合には、これは、一定のカットオフ周波数による低域通過効果につながり、したがってデコード後のＡＡＣ信号の一定の帯域幅につながる。タイムワープの場合には、局部タイムワーピングコンターの関数である局部サンプリング周波数の変化により帯域幅が変化し、可聴なアーチファクトにつながる。アーチファクトは、すべてのフレームについてデコーダでのタイム再ワーピング後に一定の平均帯域幅が得られるように、局部サンプリング周波数に応じて、コアコーダーにおいてコーディングされるべきラインの数を局部タイムワーピングコンター及びその得られた平均サンプリングレートの関数として適応的に選択することによって、少なくすることができる。さらなる利益は、エンコーダにおけるビットの節約である。

この実施の形態によるオーディオエンコーダは、可変のタイムワーピング特性を使用してオーディオ信号をタイムワーピングするためのタイムワーパー５０６を備えている。さらに、タイムワープ後のオーディオ信号をいくつかのスペクトル係数を有するスペクトル表現へ変換するための時間／周波数コンバータ５０８が備えられている。さらに、可変の数のスペクトル係数を処理し、エンコードされたオーディオ信号を生成するためのプロセッサが使用され、図５Ａの量子化部／コーダーブロック５１２を備えるこのプロセッサは、フレームごとの被処理の周波数係数の数によって表わされる帯域幅のばらつきが少なくなるか又は皆無になるように、オーディオ信号のフレームについてスペクトル係数の数を、そのフレームのタイムワーピング特性に基づいて設定するように構成されている。

ブロック５１２によって実現されるプロセッサはラインの数を制御するためのコントローラ１０００を備えることができ、コントローラ１０００の結果は、タイムワーピングなしでエンコードされている時間フレームの場合に設定されるラインの数に対して、特定の可変の数のラインがスペクトルの上端において追加又は破棄されるような結果である。実施例に応じて、コントローラ１０００は、特定のフレームのピッチコンター情報１００１及び／又はフレーム内の局部平均サンプリング周波数１００２を受信することができる。

図９（Ａ）〜９（Ｅ）において、右側の図はフレームについて特定のピッチコンターにおける特定の帯域幅の状況を示しており、タイムワープのためのフレームのピッチコンターがそれぞれの左の図に示され、タイムワープ後のフレームのピッチコンターが真ん中の図に示されている。タイムワープ後のフレームでは実質的に一定のピッチ特性が得られている。タイムワーピング後にピッチ特性が可能なかぎり一定であることがタイムワーピング機能の目標である。

帯域幅９００は、時間／周波数コンバータ５０８又は図５ＡのＴＮＳ段５１０によって出力された特定のライン数において、タイムワーピング操作が実行されない場合、すなわち破線５０７によって示されるようにタイムワーパー５０６が無効にされた場合に得られる帯域幅である。しかしながら、非一定なタイムワープコンターが得られ、このタイムワープコンターがサンプリングレートの増加を生じさせる高い方のピッチへともたらされる場合（図９（Ａ）、（Ｃ））、スペクトルの帯域幅は通常の非タイムワープの状況に比べて減少する。これは、このフレームについて送信されるべきラインの数を、この帯域幅の喪失を相殺するために増加させなければならないことを意味している。

また、ピッチを図９（Ｂ）又は図９（Ｄ）に示されている低い方の一定のピッチにすることでサンプリングレートの減少が生じる。このサンプリングレートの減少は、線形なスケールに対してこのフレームのスペクトルの帯域幅の増加をもたらし、この帯域幅の増加は、通常の非タイムワープの状況におけるライン数の値に対する特定の数のラインの削除又は破棄を使用して相殺しなければならない。

図９（Ｅ）は、タイムワーピング操作を実行する代わりに、フレーム内の平均のサンプリング周波数がタイムワーピングなしのサンプリング周波数と同じであるように、ピッチコンターが中間のレベルにされる特別な場合を示している。したがって、タイムワーピング操作が実行されるにもかかわらず、信号の帯域幅は影響を受けず、タイムワーピングなしの通常の場合に使用されるべき簡単な数のラインを処理することができる。図９から、タイムワーピング操作の実行が必ずしも帯域幅に影響を及ぼさないが、帯域幅はピッチコンター及びフレームにおけるタイムワープの実行の方法に依存して影響を受けることが明らかになる。したがって、制御値として、局部又は平均のサンプリングレートを使用することが好ましい。この局部サンプリングレートの決定が図１１に示されている。図１１の上部は等距離のサンプリング値を有する時間部分を示している。フレームは、例えば、上部のプロットにＴ_nによって示されている７つのサンプリング値を含んでいる。下部のプロットは、タイムワーピング操作の結果を示しており、全体としてサンプリングレートの増加が生じている。これは、タイムワープ後のフレームの時間長がタイムワープ前のフレームの時間長よりも短いことを意味している。しかしながら、時間／周波数コンバータへ導入されるべきタイムワープ後のフレームの時間長は固定されているため、サンプリングレートの増加の場合は、Ｔ_nによって示されるフレームには属していない時間信号の追加の部分が、線１１００によって示されるようにタイムワープ後のフレームへ導入される事態を引き起こす。すなわち、タイムワープ後のフレームは、時間Ｔ_nよりも長いＴ_linによって示されるオーディオ信号の時間部分を含んでいる。これに鑑み、線形ドメインにおける２つの周波数ラインの間の有効距離又は単一のラインの周波数帯域幅（分解能の逆数である）が減少しており、非タイムワープの場合について設定されるラインの数Ｎ_nが、減少した周波数距離によって乗算されるとき、より小さな帯域幅、すなわち帯域幅の減少をもたらす。

図１１には示されていない、サンプリングレートの減少がタイムワーパーによって実行される他の場合は、タイムワープ後のドメインにおけるフレームの有効時間長が非タイムワープのドメインの時間長よりも短く、したがって単一のラインの周波数帯域幅又は２つの周波数ラインの間の距離が増加している。今度は、この増加したΔｆを通常の場合におけるラインの数Ｎ_Nによって乗算することで、周波数分解能の低下／２つの隣接する周波数係数の間の周波数距離の増加により、帯域幅の増加がもたらされる。

図１１はどのように平均サンプリングレートｆ_SRが計算されるのかをさらに説明している。この目的のために、２つのタイムワープ後サンプルの間の時間距離が割り出され、２つのタイムワープ後サンプルの間の局部サンプリングレートとなるように規定される逆数の値がとられる。そのような値は、隣接するサンプルからなる各ペアの間で計算することができ、算術平均値を計算することができ、この値が最終的に図１０Ａのコントローラ１０００への入力として好ましく使用される平均局部サンプリングレートをもたらす。

図１０Ｂは、局部サンプリング周波数に応じて何本のラインを追加又は破棄しなければならないかを示すプロットを示しており、非ワープの場合におけるサンプリング周波数ｆ_Nが、非タイムワープの場合におけるラインの数Ｎ_Nとともに、一連のタイムワープフレーム、又はタイムワープ及び非タイムワープを含む一連のフレームにおいて可能な限り一定に保たれるべき帯域幅を規定している。

図１２Ｂは、図９、図１０Ｂ及び図１１に関連して説明した種々のパラメータの間の依存を示している。基本的に、フレームからフレームへの帯域幅の変動を少なくし、さらに好ましくは可能な限り取り除くために、サンプリングレート、すなわち平均サンプリングレートｆ_SRが非タイムワープの場合に比べて減少するときはラインを削除しなければならず、一方、サンプリングレートが非タイムワープの場合の通常のサンプリングレートｆ_Nに比べて増加するときはラインを追加しなければならない。

ラインの数Ｎ_N及びサンプリングレートｆ_Nによってもたらされる帯域幅は、帯域幅拡張エンコーダ（ＢＷＥエンコーダ）をソースコアオーディオエンコーダに加えて有しているオーディオコーダーのためのクロスオーバー周波数１２００を好ましくは規定する。この技術分野において既知のように、帯域幅拡張エンコーダは、クロスオーバー周波数までのスペクトルだけを高いビットレートでコーディングし、高い帯域、すなわちクロスオーバー周波数１２００と周波数ｆ_MAXとの間のスペクトルを低いビットレートでエンコードする。この低いビットレートは、典型的には、周波数ゼロとクロスオーバー周波数１２００との間の低い帯域に必要とされるビットレートの１／１０以下という低さである。さらに図１２Ａは簡単なＡＡＣオーディオエンコーダの帯域幅ＢＷ_AACを示しており、その帯域幅ＢＷ_AACはクロスオーバー周波数よりもはるかに高い。したがって、ラインは破棄できるだけでなく、追加することもできる。さらに、局部サンプリングレートｆ_SRに応じた一定の数のラインについての帯域幅の変化も示されている。好ましくは、通常の場合のラインの数に対して追加又は削除されるべきラインの数は、ＡＡＣエンコードされたデータの各フレームがクロスオーバー周波数１２００に可能なかぎり近い最大周波数を有するように設定される。このようにして、一方では帯域幅の縮小に起因するスペクトルの穴、又は低帯域のエンコード後フレームにおいてクロスオーバー周波数を上回る周波数についての情報を送信することによる諸経費が回避される。これは、一方ではデコード後のオーディオ信号の品質を向上させ、他方ではビットレートを少なくする。

設定された数のラインに対するラインの実際の追加又は設定された数のラインに対するラインの削除は、ラインの量子化の前に、すなわちブロック５１２の入力において実行することができ、又は量子化に続いて実行することができ、又は特定のエントロピーコードに応じてエントロピーコーディングに続いて実行することもできる。

さらに、帯域幅の変動を最小のレベルにすることが好ましく、さらには帯域幅の変動をなくすことさえ好ましいが、他の実施例においては、タイムワーピング特性に応じたライン数の決定による帯域幅の変動の軽減さえ、一定の数のラインが特定のタイムワープ特性にかかわらずに適用される状況に比べて、オーディオの品質を向上させ必要とされるビットレートを少なくする。

いくつかの態様を装置によって説明してきたが、これらの態様は対応する方法の説明も示しており、ブロック又はデバイスが方法の各段階又は方法の各段階の特徴に対応することは明らかである。同様に、方法の各段階によって説明された態様は、対応する装置の対応するブロック、項目又は特徴の説明も示す。

特定の実施例の要件に応じて、本発明の実施の形態をハードウェア又はソフトウェアにて実現することが可能である。その実現は、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリなど、それぞれの方法が実行されるようにプログラマブルなコンピューターシステムと協働する（あるいは、協働できる）電子的に読み取り可能な制御信号が保存されてなるデジタル記憶媒体を使用して実行することが可能である。本発明によるいくつかの実施の形態は、本明細書に記載の方法のうちの１つが実行されるようにプログラマブルなコンピューターシステムと協働することができる電子的に読み取り可能な制御信号を有しているデータ担体を含む。一般に、本発明のいくつかの実施の形態を、プログラムコードを有するコンピュータープログラム製品であって、コンピュータ上で実行されたときに前記プログラムコードが前記方法のうちの１つを実行するように動作することができるコンピュータープログラム製品として実現することができる。そのプログラムコードは、例えば機械で読み取ることができる担体に保存することができる。他のいくつかの実施の形態は、機械で読み取ることができる担体に保存され、本明細書に記載の方法のうちの１つを実行するコンピュータープログラムを含む。したがって、換言すると、本発明の方法の一実施の形態は、コンピューター上で実行されたときに本明細書に記載の方法のうちの１つを実行するためのプログラムコードを有しているコンピュータープログラムである。したがって、本発明の方法のさらなる実施の形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータープログラムが記録されてなるデータ担体（あるいは、デジタル記憶媒体又はコンピューターで読み取り可能な媒体）である。したがって、本発明の方法のさらなる実施の形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータープログラムを表わしているデータストリーム又は信号のシーケンスである。そのデータストリーム又は信号のシーケンスは、例えば、データ通信接続、例えば、インターネットを介して伝送されるように構成することができる。さらなる実施の形態は、本明細書に記載の方法のうちの１つを実行するように設定又は構成された、例えば、コンピューター又はプログラマブルな論理デバイスなどの処理手段を含む。さらなる実施の形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータープログラムがインストールされてなるコンピューターを含む。いくつかの実施の形態においては、プログラマブルな論理デバイス（例えば、フィールドプログラマブルゲートアレイ）を、本明細書に記載の方法の機能の一部又はすべてを実行するために使用することができる。いくつかの実施の形態においては、フィールドプログラマブルゲートアレイが、本明細書に記載の方法のうちの１つを実行するためにマイクロプロセッサと協働することができる。

Claims

オーディオ信号の表現（１１０；２３４ｅ；２３４ｋ）に基づいてタイムワープ作動信号（１１２；２３２；２３４ｐ）を供給するためのタイムワープ作動信号供給部（１００；２３０；２３４）であって、
前記オーディオ信号のタイムワープ変換後のスペクトル表現（２２２）におけるエネルギーの圧縮を表わすエネルギー圧縮情報（１２２；２３４ｍ；２３４ｎ；３２６；３７４）を供給するように構成されたエネルギー圧縮情報供給部（１２０；２３４ｆ；２３４ｌ；３２５；３７０）と、
前記エネルギー圧縮情報（１２２；２３４ｍ；２３４ｎ；３２６；３７４）を基準値と比較し、比較の結果に依存して前記タイムワープ作動信号（１１２；２３２；２３４ｐ）を供給するように構成された比較部（１３０；２３４ｏ）と、を備えているタイムワープ作動信号供給部。
前記エネルギー圧縮情報供給部（１２０；２３４ｆ；２３４ｌ）は、前記エネルギー圧縮情報（１２２；２３４ｍ；２３４ｎ）として、前記オーディオ信号のタイムワープ変換後のスペクトル表現（２３４ｅ；２３４ｋ）を描写するスペクトルの平坦さの指標を供給するように構成されている請求項１に記載のタイムワープ作動信号供給部（１００；２３０；２３４）。
前記エネルギー圧縮情報供給部（１２０；２３４ｆ；２３４ｌ）は、前記スペクトルの平坦さの指標を得るために、前記オーディオ信号のタイムワープ変換後のパワースペクトル（２３４ｅ；２３４ｋ）の幾何平均と前記オーディオ信号のタイムワープ変換後のパワースペクトル（２３４ｅ；２３４ｋ）の算術平均との商を計算するように構成されている請求項２に記載のタイムワープ作動信号供給部（１００；２３０；２３４）。
前記エネルギー圧縮情報供給部（１２０；２３４ｆ；２３４ｌ）は、前記エネルギー圧縮情報（１２２；２３４ｍ；２３４ｎ）を得るために、前記タイムワープ変換後のスペクトル表現（２３４ｅ；２３４ｋ）の高い方の周波数部分を、前記タイムワープ変換後のスペクトル表現（２３４ｅ；２３４ｋ）の低い方の周波数部分に比べて強調するように構成されている請求項１から３のいずれか一項に記載のタイムワープ作動信号供給部（１００；２３０；２３４）。
前記エネルギー圧縮情報供給部（１２０；２３４ｆ；２３４ｌ）は、前記エネルギー圧縮情報（１２２；２３４ｍ；２３４ｎ）を得るために、スペクトルの平坦さについて複数の帯域ごとの指標を得、該複数の帯域ごとのスペクトルの平坦さの指標の平均を計算するように構成されている請求項１から４のいずれか一項に記載のタイムワープ作動信号供給部（１００；２３０；２３４）。
前記エネルギー圧縮情報供給部（１２０；２３４ｆ；２３４ｌ；３２５）は、前記エネルギー圧縮情報（１２２；２３４ｍ；２３４ｎ）として、前記オーディオ信号のタイムワープ変換後のスペクトル表現（２３４ｅ；２３４ｋ）を描写する知覚エントロピー（ｐｅ）の指標を供給するように構成されている請求項１に記載のタイムワープ作動信号供給部（１００；２３０；２３４）。
前記エネルギー圧縮情報供給部（１２０；２３４ｆ；２３４ｌ；３２５）は、前記オーディオ信号のタイムワープ変換後のスペクトル表現（２３４ｅ；２３４ｋ）の１つ以上のスケール係数帯について、非ゼロのラインの推定数（ｎｌ）を該スケール係数帯のフォームファクター情報（ｆｆａｃ（ｎ））に基づいて計算し、対象となるスケール係数帯の知覚エントロピーの指標（３２６）を前記非ゼロのラインの推定数（ｎｌ）と対象となるスケール係数帯のエネルギーの指標との乗算を使用して計算するように構成されている請求項６に記載のタイムワープ作動信号供給部（１００；２３０；２３４；３２５）。
前記エネルギー圧縮情報供給部（１２０；２３４ｆ；２３４ｌ；３７０）は、前記エネルギー圧縮情報として、前記オーディオ信号（２３４ｅ；２３４ｋ）のタイムワープ後の時間ドメイン表現の自己相関を描写する自己相関の指標（３７４）を供給するように構成されている請求項１に記載のタイムワープ作動信号供給部（１００；２３０；２３４）。
前記エネルギー圧縮情報供給部（１２０；２３４ｆ；２３４ｌ；３７０）は、前記エネルギー圧縮情報を得るために、前記オーディオ信号のタイムワープ後の表現（２３４ｅ；２３４ｋ）の正規化された自己相関関数の絶対値の合計を割り出すように構成されている請求項８に記載のタイムワープ作動信号供給部（１００；２３０；２３４）。
該タイムワープ作動信号供給部（１００；２３０）は、前記オーディオ信号（２１０）の未ワープのスペクトル表現又は前記オーディオ信号（２１０）の未ワープの時間ドメイン表現に基づいて前記基準値を計算するように構成された基準値計算部を備えており、
前記比較部は、前記オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を描写するエネルギー圧縮情報（１２２）及び前記基準値を使用して比の値を形成し、該比の値を１つ以上のしきい値と比較して、比較の結果として前記タイムワープ作動信号を得るように構成されている請求項１から９のいずれか一項に記載のタイムワープ作動信号供給部（１００；２３０）。
該タイムワープ作動信号供給部（１００；２３０）は、標準のタイムワープコンター情報（２８８）を使用してタイムワーピングされた前記入力信号（２１０）のタイムワープ後の表現に基づいて前記基準値を計算するように構成された基準値計算部を備えており、
前記比較部は、前記オーディオ信号のタイムワープ後の表現におけるエネルギーの圧縮を描写するエネルギー圧縮情報（２３４ｅ）及び前記基準値を使用して比の値を形成し、該比の値を１つ以上のしきい値と比較して、比較の結果として前記タイムワープ作動信号を得るように構成されている請求項１から９のいずれか一項に記載のタイムワープ作動信号供給部（２３０；２３４）。
入力オーディオ信号（２１０）をエンコードして、該入力オーディオ信号のエンコード済み表現（２１２）を得るためのオーディオ信号エンコーダ（２００）であって、
タイムワープコンターを使用して前記入力オーディオ信号（２１０）に基づいてタイムワープ変換後のスペクトル表現（２２２）を供給するように構成されたタイムワープ変換部（２２０）と、
前記入力オーディオ信号（２１０）を受信し、タイムワープ作動信号（１１２；２３２；２３４ｐ）を供給するように構成された請求項１から１１のいずれか一項に記載のタイムワープ作動信号供給部（１００；２３０；２３４）と、
前記タイムワープ変換部（２２０）によって使用されるタイムワープコンターを描写するために、前記タイムワープ作動信号（１１２；２３２；２３４ｐ）に応じて、非一定のタイムワープコンター部分を描写する新たに発見されたタイムワープコンター情報（２８６）又は一定のタイムワープコンター部分を描写する標準のタイムワープコンター情報（２８８）を選択的に前記タイムワープ変換部（２２０）へ供給するように構成されたコントローラ（２４０）と、を備えているオーディオ信号エンコーダ（２００）。
前記タイムワープ変換後のスペクトル表現（２２２）を前記オーディオ信号のエンコード済み表現（２１２）へ含ませ、
前記タイムワープ作動信号（２３２）に応じてタイムワープコンター情報を前記オーディオ信号のエンコード済み表現（２１２）へ選択的に含ませるように構成された出力インターフェイス（２８０）、を備えている請求項１２に記載のオーディオ信号エンコーダ。
オーディオ信号に基づいてタイムワープ作動信号を供給するための方法（４００）であって、
前記オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を描写するエネルギー圧縮情報を供給するステップ（４１０）、
前記エネルギー圧縮情報を基準値と比較するステップ（４２０）、及び
前記比較の結果に応じて前記タイムワープ作動信号を供給するステップ（４３０）を含んでいる方法。
入力オーディオ信号をエンコードして、該入力オーディオ信号のエンコード済み表現を得るための方法（４５０）であって、
請求項１４に従ってタイムワープ作動信号を供給するステップであって、前記エネルギー圧縮情報が前記入力オーディオ信号のタイムワープ変換後のスペクトル表現におけるエネルギーの圧縮を描写しているステップ（４７０）、及び
前記入力オーディオ信号のタイムワープ変換後のスペクトル表現の描写又は前記入力オーディオ信号のタイムワープ変換されていないスペクトル表現の描写を、前記タイムワープ作動信号に応じて選択的に前記入力オーディオ信号のエンコード済み表現に含ませるために供給するステップ（４８０）を含んでいる方法。
コンピューター上で実行されたときに請求項１４又は１５に記載の方法を実行するためのコンピュータープログラム。
オーディオ信号をエンコードするためのオーディオエンコーダであって、
オーディオ値を量子化するための量子化部であって、量子化しきい値を下回るオーディオ値をゼロに量子化するように構成されている量子化部（５１２）と、
前記オーディオ信号の時間フレームについて、ゼロに量子化されたオーディオ値のエネルギーの指標を推定するためのノイズフィリング計算部（５２４）と、
前記オーディオ信号の時間フレームがハーモニック又はスピーチ特性を有するか否かを分析するためのオーディオ信号分析部（５１６、５２０）と、
前記オーディオ信号のハーモニック又はスピーチ特性に応じて前記ノイズフィリングの指標を操作し、操作済みのノイズフィリングの指標を得るための操作部（６０２）と、
前記操作済みのノイズフィリングの指標（５３０）を含むエンコード済み信号を送信又は保存のために生成する出力インターフェイス（５２２）と、を備えているオーディオエンコーダ。
前記オーディオ信号分析部（５１６、５２０）は、前記オーディオ信号の時間フレームにおいてピッチが発見されたときにピッチの表示を生成するためのピッチトリガーを備えており、
前記操作部（６０２）は、ピッチが発見されたときに前記ノイズフィリングの指標を減らすように構成されている請求項１７に記載のオーディオエンコーダ。
前記オーディオ信号分析部は、前記時間フレームの少なくとも一部分が有声であるか否かを検出するための有声／無声検出部（５２０）を備えており、
前記操作部（６０２）は、前記一部分が有声であると検出された場合に、前記ノイズフィリングの指標を減らし、又は前記ノイズフィリングの指標をゼロにするように構成されており、
前記操作部（６０２）は、前記一部分が無声であると検出された場合に、前記ノイズフィリングの指標を操作せず、又は前記ノイズフィリングの指標に程度の軽い方の操作を加えるように構成されている請求項１７又は１８に記載のオーディオエンコーダ。
エンコード済みのオーディオ信号をデコードするためのデコーダであって、
エンコード済みのオーディオ信号を処理し、ノイズフィリングの指標（５４３）及びエンコード済みのオーディオデータ（５４６）を得るための入力インターフェイス（５３９）と、
再量子化されたデータを生成するためのデコーダ／再量子化部（５４７、５５０）と、
前記オーディオデータの時間フレームがハーモニック又はスピーチ特性を有しているか否かについての情報を取り出すための信号分析部（６００）と、
ノイズフィリングオーディオデータを生成するためのノイズフィラーであって、前記ノイズフィリングの指標と、前記オーディオデータのハーモニック又はスピーチ特性とに応答してノイズフィリングデータを生成するように構成されたノイズフィラー（５５２）と、
前記再量子化されたデータ及び前記ノイズフィリングオーディオデータを処理し、デコード済みのオーディオ信号（５６４）を得るためのプロセッサ（５５６、５５８、５６０）と、を備えているデコーダ。
前記エンコード済みのオーディオ信号は、前記オーディオデータの時間フレームがハーモニック又はスピーチ特性を有しているか否かを示すデータ（５４２、５４１）を含んでおり、
前記信号分析部（６００）は、前記オーディオデータの時間フレームがハーモニック又はスピーチ特性を有しているか否かを示すデータを取り出すべく前記エンコード済みのオーディオ信号を分析するように構成されている請求項２０に記載のデコーダ。
前記データは前記時間部分にタイムワーピング処理が加えられている旨の表示であり、
前記プロセッサは、ノイズフィリングデータ及び再量子化されたデータから導出されるオーディオ信号をタイムデワーピングするタイムデワーパー（５５８）を備えている請求項２１に記載のデコーダ。
オーディオ信号のエンコーディングのための方法であって、
オーディオ値を量子化するステップであって、量子化部が量子化しきい値を下回るオーディオ値をゼロに量子化するように構成されているステップ（５１２）、
前記オーディオ信号の時間フレームについて、ゼロに量子化されたオーディオ値のエネルギーの指標を推定するステップ（５２４）、
前記オーディオ信号の時間フレームがハーモニック又はスピーチ特性を有するか否かを分析するステップ（５１６、５２０）、
前記オーディオ信号のハーモニック又はスピーチ特性に応じて前記ノイズフィリングの指標を操作し、操作済みのノイズフィリングの指標を得るステップ（６０２）、及び
前記操作済みのノイズフィリングの指標（５３０）を含むエンコード済み信号を送信又は保存のために生成するステップ（５２２）、を含んでいる方法。
エンコード済みのオーディオ信号のデコーディングのための方法であって、
エンコード済みのオーディオ信号を処理し、ノイズフィリングの指標（５４３）及びエンコード済みのオーディオデータ（５４６）を得るステップ（５３９）、
再量子化されたデータを生成するステップ（５４７、５５０）、
前記オーディオデータの時間フレームがハーモニック又はスピーチ特性を有しているか否かについての情報を取り出すステップ（６００）、
前記ノイズフィリングの指標と、前記オーディオデータのハーモニック又はスピーチ特性とに応答してノイズフィリングオーディオデータを生成するステップ（５５２）、
前記再量子化されたデータ及び前記ノイズフィリングオーディオデータを処理し、デコード済みのオーディオ信号（５６４）を得るステップ（５５６、５５８、５６０）、を含んでいる方法。
コンピューター上で動作するときに請求項２３又は２４に記載の方法を実行するためのプログラムコードを有しているコンピュータープログラム。
エンコード済みのオーディオ信号を生成するためのオーディオエンコーダであって、
前記オーディオ信号の時間フレームがハーモニック又はスピーチ特性を有するか否かを分析するためのオーディオ信号分析部（５１６、５２０）と、
前記オーディオ信号のハーモニック又はスピーチ特性に応じてウインドウ関数を選択するためのウインドウ関数コントローラ（５０４）と、
前記選択されたウインドウ関数を使用して前記オーディオ信号にウインドウを適用し、ウインドウ処理されたフレームを得るためのウインドウ設定部（５０２）と、
前記ウインドウ処理されたフレームをさらに処理し、前記エンコード済みのオーディオ信号を得るためのプロセッサ（５０８、５１２）と、を備えているオーディオエンコーダ。
前記ウインドウ関数コントローラ（５０４）は過渡を検出するための過渡検出部（７００）を備えており、
前記ウインドウ関数コントローラは、過渡が検出されかつ前記オーディオ信号分析部（５１６、５２０）によってハーモニック又はスピーチ特性が発見されない場合に長いブロックのためのウインドウ関数から短いブロックのためのウインドウ関数へと切り替えを行い、過渡が検出されかつ前記オーディオ信号分析部（５１６、５２０）によってハーモニック又はスピーチ特性が発見された場合に短いブロックのためのウインドウ関数への切り替えを行わないように構成されている請求項２６に記載のオーディオエンコーダ。
前記過渡検出部（７００）は、前記オーディオ信号の定量的特性を検出し、該定量的特性を制御可能なしきい値と比較し、該定量的特性が該制御可能なしきい値に対して所定の関係を有する場合に、過渡が検出されるように構成されており、
前記オーディオ信号分析部は、該オーディオ信号分析部（５１６、５２０）がハーモニック又はスピーチ特性を発見した場合に短いブロックのためのウインドウ関数への切り替えの可能性が減らされるように、前記可変のしきい値を制御するように構成されている請求項２６又は２７に記載のオーディオエンコーダ。
前記ウインドウ関数コントローラ（５０４）は、過渡が検出されかつ前記信号がハーモニック又はスピーチ特性を有している場合に、短いブロックのためのウインドウ関数（７１２）よりも長いウインドウ関数（７０６、７０７）へと切り替えを行い、又は長いブロックのためのウインドウ関数（７１４）よりも短い重なり（７１２）を有するウインドウ関数へと切り替えを行うように構成されている請求項２７又は２８に記載のオーディオエンコーダ。
エンコード済みのオーディオ信号を生成するための方法であって、
前記オーディオ信号の時間フレームがハーモニック又はスピーチ特性を有するか否かを分析するステップ（５１６、５２０）、
前記オーディオ信号のハーモニック又はスピーチ特性に応じてウインドウ関数を選択するステップ（５０４）、
前記選択されたウインドウ関数を使用して前記オーディオ信号にウインドウを適用し、ウインドウ処理されたフレームを得るステップ（５０２）、及び
前記ウインドウ処理されたフレームを処理し、前記エンコード済みのオーディオ信号を得るステップ（５０８、５１２）、を含んでいる方法。
コンピューター上で動作するときに請求項３０に記載の方法を実行するためのプログラムコードを有しているコンピュータープログラム。
オーディオ信号を生成するためのオーディオエンコーダであって、
前記オーディオ信号をタイムワーピングして、タイムワープ後のオーディオ信号を得るための制御可能なタイムワーパー（５０６）と、
前記タイムワープ後のオーディオ信号の少なくとも一部分をスペクトル表現へ変換するための時間／周波数コンバータ（５０８）と、
時間ノイズ整形制御命令（８０３）に従って前記スペクトル表現の周波数について予測フィルタ処理を実行し、前記時間ノイズ整形制御命令が存在しない場合には前記予測フィルタ処理を実行しない時間ノイズ整形段と、
前記スペクトル表現に基づいて前記時間ノイズ整形制御命令を生成するための時間ノイズ整形コントローラ（８００、８０２、８０４）と、
前記時間ノイズ整形段の出力をさらに処理し、エンコード済みのオーディオ信号（５３２）を得るためのプロセッサ（５１２）と、を備えており、
前記時間ノイズ整形コントローラは、前記スペクトル表現がタイムワープ後のオーディオ信号に基づいている場合に周波数について前記予測フィルタ処理を実行する可能性を高め、又は前記スペクトル表現がタイムワープ後のオーディオ信号に基づいていない場合に周波数について前記予測フィルタ処理を実行する可能性を減らすように構成されているオーディオエンコーダ。
前記時間ノイズ整形コントローラ（８００、８０２、８０４）は、前記オーディオ信号に前記時間ノイズ整形段（５１０）によって前記予測フィルタ処理が加えられたときのビットレート又は品質のゲインを推定し、該推定によるゲインを決定しきい値と比較（８０２）し、
該推定によるゲインが該決定しきい値に対して所定の関係にある場合に前記予測フィルタ処理を支持する決定を行う（８０２）ように構成されており、
前記時間ノイズ整形コントローラは、前記推定によるゲインが同じであっても、前記スペクトル表現がタイムワープ後の信号に基づいている場合には前記予測フィルタ処理が有効にされ、前記スペクトル表現がタイムワープが加えられていないオーディオ信号に基づいていない場合には前記予測フィルタ処理が無効にされるように、前記決定しきい値を変化させる（８０４）ようにさらに構成されている請求項３２に記載のオーディオエンコーダ。
前記タイムワーパーは有声又は無声のスピーチを検出するための信号分類部（５２０）を備えており、
前記時間ノイズ整形コントローラ（８００、８０２、８０４）は、有声のスピーチが検出された場合、又は無声のスピーチが検出されかつ前記スペクトル表現がタイムワープ後のオーディオ信号に基づいている場合に、前記可能性を高めるように構成されている請求項３２又は３３に記載のオーディオエンコーダ。
オーディオ信号を生成するための方法であって、
前記オーディオ信号をタイムワーピングして、タイムワープ後のオーディオ信号を得るステップ（５０６）のために、
前記タイムワープ後のオーディオ信号の少なくとも一部分をスペクトル表現へ変換するステップ（５０８）、
時間ノイズ整形制御命令（８０３）に従って前記スペクトル表現の周波数について予測フィルタ処理を実行し、前記時間ノイズ整形制御命令が存在しない場合には前記予測フィルタ処理を実行しないステップ、
前記スペクトル表現に基づいて前記時間ノイズ整形制御命令を生成するステップ（８００、８０２、８０４）、及び
前記時間ノイズ整形段の出力を処理し、エンコード済みのオーディオ信号（５３２）を得るステップ（５１２）、を含んでおり、
前記時間ノイズ整形コントローラは、前記スペクトル表現がタイムワープ後のオーディオ信号に基づいている場合に周波数について前記予測フィルタ処理を実行する可能性を高め、又は前記スペクトル表現がタイムワープが加えられていないオーディオ信号に基づいていない場合に周波数について前記予測フィルタ処理を実行する可能性を減らすように構成されている方法。
コンピューター上で動作するときに請求項３５に記載の方法を実行するためのプログラムコードを有しているコンピュータープログラム。
オーディオ信号のエンコーディングのためのオーディオエンコーダであって、
可変のタイムワーピング特性を使用してオーディオ信号のワーピングを行うためのタイムワーパー（５０６）と、
タイムワープ後のオーディオ信号を多数のスペクトル係数を有するスペクトル表現へ変換するための時間／周波数コンバータ（５０８）と、
可変の数のスペクトル係数を処理し、エンコード済みのオーディオ信号を生成するためのプロセッサ（５１２）と、を備えており、
前記プロセッサ（５１２、１０００）は、処理される周波数係数の数によって表わされるフレームごとの帯域幅の変動が軽減又は除去されるように、前記オーディオ信号のフレームのためのスペクトル係数の数をフレームの前記タイムワーピング特性に基づいて可変に設定するように構成されているオーディオエンコーダ。
前記可変のタイムワーピング特性は、フレームの局部サンプリング周波数（ｆ_SR）を含んでおり、
前記プロセッサ（５１２、１０００）は、前記局部サンプリング周波数が増加する場合にスペクトル係数の数を増加させるように構成されており、又は前記局部サンプリング周波数が減少する場合にスペクトル係数の数を減少させるように構成されている請求項３７に記載のオーディオエンコーダ。
クロスオーバー周波数（１２００）を上回るスペクトル帯を、該クロスオーバー周波数（１２００）を上回るオーディオ信号の帯域から導出されるパラメータを使用してエンコードするための帯域幅拡張エンコーダをさらに備えており、前記クロスオーバー周波数が各フレームの目標帯域幅の最大周波数となっている請求項３７又は３８に記載のオーディオエンコーダ。
前記オーディオ信号はタイムワーピングされる前に通常のサンプリング周波数（ｆ_N）を使用してサンプリングされており、
前記プロセッサ（５１２、１０００）は、前記局部サンプリング周波数が前記通常のサンプリング周波数に等しい場合に前記クロスオーバー周波数及び前記通常のサンプリング周波数から導出される所定の数（Ｎ_N）のスペクトル係数を使用し、又は前記局部サンプリング周波数が前記通常のサンプリング周波数（ｆ_N）よりも高い場合に前記所定の数（Ｎ_N）のスペクトル係数よりも多数のスペクトル係数を使用し、又は前記局部サンプリング周波数が前記通常のサンプリング周波数（ｆ_N）よりも低い場合に前記所定の数のスペクトル係数よりも少数のスペクトル係数を使用するように構成されている請求項３７から３９のいずれか一項に記載のオーディオエンコーダ。
前記プロセッサは、前記スペクトル係数を量子化し量子化済みのスペクトル係数を得るための量子化部と、該量子化済みのスペクトル係数をエントロピーエンコーディングするためのエントロピーエンコーダと、を備えており、
前記プロセッサ（５１２、１０００）は、量子化の前又は後で前記設定された数のスペクトル係数に含まれないスペクトル係数を破棄するためのセレクターを含んでおり、結果として前記エンコード済みのオーディオ信号が破棄されなかったスペクトル係数だけを含み、又は
前記プロセッサは、量子化の前又は後で前記設定された数のスペクトル係数により必要となるスペクトル係数を追加するためのセレクターを含んでおり、結果として前記エンコード済みのオーディオ信号が追加されたスペクトル係数をさらに含む請求項３７から４０のいずれか一項に記載のオーディオエンコーダ。
オーディオ信号のエンコーディングのための方法であって、
可変のタイムワーピング特性を使用してオーディオ信号のタイムワーピングを行うステップ（５０６）、
タイムワープ後のオーディオ信号を多数のスペクトル係数を有するスペクトル表現へ変換するステップ（５０８）、及び
可変の数のスペクトル係数を処理し、エンコード済みのオーディオ信号を生成するステップ（５１２）、を含んでおり、
処理される周波数係数の数によって表わされるフレームごとの帯域幅の変動が軽減又は除去されるように、前記オーディオ信号のフレームのためのスペクトル係数の可変の数がフレームの前記タイムワーピング特性に基づいて設定される方法。
コンピューター上で動作するときに請求項４２に記載の方法を実行するためのプログラムコードを有しているコンピュータープログラム。