JP5551694B2

JP5551694B2 - 多くのスペクトルエンベロープを計算するための装置および方法

Info

Publication number: JP5551694B2
Application number: JP2011516988A
Authority: JP
Inventors: マクスノイエンドルフ; ベルンハルトグリル; ウルリヒクレマー; マルクスマルトラス; ハラルドポップ; ニコラウスレッテルバッハ; フレドリックナーゲル; マルクスローバッサー; マルクゲイヤー; マーヌエルヤンダー; ヴィルジリオバチガルーポ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2008-07-11
Filing date: 2009-06-23
Publication date: 2014-07-16
Anticipated expiration: 2029-06-23
Also published as: AU2009267532A8; PL2301027T3; CA2729971C; HK1156141A1; US20110202352A1; KR20110038029A; CN102144259A; IL210330A0; HK1156140A1; RU2011103999A; US8612214B2; AR072480A1; MX2011000367A; WO2010003544A1; KR20130095841A; AU2009267530A1; KR101395250B1; RU2487428C2; CO6341676A2; US8296159B2

Description

本発明は、多くのスペクトルエンベロープを計算するための装置および方法、オーディオエンコーダおよびオーディオ信号を符号化するための方法に関する。

自然音符号化および音声符号化は、オーディオ信号の符号化のための２つの主要なタスクである。自然音符号化は、一般に音楽または任意の信号のために中間のビットレートで用いられ、通常、広い音声帯域幅を提供する。その一方で、オーディオコーダは、基本的に音声再生に限られているが、非常に低いビットレートで使用することができる。広帯域音声は、狭帯域音声上の主要な主観的品質の改善を提供する。帯域幅を増加させると、音声の理解度と自然らしさだけではなく、話す人の認識も、向上させる。広帯域音声符号化は、このように、電話システムの次世代の重要な問題である。さらに、マルチメディア分野の驚異的な成長により、電話システム上の高品質の音楽および他の非音声信号の伝送は、価値のある機能である。

ビットレートを大幅に低下させるために、分割帯域知覚的オーディオコーデックを用いることで、音源音符号化を実行することができる。これらのナチュラルオーディオコーデックは、信号の知覚的無関係や統計に基づく冗長度を利用する。また、サンプルレートひいては音声帯域幅を減らすことは、一般的である。構成レベルの数を減少させること、時々聞き取れる量子化歪を考慮に入れることおよび強度の符号化を介してステレオ領域の分解を用いることも一般的である。この種の方法の過剰な使用は、面倒な知覚の低下をもたらす。コーディング性能を高めるために、スペクトル帯域複製は、符号化をベースにした高周波再構成（ＨＦＲ）の高周波信号を生成するために効率的な方法として用いられる。

スペクトル帯域複製（ＳＢＲ）は、ＭＰ３およびアドバンスト・オーディオ・コーディング（ＡＡＣ）のような普及しているアドオン知覚的オーディオコーダとして人気を得た技術を包含する。ＳＢＲは、スペクトルのローバンド（ベースバンドまたはコアバンド）が最先端のコーデックを使用することで符号化される帯域幅拡張の方法を包括しますが、上側の帯域（または、ハイバンド）は、わずかなパラメータしか使用しないことで粗くパ
ラメータ化される。ＳＢＲは、抽出されたハイバンドの特徴を使用することでより低い帯域からより広い帯域の信号を予測することによって、ローバンドおよびハイバンド間の相関を利用する。これは、大抵、人間の耳がより低い帯域と比較してより高い帯域の歪に影響を受けないので、十分である。したがって、より高い帯域はＳＢＲを用いて符号化されるのに対して、新規なオーディオコーダは、例えば、ＭＰ３またはＡＡＣを用いてより低
いスペクトルを符号化する。ＳＢＲアルゴリズムのキーは、信号の高周波化部分について説明するのに用いられる情報である。このアルゴリズムの第一の設計目標は、いかなるアーチファクトも取り込むことのないより高いバンドスペクトルを再建し、望ましいスペクトルおよび時間的解像度を提供することである。例えば、６４バンドの複合数値多相フィルターバンクは、分析部分およびエンコーダで用いられる。このフィルターバンクは、例えば、オリジナルの入力信号のハイバンドのエネルギーサンプルを得るために用いられる。その結果、これらのエネルギーサンプルは、デコーダで使用するエンベロープ調整方式のための基準値として用いることができる。

スペクトルエンベロープは、一般的な意味では信号の粗いスペクトル分布を言及し、例えば線形予測的ベースの符号化器の係数またはサブバンド符号化器のサブバンドのサンプルの一連の時間周波数の平均値を包含する。エンベロープデータは、次々に、量子化されて符号化されたスペクトルエンベロープを言及する。特に、低い周波数帯が低いビットレートで符号化されるなら、エンベロープデータは、ビット列のより大きな部分を構成する。したがって、特に、より低いビットレートを用いるときには、コンパクトにスペクトルエンベロープを表すのが重要である。

スペクトル帯域複製は、例えば、エンコーディングの間、切り捨てられる高調波のシーケンスの複製に基づいているツールを使用する。また、それは生成されたハイバンドのスペクトルエンベロープを調整し、逆フィルタを使用して、オリジナル信号のスペクトル特性を再現するために、ノイズおよび高調波成分を加える。したがって、ＳＢＲのツールの入力は、例えば量子化されたエンベロープデータ、種々雑多な制御データ、コアコーダ（例えばＡＡＣまたはＭＰ３）からの時間ドメイン信号を含む。ＳＢＲツールの出力は、ＭＰＥＧ周辺ツールが使われる場合に備えて、例えば、時間ドメイン信号か信号の表現としてのＱＭＦ―ドメイン（QMF = Quadrature Mirror Filter）のいずれかである。ＳＢＲペイロードのためのビット列の要素の記述は、標準規格ＩＳＯ／ＩＥＣの１４４９６−３２００５サブ節４．５．２．８で見つけることができ、そして、他のデータに混じってＳＢＲ拡大データ、ＳＢＲヘッダーを包括して、ＳＢＲフレームの中にＳＢＲエンベロープの数を含む。

エンコーダ側におけるＳＢＲの実現のために、分析は、入力信号に関して実行される。この分析から得られた情報は、現在のＳＢＲフレームの最適な時期／周波数分解能を選ぶのに用いられる。アルゴリズムは、それらの周波数分解能と同様にＳＢＲの数、現在のＳＢＲフレームにおけるＳＢＲエンベロープの開始および停止時間の境界について計算する。異なる周波数分解能は、標準規格ＩＳＯ／ＩＥＣ１４４９６３下位条項４．６．１８．３にて、例として説明されように計算される。アルゴリズムは、また、所与のＳＢＲフレームのために、ノイズフロアの数について計算し、そして、同じくらいの開始よび停止時間の境界について計算する。ノイズフロアの開始及び停止時間の境界は、サブセットのスペクトルエンベロープの開始および停止時間の境界でなければならない。アルゴリズムは、現在のＳＢＲフレームを４つのクラスに分割する。

ＦＩＸＦＩＸ−先行の時間と次の時間の境界の両方は、名目上のＳＢＲフレームの境界に等しい。フレームのすべてのＳＢＲエンベロープの時間境界は、時間内に、一様に分配される。エンベロープの数は、２（１，２，４，８、・・・）のべき乗の整数値である。

ＦＩＸＶＡＲ−先行の時間の境界は主な名目上のフレーム境界と等しい。次の時間の境界は、可変的で、ビットストリームの要素によって定義することができる。先行の時間と次の時間の境界間のすべてのＳＢＲエンベロープの時間境界は、次の時間の境界から始めて、前の境界までタイムスロットの相対距離として特定することができる。

ＶＡＲＦＩＸ−先行の時間の境界は、可変的であり、ビットストリームの要素によって定義される。次の時間の境界は、後追いの名目上のフレーム境界に等しい。先行の時間および次の時間の境界間のすべてのＳＢＲエンベロープの時間境界は、次の時間境界から始めて、前の境界に対するタイムスロットの相対距離としてビットストリームに定められている。

ＶＡＲＶＡＲ−Ｂｏｔｈ、先行の時間および次の時間の境界は、可変的であり、ビットストリームにおいて定義することができる。先行の時間および次の時間の境界間のすべてのＳＢＲエンベロープの時間境界も、特定される。先行の時間の境界から始まっている相対的時間の境界は、前の時間境界に対する相対距離として特定される。次の時間の境界から始まっている相対的時間の境界は、前の時間境界に対する相対距離として特定される。

ＳＢＲフレームクラス変換の制限が全くない。すなわち、クラスのいかなる系列も標準規格に許容されている。しかしながら、この標準規格によれば、ＳＢＲフレームにつきＳＢＲエンベロープの最大限度の数は、クラスＦＩＸＦＩＸのための４とクラスＶＡＲＶＡＲのための５に制限されている。クラスＦＩＸＶＡＲおよびＶＡＲＦＩＸは、構文的には４つのＳＢＲエンベロープに限られている。ＳＢＲフレームのスペクトルエンベロープは、時間／周波数グリッドによって与えられる周波数分解能とともに時間セグメントの上で推定される。ＳＢＲエンベロープは、特定の時間／周波数の上で二乗された合成サブバンドのサンプルを平均することによって、推定される。

一般に、トランジェントは、ＳＢＲで可変長の特定のエンベロープを用いることによって、特定の処理を受ける。トランジェントは、従来の信号の範囲内で部分によって定義することができる。そこにおいて、特定の周波数領域に制約されるか制約されない短い期間以内でエネルギーの強い増加が現れる。トランジェントについての例はカスタネットや打楽器の打撃であるが、また、人間の特定の音として、例えば、手紙で声に出されるＰ、Ｔ、Ｋ、…なども同様である。この種のトランジェントの検出は、今までのところ、常に同じ方式で、または、信号が話し言葉に分類されるか、音楽に分類されるかに関係なく、信号に左右されない同じアルゴリズム（一時的な閾値を使用する）によって実施される。加えて、有声音および無声音の間のスピーチのあり得る識別は、従来続けられているまたは古典的なトランジェントの検出機構に影響しない。

したがって、トランジェントが検出される場合に備えて、デコーダが適切に検出したトランジェントを複製できるために、ＳＢＲデータは調整されなければならない。ＷＯ０１／２６０９５には、オーディオ信号において検出されたトランジェントを考慮するスペクトルエンベロープのための装置および方法が開示される（例えば、特許文献１参照。）。この従来の方法において、固定サイズのフィルタバンクからのサブバンドサンプルを「周波数バンド」および「時間セグメント」に適応的にグループ分けすることによって、スペクトルエンベロープの一様でない時間および周波数サンプリングが達成される。そして、それは１つのエンベロープサンプルをそれぞれ生成する。対応するシステムは長時間セグメントおよび高周波数分解能にデフォルトするが、トランジェントの近くでは、より短い時間セグメントを使用し、それによってデータサイズを限度内に維持するように、より大きい周波数ステップを使用できる。トランジェントが検出される場合に備えて、エンベロープ境界が検出したトランジェントの直前に修正されるように、システムはＦＩＸＦＩＸフレームからＶＡＲＦＩＸフレームが続くＦＩＸＶＡＲフレームへ切り替える。この手続きは、トランジェントが検出されるときはいつでも繰り返す。

国際公開第ＷＯ０１／２６０９５号

エネルギーの変動がゆっくり変化するだけの場合に備えて、トランジェント検出器は、変化を検出しない。しかしながら、適切に処理されない場合、これらの変化は、知覚できるアーチファクトを生成するのに足りるほど強くてもよい。単純な解決法は、トランジェント検出器の閾値を低下させることである。これは、しかしながら、異なるフレーム（ＦＩＸＶＡＲ＋ＶＡＲＦＩＸに対するＦＩＸＦＩＸ）との間に、結果として頻繁な変更となる。結果として、粗い符号化、特に、緩増加がより長い時間（例えば複数のフレームを通じて）持続する場合、かなり多くの追加データは、粗い符号化を含意しながら、伝送されなければならない。これは信号が複雑性を含まないので、許容できない。そしてそのことは、より高いデータ信号速度を正当化し、それ故に、これは、問題を解決する選択肢ではない。

したがって、本発明の目的は、特に、トランジェント検出器によって検出されるにはあまりに低いゆっくり変化するエネルギーを含む信号のために、知覚できるアーチファクトのない効率的な符号化を許容する装置を提供することである。

この目的は、請求項１に記載の装置、請求項１１に記載のエンコーダ、請求項１３にしたがってスペクトルエンベロープの数を計算する方法または請求項１４にしたがってデータストリームを生成する方法によって達成される。

本発明は、ＳＢＲフレームの範囲内でスペクトルエンベロープの数が柔軟な方法の調整によって増加することができる伝送されたオーディオ信号の知覚的な品質を発見したことに基づいている。

これは、ＳＢＲフレームの中で隣接した時間部分のオーディオ信号を比較することによって、達成される。比較は、時間部分の中でオーディオ信号のためのエネルギー分布を決定することによって、実行されます。そして、決定値は２つの隣接した時間部分のエネルギー分布の偏差度を測定する。決定値が閾値を破るかどうかに依存して、エンベロープ境界は、隣接した時間部分の間に位置する。エンベロープの他の境界は、ＳＢＲフレームの始まりかそれとも終わりに存在するか、あるいは、ＳＢＲフレームの中の２つのさらに隣接した時間部分の間に存在することもできる。

結果として、ＳＢＲフレームは、例えば、ＦＩＸＦＩＸフレームから、ＦＩＸＶＡＲフレームまたはＶＡＲＦＩＸフレームへの変化がトランジェントを処理するために実行される従来の装置において適合させられないか、または変えられない。その代わりに、実施形態は、なお一層ゆっくりと変化する信号によってエンベロープの数の変更をもたらすことができ、それとともに、より優れたオーディオ音質がデコーダのＳＢＲツールによって生成することを可能にするように、例えばＦＩＸＦＩＸ―フレームの中で変動するオーディオ信号のばらつきを考慮するために、変化するエンベロープの数を利用する。決定されたエンベロープは、例えば、ＳＢＲフレームの中で等しい時間長さの部分をカバーすることができる。例えば、ＳＢＲフレームは、時間部分（それは、例えば、４、８または他の２の累乗の整数値を含む）の所定数に分けることができる。

各時間部分のスペクトルエネルギー分布は、ＳＢＲによって複製される上側の周波数帯域だけをカバーすることができる。一方では、スペクトルエネルギー分布は、全部の周波数帯域（上側および下側の）に関連があってもよい。そこでは、上側の周波数帯域が低い周波数帯域よりもさらに重みを付けられているかもしれない。この手順によって、すでに、閾値の１つの違反は、エンベロープの数を増加させるかまたはＳＢＲフレームの中でエンベロープの最大限度の数を使用するのに十分である。

さらなる実施形態は、オリジナル入力信号を分析して、そこから制御情報を生成する信号分類器のツールを含み得る。そして、それは異なる符号化モードの選抜をトリガする。異なる符号化モードは、例えば、音声コーダおよび一般のオーディオコーダを含むことができる。入力信号の分析は、所与の入力信号フレームのための最適中心的な符号化モードを選択することを目的とする処理系依存である。最適条件は、符号化のために低いビットレートだけを用いると共に、知覚的な高品質のバランスを保つことに関連している。信号分類器のツールへの入力は、変更されていないオリジナルの入力信号および／または付加的な処理系依存のパラメータでよい。信号分類器のツールの出力は、例えば、コア・コーデックの選抜を制御する制御信号でもよい。

例えば、信号が確認されているかまたは話し言葉として分類される場合、タイムライク・エネルギーの変動（ゆっくりまたは強く変動すること）がよりよく考慮されるように、帯域幅拡張（ＢＷＥ）のタイムライク分解能は、増加することができる（例えばより多くのエンベロープによって）。

このアプローチは、異なる時間／周波数特性を有する異なる信号が帯域幅拡張に関して特性上の異なる要望を持っているのを考慮に入れる。例えば、トランジェント信号（例えば、音声信号に現れる）は、ＢＷＥの細かい時間分解能を必要し、交差周波数（それは、コアコーダの上の周波数境界を意味する）は、できるだけ高くしなくてはならない。特に、有声音声で、歪められた時間的構造は、知覚品質を減少させることができる。一方では、音色の信号はしばしばスペクトル成分の安定した再生と再生している高周波部分の適合している高調波のパターンを必要とする。トーンパーツ（音色部分）の安定再生は、コアコーダの帯域幅を制限する。それは細かい時間的なＢＭＥを必要としない。しかし、その代わりにより細かいスペクトル分解能を必要とする。切替えられたスピーチ／オーディオ・コアコーダの設計において、コアコーダの帯域幅を信号特性に適応させるのと同様に、ＢＷＥの時間的およびスペクトル特性の両方を適応させることを決定するコアコーダを使用することはさらに可能である。

すべてのエンベロープが時間内の同じ長さを含む場合、検出した違反（そのときに）に応じて、エンベロープの数はフレームからフレームまで異なる可能性がある。実施形態では、例えば、以下のようにして、ＳＢＲフレームのためのエンベロープの数を決定する。入力信号に応じて、最大可能な数のエンベロープ（例えば８）の分割から始めて、段階的にエンベロープの数を減らすことが可能であるので、知覚的に高い品質の信号の再生ができるようにする必要がある以上に、エンベロープは用いられない。

例えば、すでに時間部分の第１番目の境界でフレームの中で検出される違反は、結果的に最大限度の数のエンベロープをもたらすことができるが、第２番目の境界で検出されるだけの違反は、結果的に最大限度の数の半分のエンベロープをもたらすことができる。さらなる実施形態において、伝送されるデータを減らすために、閾値は時刻によって決められる（すなわち、どの境界が現在分析されるかに依存している）。例えば、第１番目と第２番目の時間部分(最初の境界)と第３番目と第４番目の時間部分(第３番目の境界)の間では、閾値はどちらの場合も、第２番目と第３番目の時間部分(第２番目の境界)より高くすることができる。このように、統計学的に、より多くの違反が第１番目または第３番目の境界より第２番目の境界にあり、それ故、より少ないエンベロープが存在し得る。そしてそれは優先される（詳細は、下記を参照）。

さらなる実施形態において、次の時間部分の所定数の時間部分時の長さは、単一のエンベロープが決定されている時間内の極小距離に等しい。そして、決定値カルキュレータは、時間内の極小距離を有する２つの隣接した時間部分のための決定値を計算するように構成される。

さらに他の実施形態は、付加的な側面情報を提供するための情報処理装置を含む。この付加的な側面情報は、オーディオ信号の時間系列の中に第１番目のエンベロープ境界および第２番目のエンベロープを含む。さらなる実施形態において、検出器は、時間的順序で隣接している時間部分の間のそれぞれの境界を調査するように適合される。

実施形態は、エンコーダの中でエンベロープの数を計算するための装置もまた使用する。
エンコーダは、スペクトルエンベロープの数を計算する装置およびこの数を用いてＳＢＲフレームのためのスペクトルエンベロープデータを計算するエンベロープカルキュレータを含む。実施形態は、また、エンベロープの数を計算する方法およびオーディオ信号を符号化する方法を含む。

したがって、ＦＩＸＦＩＸの中のエンベロープの使用は、トランジェントとして検出されるかまたはトランジェントと分類されるかを検出するのがあまりに遅いので、前記トランジェント処理によってカバーされないエネルギー変動のより良好なモデリングを目的としている。一方では、それらが適切に扱われない場合、不十分なタイムライク分解能の理由から、それらはアーチファクトを引き起こすのに十分急速である。したがって、本発明によるエンベロープ処理は、強いか急速なエネルギーの変動だけでなく緩除のエネルギーの変動を考慮に入れる。そしてそれは、トランジェントのための特性である。それ故、本発明の実施形態は、特に、ゆっくりと変化するエネルギーを有する信号に関して、より良好な品質のより効率的な符号化を可能にする。そしてその変動強度は、従来のトランジェント検出器によって検出されるにはあまりに低い。

本発明は、図示の実施例について、今から説明される。本発明の特徴は、添付図面を参照して考慮されなければならない以下の詳細な説明を参照することで、より直ちに認められ、よりよく理解されるであろう。

図１は、本発明の実施形態にしたがって多くのスペクトルエンベロープを計算するための装置のブロック図を示す。図２は、エンベロープ数を計算するカルキュレータを含むＳＢＲモジュールのブロック図を示す。図３ａは、エンベロープ数を計算するカルキュレータを含むエンコーダのブロック図を示す。図３ｂは、エンベロープ数を計算するカルキュレータを含むエンコーダのブロック図を示す。図４は、時間部分の所定数のＳＢＲフレームの分割を図解する。図５（ａ）〜図５（ｃ）は、時間部分の異なる数をカバーしている３つのエンベロープを含むＳＢＲフレームのためのさらなる分割を示す。隣接した時間部分の範囲内の信号のためのスペクトルエネルギー分布を図解する。隣接した時間部分の範囲内の信号のためのスペクトルエネルギー分布を図解する。図７ａは、オーディオ信号のための異なる時間分解能になっているオプショナルオーディオ／スピーチスイッチを含むエンコーダを示す。図７ｂは、オーディオ信号のための異なる時間分解能になっているオプショナルオーディオ／スピーチスイッチを含むエンコーダを示す。図７ｃは、オーディオ信号のための異なる時間分解能になっているオプショナルオーディオ／スピーチスイッチを含むエンコーダを示す。

後述する実施形態は、例えばオーディオエンコーダで使われるスペクトル帯域複製を改良するための本発明の原理にとって、実例となっているにすぎない。改良および変更の構成およびその詳細が本願明細書に記載されていることは、他の当業者にとって明らかであるものと理解される。したがって、本願明細書の実施例の説明および説明として示される具体的な詳細によって制限されないことが意図である。

図１は、スペクトルエンベロープ１０４の数１０２を計算するための装置１００を示す。スペクトルエンベロープ１０４は、スペクトル帯域複製エンコーダによって引き出される。そこにおいて、最初の時間ｔ０から最終的な時間ｔｎまで延びているスペクトル帯域複製フレーム（ＳＢＲフレーム）の次の時間部分１１０の所定数の中で複数のサンプリングデータを使用しているオーディオ信号１０５を符号化するのにエンコーダは適している。次の時間部分１１０の所定数は、オーディオ信号１０５によって与えられる時間系列に配置される。

装置１００は、決定値１２５を決定するための決定値カルキュレータ１２０を含む。そこにおいて、決定値１２５は、一対の隣接した時間部分のスペクトルエネルギー分布の偏差度を測定する。装置１００は、決定値１２５によって閾値の違反１３５を検出するための違反検出器１３０をさらに含む。さらに、装置１００は、閾値の違反１３５が検出されるときに、隣接した時間部分の一対との間に第１のエンベロープ境界１４５を決定するための処理装置１４０（第１番目の境界の決定処理装置）を含む。装置１００は、一対の異なる隣接する時間部分の間で、または、最初の時間ｔ０で、または、他の一対のための閾値の違反１３５に基づく第１のエンベロープ境界１４５を有するエンベロープ１０４のための最終的な時間ｔｎの中で、または、一対の時間的位置または他のＳＢＲフレームの一対に基づいて、第２のエンベロープ境界１５５を決定するための処理装置１５０（第２番目の境界の決定処理装置）もまた含む。最後に、装置１００は、第１のエンベロープ境界１４５および第２のエンベロープ境界１５５を有するスペクトルエンベロープ１０４の数１０２を決めるための処理装置１６０（エンベロープ番号処理装置）を含む。

さらなる実施例は装置１００から成る。そこにおいて、次の時間部分１１０の所定数の時間部分の時間の長さは、単一のエンベロープ１０４が決定されるのに間に合うように、最小の時間の長さに等しい。さらに、決定値カルキュレータ１２０は、最小の時間の長さを有する２つの隣接した時間部分のための決定値１２５を計算するのに適している。

図２は、エンベロープ数カルキュレータ１００（図１に示されている）を含むＳＢＲツールのための実施例を示す。そしてそれは、オーディオ信号１０５を処理することによってスペクトルエンベロープ１０４の数１０２を測定する。数１０２は、エンベロープカルキュレータ２１０に入力される。そして、それはオーディオ信号１０５からエンベロープデータ２０５を計算する。数１０２を使用して、エンベロープカルキュレータ２１０はＳＢＲフレームをスペクトルエンベロープ１０４によってカバーされた部分に分割し、そして、各スペクトルエンベロープ１０４に関して、エンベロープカルキュレータ２１０は、エンベロープデータ２０５を計算する。エンベロープデータは、例えば、量子化されて符号化されたスペクトルエンベロープを含み、このデータは、オリジナル信号のスペクトル特性を複製するために、ノイズおよび高調波成分を加えて、ハイバンド信号を生成し、逆フィルタを使用するのにデコーダ側で必要とされる。

図３ａは、エンコーダ３００のための実施例を示し、このエンコーダ３００は、ＳＢＲに関連したモジュール３１０、分析ＱＭＦバンク３２０、ダウンサンプラー３３０、ＡＡＣコア・エンコーダ３４０およびビットストリーム・ペイロード・フォーマッタ３５０を含む。加えて、エンコーダ３００は、エンベロープカルキュレータ２１０を含む。エンコーダ３００は、ＰＣＭサンプル（オーディオ信号１０５；ＰＣＭ＝パルス符号化変調）のための入力を含む。それは、分析ＱＭＦバンク３２０、ＳＢＲに関連したモジュール３１０およびダウンサンプラー３３０に接続される。分析ＱＭＦバンク３２０は、次に、エンベロープカルキュレータ２１０と接続される。そして、それは、次に、ビットストリーム・ペイロード・フォーマッタ３５０と接続される。ダウンサンプラー３３０は、ＡＡＣコア・エンコーダ３４０と接続される。そして、それは、次に、ビットストリーム・ペイロード・フォーマッタ３５０と接続される。最後に、ＳＢＲに関連したモジュール３１０は、エンベロープカルキュレータ２１０に、そして、ＡＡＣコア・エンコーダ３４０に接続される。

したがって、エンコーダ３００は、コア周波数帯域（ダウン・サンプラー３３０において）のコンポーネントを生成するためにダウン・オーディオ信号１０５のサンプルをとる。そしてそれは、コア周波数帯域でオーディオ信号に符号化され、符号化信号をビットストリーム・ペイロード・フォーマッタ３５０に送るＡＡＣコア・エンコーダ３４０に入力される。コア周波数帯域の符号化されたオーディオ信号は、符号化オーディオストリーム３５５に加えられる。一方では、オーディオ信号１０５は、分析ＱＭＦバンク３２０によって分析される。そしてそれは、高周波帯域の周波数成分を抽出して、エンベロープカルキュレータ２１０にこれらの信号を入力する。例えば、６４のサブバンドＱＭＦバンク３２０は、入力信号のサブバンドフィルタリングを実行する。

フィルタバンクから出力するもの（すなわちサブバンドサンプル）は、複合数値データであり、このように、規則的なＱＭＦバンクと比較して２倍でオーバーサンプリングされる。ＳＢＲに関連したモジュール３１０は、例えば、エンベロープカルキュレータ２１０にエンベロープ１０４の数１０２を提供することによって、エンベロープカルキュレータ２１０を制御する。分析ＱＭＦバンク３２０によって生成される数１０２およびオーディオコンポーネントを使用して、エンベロープカルキュレータ２１０は、エンベロープデータ２０５を計算し、そのエンベロープデータ２０５をビットストリーム・ペイロード・フォーマッタ３５０に送る。そして、それはエンベロープデータ２０５と、符号化されたオーディオストリーム３５５のコア・エンコーダ３４０によって符号化される成分と結合する。

図３ａは、したがって、デコーダ上の高周波数の再構築で用いられるいくつかのパラメータを推定するＳＢＲツールのエンコーダの一部を示す。

図３ｂは、ＳＢＲに関連したモジュール３１０のための実施例を示す。そしてそれは、エンベロープ数カルキュレータ１００（図１図示）および任意の他のＳＢＲモジュール３６０を含む。ＳＢＲに関連したモジュール３１０は、オーディオ信号１０５を受信して、エンベロープ１０４の数１０２を出力するが、他のＳＢＲモジュール３６０によって生成される他のデータもまた出力する。

他のＳＢＲモジュール３６０は、例えば、オーディオ信号１０５のトランジェントを検出するのに適している従来のトランジェント検出器を含むことができ、ＳＢＲモジュールは、デコーダ（ＳＢＲパラメータ）上の高周波数の再構築法により用いられるパラメータの一部を適合させることができるかまたはできないようにするために、エンベロープの数および／または位置もまた得ることができる。既にＳＢＲの中で述べたように、ＳＢＲタイムユニット（ＳＢＲフレーム）は、様々なデータブロック、いわゆるエンベロープに分けることができる。この分割または区分が一定である場合、すなわち、全てのエンベロープ１０４が同一サイズを有し、最初のエンベロープが始まり、フレーム境界を含んで最後のエンベロープが終わる場合、ＳＢＲフレームは、ＦＩＸＦＩＸフレームとして定義される。

図４は、スペクトルエンベロープ１０４の数１０２のＳＢＲフレームのためのこのようなパーティションを図解する。ＳＢＲフレームは、最初の時間ｔ０および最終的な時間ｔｎとの間に時間周期をカバーし、図４の図示した実施例においては、最初の時間部分１１１，第２番目の時間部分１１２，・・・，第７番目の時間部分１１７および第８番目の時間部分１１８の８つの時間部分に分けられる。８つの時間部分１１０は、７本の境界によって切り離される。境界１が第１番目および第２番目の時間部分の仲介物で、境界２が第２番目の部分１１２および第３番目の部分１１３の間に位置し、境界７が第７番目の部分１１７および第８番目の部分１１８の仲介物であるということまでを意味する。標準規格ＩＳＯ／ＩＥＣ１４４９６―３において、ＦＩＸＦＩＸフレームの中で、エンベロープ１０４の最大数は、（サブパーツのパラグラフ４，６，１８，３，６を参照）４つに制限される。一般に、ＦＩＸＦＩＸフレームのエンベロープ１０４の数は２（例えば１、２、４）のべき乗であり得る。そこにおいて、同じフレームにおいて、トランジェントが検出されなかった場合、ＦＩＸＦＩＸフレームが使われるだけである。一方で、従来の高効率ＡＡＣエンコーダの実施において、たとえ標準の仕様が理論的に最高４つのエンベロープを許容する場合でも、エンベロープ１０４の最大数は、やむを得ず２となる。この数のエンベロープ１０４は、フレーム毎に、例えば、８つ（図４を見よ）に増加することができる。その結果、ＦＩＸＦＩＸフレームは１つ、２つ、４つまたは８つのエンベロープ（あるいは他の２のべき乗）を含むことができる。もちろん、エンベロープ１０４（所定数）の最大数が、ＳＢＲフレーム毎に、３２のＱＭＦタイムスロットを有するＱＭＦフィルタバンクの時間分解能によって制限することができるように、エンベロープ１０４の他のいかなる数１０２もまた可能である。

エンベロープ１０４の数１０２は、例えば、以下の通りに計算することができる。決定値カルキュレータ１２０は、隣接した時間部分１１０の一対のスペクトルエネルギー分布の偏差を計算する。これは、例えば、決定値カルキュレータ１２０が、第１番目の時間部分１１１のための第１のスペクトルエネルギー分布を計算すること、第２番目の時間部分１１２を有するスペクトルデータから第２のスペクトルエネルギー分布を計算することなどを意味する。それから、第１のスペクトルエネルギー分布および第２のスペクトルエネルギー分布は比較される、そして、この比較から、決定値１２５が引き出される。そこにおいて、決定値１２５は、この例では、最初の時間部分１１１および第２番目の時間部分１１２との間の境界１に関する。同じ手続きは、これらの隣接した２つの時間部分のために、２つのスペクトルエネルギー分布が引き出されるように、第２番目の時間部分１１２および第３番目の時間部分１１３に適合することができる。そして、次に、これらの２つのスペクトルエネルギー分布は、さらなる決定値１２５を引き出すために、決定値カルキュレータ１２０によって比較される。

次のステップとして、検出器１３０は、派生決定値１２５を閾値と比較し、そして、閾値が違反される場合、検出器１３０は違反１３５を検出する。検出器１３０が違反１３５を検出する場合、処理装置１４０は第１のエンベロープ境界１４５を決定する。例えば、検出器１３０が境界１において第１番目の時間部分１１１および第２番目の時間部分１１２との間に違反を検出する場合、第１のエンベロープ境界１４５ａは、境界１の時間に位置している。

図４の実施例において、グラニュール／境界のためのいくつかの可能性だけが許容される。これは、全部の方法が終わることを、そして、１０４ａ（１０４ｂ）で示される小さいエンベロープによって示されるように、すべての境界がセットされることを意味するものである。この場合、境界は、すべての時間０、１、２、・・・、ｎに存在している。

しかしながら、第１の境界が例えば時間４の上にあるとき、そのとき、第２の境界に対して捜査がされなければならない。図４に示すように、第２の境界は、３、２、ｔ０に存在し得る。境界が３にある場合には、最小のエンベロープ１０４ａ，１０４ｂがセットされるので、全部の手続きが終えられる。境界が２にある場合には、中間のエンベロープ（１４５ａで示される。）が使われることができるどうかまだ確かでないので、捜査は続けられなければならない。境界が０にある場合でさえ、後半において、すなわち、４およびｎとの間に境界がないとまだ決定されない。後半に境界がない場合、最も広いエンベロープはセットすることができる。境界が例えば５にある場合、最小のエンベロープが使われなければならない。境界が６だけにあれば、そのとき、中間のエンベロープが使われる。

しかしながら、エンベロープに対して、十分にフレキシブルであるかあるいはよりフレキシブルなパターンならば、第１の境界１が決定されたとき、手続きは継続する。それから、処理装置１５０は第２のエンベロープ境界１５５を決定する。そしてそれは、他の一対の隣接した時間部分間にあるか、それとも、最初の時間ｔ０または最終の時間ｔｎと一致するかのどちらかである。図４で示す実施例において、第２のエンベロープ境界１５５ａは、最初の時間ｔ０（第１のエンベロープ１０４ａをもたらす）と一致する。そして、他の第２のエンベロープ境界１５５ｂは、第２番目の時間部分１１２および第３番目の時間部分１１３（第２のエンベロープ１０４ｂをもたらす）の間の境界２と一致する。境界１で最初部１１１および第２番目の時間部分１１２の間に検出される違反がない場合、検出器１３０は、第２番目の時間部分１１２および第３番目の時間部分１１３の間に境界２を捜査し続ける。違反がある場合、他のエンベロープ１０４ｃは、スタート時間ｔ０から境界２まで延びる。

本発明の実施例によれば、一対の隣接したエンベロープについて、前記決定値１２５はスペクトルエネルギー分布の偏差の測定単位となる。そこにおいて、各スペクトルエネルギー分布は、時間部分の範囲内で、オーディオ信号の一部分に関連する。この実施例の８つのエンベロープでは、それが７つの量（＝隣接した時間部分の間の７つの境界）がある、または、一般に、ｎ個のエンベロープがある場合、ｎ―１個の量（決定値１２５）がある。これらの決定値１２５の各々は、それから閾値と比較することができ、そして、決定値１２５（量）が閾値を違反する場合、エンベロープ境界は２つの隣接したエンベロープの間に位置する。決定値１２５および閾値の定義に応じて、違反は、決定値１２５が閾値の上または下のどちらかにも存在することができる。決定値１２５が閾値の下にある場合に備えて、スペクトル分布は、エンベロープからエンベロープまで強く変化することができない。それゆえに、エンベロープ境界は、この位置（時間内の＝モーメント）で必要でない場合がある。

好ましい実施例において、エンベロープ１０４の数１０２は、２のべき乗を含み、さらに、各エンベロープは、等しい時間周期を含む。これは、４つの可能性があることを意味する。第１の可能性は、全部のＳＢＲフレームが単一のエンベロープ（図４に示されない）によってカバーされるということである。第２の可能性は、そのＳＢＲフレームが２つのエンベロープによってカバーされるということである。第３の可能性は、そのＳＢＲフレームが４つのエンベロープによってカバーされるということである。そして、最後の可能性は、そのＳＢＲフレームが８つのエンベロープ（一番下から一番上まで図４に示される）によってカバーされるということである。

それは、違反が奇数の境界（境界１、境界３、境界５、境界７）にあり、エンベロープの数が常に８（同じ大きさのエンベロープの条件の下で）であるならば、特定の命令の範囲内で境界を捜査するために有利である。一方では、違反が境界２および境界６にある場合、４つのエンベロープがある。そして、最後に、違反が境界４だけにある場合、２つのエンベロープは符号化される、そして、違反が７つの境界のいずれにもない場合、全部のＳＢＲフレームは、１つのエンベロープによってカバーされる。それ故、装置１００は最初に境界１、３、５、７を調査することができ、そして、違反がこれらの境界の一つで検出される場合、この場合は、全部のＳＢＲフレームはエンベロープの最大数によって符号化されるので、装置１００は、次のＳＢＲフレームを捜査することができる。これらの奇数の境界を捜査したあと、そして、違反が奇数の境界で検出されない場合、検出器１３０は、次のステップとして、境界２および境界６を捜査することができる。その結果、違反がこれらの２つの境界の一つで検出される場合、エンベロープの数は４つである。そして、装置１００は、再び、次のＳＢＲフレームに取り掛かることができる。最終工程として、境界１、２、３、５、６、７まで検出される違反がない場合、検出器１３０は、境界４を捜査することができる。そして、違反が境界４で検出される場合、エンベロープの数は２に確定される。

一般的な場合(ｎが偶数であるところのｎ時間部分について)において、この手順は、また以下の通り、言い直すこともできる。例えば、奇数の境界で違反が検出されず、そのために、決定値１２５は、隣接したエンベロープ（それは、それらの境界によって分離される）がスペクトルエネルギー分布に関して強い違いが無い構成であるということを意味している閾値の下である場合、ＳＢＲフレームをｎ個のエンベロープに分割する必要がない。そして、その代わりに、ｎ／２個のエンベロープは十分であり得る。さらに、奇数の２倍（例えば境界２、６、１０・・・）である境界で検出器１３０が少しも違反を検出しない場合、エンベロープ境界をこれらの位置に置く必要もなく、したがって、エンベロープの数は、２倍で、すなわち、ｎ／４でさらに減じることができる。この手続きは、着実に継続される（次のステップは、奇数の４倍、すなわち、４，１２，・・・となる境界である。）。これらの境界の全てで少しも違反が検出されない場合、全部のＳＢＲフレームのための単一のエンベロープは、充分である。

しかしながら、奇数の境界で決定値１２５の内の１つが閾値を越える場合、エンベロープ境界は、対応する位置に置かれる（すべてのエンベロープが同じ長さを有すると仮定されたときから）ので、ｎ個のエンベロープは考慮されなければならない。この場合、もし、他の全ての決定値１２５が閾値の下にあれば、その場合にも、ｎ個のエンベロープは、計算される。

しかしながら、検出器１３０は、全ての境界を考慮することもでき、エンベロープ１０４の数を計算するために、全ての時間部分１１０に関して、全ての決定値１２５を考慮することができる。

エンベロープ１０２の数の増加は、伝送されるデータの増加量を意味するので、高い数のエンベロープ１０４を伴う対応するエンベロープ境界に対して識別閾値は大きくなり得る。これは、境界１、３、５および７での閾値が境界２および６の閾値よりも任意的に高くなる可能性があるということを意味する。そして、それは、同じく、境界４での閾値よりも高くなる可能性がある。より低いかより高い閾値は、多かれ少なかれ閾値の違反が起こり得るという場合に、ここで言及する。例えば、より高い閾値は、２つの隣接している時間部分の間のスペクトルエネルギー分配における偏差度がより低い閾値よりも許容できるかもしれないということを意味する。そして、それ故、スペクトルエネルギー分布における高い閾値のためのより厳密な偏差度は、さらなるエンベロープを要求する必要がある。

選ばれた閾値は、音声信号または一般のオーディオ信号について信号として分類されるかどうかに関しては、信号によって決定され得る。しかしながら、信号が話し言葉として分類される場合、必ずしも識別閾値が常に減じている（または増加している）とは限らない。しかしながら、それは、用途に応じて、一般のオーディオ信号のために役に立つならば、この場合、エンベロープの数が音声信号に対してよりも一般的により小さいので、閾値は高い。

図５は、エンベロープの長さがＳＢＲフレームを通じて変化するさらなる実施例を図解する。図５ａにおいて、実施例は、３つのエンベロープ１０４、第１のエンベロープ１０４ａ、第２のエンベロープ１０４ｂおよび第３のエンベロープ１０４ｃとともに示される。第１のエンベロープ１０４ａは、最初の時間ｔ０から時間ｔ２の境界２まで延び、第２のエンベロープ１０４ｂは、時間ｔ２の境界２から時間ｔ５の境界まで延び、第３のエンベロープ１０４ｃは、時間ｔ５の境界５から最後の時間ｔｎまで延びる。すべての時間部分が、再び、同じ長さである場合、そして、ＳＢＲフレームが、再び、８つの時間部分に分けられる場合、第１のエンベロープ１０４ａは第１番目および第２番目の時間部分１１１，１１２をカバーして、第２のエンベロープ１０４ｂは、第３番目，第４番目および第５番目の時間部分１１３〜１１５をカバーし、第３のエンベロープ１０４ｃは、第６番目、第７番目および第８番目の時間部分をカバーする。したがって、第１のエンベロープ１０４ａは、第２および第３のエンベロープ１０４ｂおよび１０４ｃよりも小さい。

図５ｂは、２つのエンベロープだけを有する他の実施例を示し、第１のエンベロープ１０４ａが最初の時間ｔ０から最初ｔ１まで延び、第２のエンベロープ１０４ｂは、最初の時間ｔ１から最後の時間ｔｎまで延びている。したがって、第２のエンベロープ１０４ｂは、７つの時間部分上に延びているが、第１のエンベロープ１０４ａは、単一の時間部分（最初の時間部分１１１）上だけに延びている。

図５ｃの場合も先と同様に、３つのエンベロープ１０４を有する実施例を示す。そこにおいて、第１のエンベロープ１０４ａは、最初の時間ｔ０から第２の時間ｔ２まで延び、第２のエンベロープ１０４ｂは、第２番目の時間ｔ２から第４番目の時間ｔ４まで延び、第３のエンベロープ１０４ｃは、第４番目の時間ｔ４から最後の時間ｔｎまで延びる。

これらの実施例において、例えば、エンベロープ１０４の境界は、閾値の違反が検出されるかまたは最初の時間または最後の時間ｔ０，ｔｎにある隣接した時間部分の間に位置する場合のみに用いられる。図５ａにおいて、残留する時間モーメントｔ１、ｔ３、ｔ４、ｔ６およびｔ７で違反が少しも検出されないのに対して、違反が時間ｔ２で検出されること、および、違反が時間ｔ５で検出されることを意味する。同様に、図５ｂにおいて、違反は時間ｔ１でのみで検出され、結果として第１のエンベロープ１０４ａのための境界および第２のエンベロープ１０４ｂのための境界をもたらす。そして、図５ｃにおいて、違反は、第２番目の時間ｔ２および第４番目の時間ｔ４だけで検出される。

デコーダは、順序正しく、エンベロープデータを使用することができ、スペクトルハイバンドを複製することができる。デコーダは、エンベロープ１０４および対応するエンベロープ境界の位置を必要とする。先に示された実施例において、それは前記標準規格に依存する、そこにおいて、すべてのエンベロープ１０４は同じ長さから成り、そして、それ故、デコーダは、エンベロープ境界がどこに存在しなければならないか決めることができるように、エンベロープの数を伝送するのに十分であった。しかしながら、図５に示されるように、これらの実施例において、デコーダは、エンベロープ境界が配置された時点で、情報を必要とし、上に述べたように、デコーダは、境界が認識されるとろこの時間モーメントおよびエンベロープの始まりと終わりを保持することができるサイド情報を用いることができるように、追加のサイド情報をデータストリームに入れることができる。この追加情報は、時間ｔ２およびｔ５（図５ａの場合において）、時間ｔ１（図５ｂの場合において）および時間ｔ２およびｔ４（図５ｃの場合において）を含む。

図６ａおよび６ｂは、オーディオ信号１０５のスペクトルエネルギー分布を用いることによって、決定値カルキュレータ１２０のための実施例を示す。

図６ａは、オーディオ信号のために特定の時間部分、例えば、第１番目の一連の時間部分１１１についてのサンプリングデータ６１０を示していて、このサンプリングされたオーディオ信号を、第２番目の一連の時間部分１１２におけるオーディオ信号６２０と比較している。オーディオ信号は、サンプリングデータ６１０，６２０またはそれらのレベルＰのセットが周波数ｆの関数として示すことができるように、周波数領域に変えられた。より低いおよびより高い周波数帯域は、サンプリングデータが伝送されないｆ０より高い周波数のためのそれを意味している交差周波数ｆ０によって分離される。その代わりに、デコーダは、ＳＢＲデータを用いることによって、これらのサンプリングデータを複製しなければならない。一方では、交差周波数ｆ０より下のサンプルは、例えば、ＡＡＣエンコーダによって符号化されて、デコーダに伝送される。

デコーダは、高周波成分を複製するために、低周波領域からこれらのサンプルを使用することができる。したがって、第１の時間部分１１１における第１の一連のサンプル６１０の偏差および第２の時間部分１１２における第２の一連のサンプル６２０の偏差のための計測を見いだすために、それは、高周波帯域（ｆ＞ｆ０）のサンプルだけを考慮するのに十分でなくてもよくて、低周波帯域の周波数成分もまた根拠に取り入れてもよい。一般に、相関が高周波帯域の周波数成分および低周波数帯の周波数成分の間の相関がある場合、良質の複製化は予想されることである。第一段階において、それは高周波帯域（交差周波数ｆ０より上に）のサンプリングデータだけを考慮するのに十分であり、第１の一連のサンプリングデータ６１０と第２の一連のサンプリングデータ６２０との間で相関を計算するのに十分である。

相関は、標準規格の統計値を用いた方法によって計算することができ、例えば、いわゆる相互相関関数の手段または２つの信号の類似性のための他の統計的手段を含むことができる。２つの信号の相関を推定するために、ピアソンの積率相関係数もまた用いられ得る。ピアソン係数は、標本相関係数としても公知である。一般に、相関係数は、２つの確率変数、この場合、２つのサンプル分布６１０および６２０の間に、直線関係の強さおよび方向を示す。したがって、相関係数は、独立性から２つの確率変数の逸脱に関連する。この広義において、異なる係数が異なる状況のために使われるように、データの性質に適している相関の程度を評価しているいくつかの係数がある。

図６ｂは、第３の一連のサンプリングデータ６３０および第４の一連のサンプリングデータ６４０を示す。そしてそれは、例えば、第３の時間部分１１３および第４の時間部分１１４のサンプリングデータと関連し得る。この場合も先と同様に、２つの一連のサンプル（または信号）を比較するために、２つの隣接した時間部分は考慮される。図６ａで示される場合とは対照的に、図６ｂにおいては、サンプリングデータだけが考慮されるように、レベルＰが閾値Ｔ（Ｐ＞Ｔを保持するため）を越える（または、より多くの一般的な違反）閾値Ｔが導かれる。

本実施例において、スペクトルエネルギー分布の偏差度は、単に、この閾値Ｔを違反するサンプリングデータの数を計算することによって、測定することができる。そして、その結果は決定値１２５を修正することができる。この簡便な方法は、各種の時間部分１１０において、各種の一連のサンプリングデータのきめ細かい統計分析を実行することなしに、両方の信号間の相関係数を得る。あるいは、例えば上記したように、統計分析は、閾値Ｔだけに違反するサンプルに適用することができる。

図７ａ〜７ｃは、スイッチ決定ユニット３７０およびステレオ符号化ユニット３８０を含むエンコーダ３００を示すさらなる実施例を示す。加えて、エンコーダ３００は、例えば、帯域幅拡張ツールとして、エンベロープカルキュレータ２１０およびＳＢＲに関連したモジュール３１０を含む。スイッチ決定ユニット３７０は、オーディオコーダ３７２および音声コーダ３７３の間に切り替わるスイッチ決定信号３７１を提供する。これらのコードの各々は、サンプリングデータ（例えばより高分解能のための１０２４または低分解能のための２５６）の異なる数を使用しているコア周波数帯域において、オーディオ信号を符号化することができる。スイッチ決定信号３７１は、帯域幅拡張（ＢＷＥ）ツール２１０、３１０にも供給される。それから、ＢＷＥツール２１０、３１０は、例えば、スペクトルエンベロープ１０４の数１０２を決定するための閾値を調整して、任意的なトランジェント検出器のオン／オフを作動するためのスイッチ決定信号３７１によって示される。オーディオ信号１０５は、ステレオコーディング３８０がサンプルを取り出すことができるように、スイッチ決定ユニット３７０に入力されて、ステレオコーディング３８０に入力される。そして、それは帯域幅拡張ユニット２１０，３１０に入力される。スイッチ決定ユニット３７０によって生成されたスイッチ決定信号３７１に応じて、帯域幅拡張ツール２１０、３１０は、スペクトル帯域複製データを生成する。そして、それは、次に、オーディオコーダ３７２または音声コーダ３７３に伝送される。

スイッチ決定信号３７１は、従属する信号であって、たとえばトランジェント検出器または他の検出器を用いてオーディオ信号を分析することによって、スイッチ決定ユニット３７０から得ることができる。そしてそれは、可変閾値を含み得るかまたは含み得ない。あるいは、スイッチ決定信号３７１は、マニュアル的に調整することができるかまたはデータストリーム（オーディオ信号に含まれる）から取得することができる。オーディオコーダ３７２および音声コーダ３７３の出力は、再び、ビットストリーム・ペイロード・フォーマッタ３５０（図３ａ参照）に、入力され得る。

図７ｂは、最初の時間ｔａ以下で第２番目の時間ｔｂ以上の時間に対してオーディオ信号を検出するスイッチ決定信号３７１のための実施例を示す。最初の時間ｔａおよび第２番目の時間ｔｂとの間に、スイッチ決定ユニット３７０は、スイッチ決定信号３７１のための異なる離散値を意味している音声信号を検出する。

その結果、図７ｃに示されるように、時間ｔａ以前を意味するオーディオ信号は検出される時間の間ずっと、エンコーディングの時間分解能は低いのに対して、音声信号が検出される（最初の時間ｔａおよび第２番目の時間ｔｂの間に）時間の間ずっと、時間分解能は増加する。時間分解能の増加は、時間ドメインのより短い分析ウィンドウを意味する。増加した時間分解能は、また、前述の増加したスペクトルエンベロープ（図４の記述を参照）の数を意味する。

高周波の正確な時間的表現を必要とする音声信号のために、識別閾値（例えば、図４で用いられた）は、より多くのパラメータ集合を伝送するために、スイッチ決定ユニット３７０によって制御される。切替えられたコアコーダの時間ドメイン符号化部３７３によってコーディングされる話し言葉および音声状信号のために、より多くのパラメータ集合を使用する識別閾値は、例えば、引き下げられ、ひいては、時間分解能が増加する。しかしながら、この場合、必ずしも上記したようになるというわけではない。信号に対するタイムライク分解能の適合は、下にあるコーダ構造（図４において使われなかった）から独立している。これは、記載されている方法が、ＳＢＲモジュールが単一のコア・コーダだけを含むシステムの範囲内でも使用可能であることを意味する。

いくつかの態様が装置の文脈に記載されていたにもかかわらず、ブロックまたはデバイスは方法ステップまたは方法ステップの機能に相当する場合には、これらの態様もまた対応方法の説明を表すことは、明らかである。同様に、態様は、対応するブロックまたは項目の説明または対応する装置の機能を表す方法ステップの文脈にも記載されている。

発明の符号化されたオーディオ信号は、デジタル記憶媒体に保存されることができるかまたは伝送媒体（例えば無線伝送媒体または有線伝送媒体（例えばインターネット）に伝送することができる。

特定の実現要求に応じて、本発明の実施例は、ハードウェアにおいて、または、ソフトウェアにおいて実現することができる。その実現は、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体（例えばフロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリ）を使用することで、実行することができる。そして、それは、それぞれの方法が実行されるように、プログラミング可能なコンピュータシステムと協同する（または、協同することができる）。

本発明によるいくつかの実施例は、本願明細書において記載されている方法のうちの１つが実行されるように、プログラミング可能なコンピュータシステムと協同される電子的に読み込み可能な制御信号を有するデータ記憶媒体を含む。

通常、本発明の実施例はプログラムコードを有するコンピュータ・プログラム製品として実現されることができる、コンピュータ・プログラム製品がコンピュータ上で動作するときに、その方法のうちの１つを実行するために、プログラムコードが実施されている。プログラムコードは、機械可読なキャリアに例えば格納することができる。他の実施例は、本願明細書において記載されていて、機械可読キャリアに格納される方法のうちの１つを実行するための計算機プログラムを含む。

したがって、換言すれば、本発明の方法の実施例は、コンピュータ・プログラムがコンピュータで作動するときに、本願明細書において記載されている方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施例において、データキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）は、本願明細書において記載されている方法のうちの１つを実行するために、その上に記録されるコンピュータプログラムを含む。したがって、本発明の方法のさらなる実施例は、本願明細書において記載されている方法のうちの１つを実行するためのコンピュータプログラムを示すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えばデータ通信接続によって、例えば、インターネットを介して、伝送するために構成する可能性がある。

さらなる実施例は、本願明細書において記載されている方法のうちの１つを構成するようにあるいは実行するように適合される、例えばコンピュータまたはプログラム可能論理回路などの処理手段を含む。

さらなる実施例は、本願明細書において記載されている方法のうちの１つを実行するために、コンピュータプログラムがインストールされたコンピュータを含む。

いくつかの実施例において、プログラム可能論理回路（例えばフィールド・プログラマブル・ゲート・アレイ）は、本願明細書において記載されている方法の機能性のいくらかまたは全てを実行するために用いることができる。いくつかの実施例では、フィールド・プログラマブル・ゲート・アレイは、本願明細書において記載されている方法のうちの１つを実行するために、マイクロプロセッサと協同することができる。通常、望ましくは、この方法は、いかなるハードウェア装置によっても実行される。

上記した実施例は、単に本発明の原理のために図示するだけである。本明細書において記載されている配置の修正、変更および詳細は、他の当業者にとって明らかであろうことは理解される。したがって、本発明は特許請求の範囲のみによって限定されるものであり、本明細書の実施例の記述および説明によって提示された特定の細部によって限定されるものではないといこうとが真意である。

Claims

スペクトル帯域複製（ＳＢＲ）エンコーダによって得られるスペクトルエンベロープ（１０４）の数（１０２）を計算するための装置（１００）であって、
前記ＳＢＲエンコーダは、最初の時間（ｔ０）から最後の時間（ｔｎ）まで延びているＳＢＲフレームの中で所定数の次の時間部分（１１０）の複数のサンプル値を用いてオーディオ信号（１０５）を符号化するように構成され、前記所定数の次の時間部分（１１０）は、前記オーディオ信号（１０５）によって与えられる時間系列に配置され、
前記装置（１００）は、
一対の隣接した時間部分のスペクトルエネルギー分布の偏差の測定単位となっている決定値（１２５）を決定するための決定値カルキュレータ（１２０）、
前記決定値（１２５）によって閾値の違反（１３５）を検出するための検出器（１３０）、
前記閾値の前記違反（１３５）が検出されると、前記一対の隣接した時間部分の間に第１のエンベロープ境界（１４５）を決定するための処理装置（１４０）、
他の一対の閾値の違反（１３５）に基づいて、またはＳＢＲフレームにおける前記一対または前記異なる一対の時間的位置に基づいて、前記第１のエンベロープ境界（１４５）を有するエンベロープに関して、一対の異なる隣接した時間部分の間、または、前記最初の時間（ｔ０）または前記最後の時間（ｔｎ）における第２のエンベロープ境界（１５５）を決定するための処理装置（１５０）、および
前記第１のエンベロープ境界（１４５）および前記第２のエンベロープ境界（１５５）を有するスペクトルエンベロープ（１０４）の前記数（１０２）を設定するための数処理装置（１６０）を含む、装置（１００）。
前記所定数の次の時間部分（１１０）の時間長さは、単一のエンベロープが決定され、前記決定値カルキュレータ（１２０）が時間内の最小長さを有する２つの隣接した時間部分の決定値（１２５）を計算するように構成されるために、時間内の最小長さと同じである、請求項１に記載の装置（１００）。
前記処理装置（１４０）は、第１の違反検出（１３５）で前記第１のエンベロープ境界（１４５）を決定するように構成され、前記処理装置（１５０）は、少なくとも一つの他の決定値（１２５）と前記閾値とを比較した後、前記第２のエンベロープ境界（１５５）を決定するように構成される、請求項１または請求項２に記載の装置（１００）。
前記装置（１００）は、付加的なサイド情報を提供するための情報処理装置をさらに含み、前記付加的なサイド情報は、前記オーディオ信号（１０５）の前記時間系列の中に前記第１のエンベロープ境界（１４５）および前記第２のエンベロープ境界（１５５）を含む、請求項３に記載の装置（１００）。
所定数の次の時間部分（１１０）の中の隣接する時間部分の間に境界があり、前記検出器（１３０）は、前記隣接した時間部分（１１０）の間の前記境界の各々を時間的順序で捜査するように構成される、請求項１〜請求項４のいずれか１項に記載の装置（１００）。
前記次の時間部分（１１０）の前記所定の数は、前記第１のエンベロープ境界（１４５）および前記第２のエンベロープ境界（１５５）が偶数および奇数の境界を含むように前記時間に関して番号が付けられて順序付けられた隣接する時間部分（１１０）の間にｎ−１個の境界がある状態で、ｎに等しく、前記数処理装置（１６０）は、前記検出器（１３０）が奇数の境界で前記違反（１３５）を検出した場合に、前記スペクトルエンベロープ（１０４）の数（１０２）として前記ｎを構築するように構成される、請求項１または請求項２に記載の装置（１００）。
前記検出器（１３０）は、最初に奇数の境界で、前記違反（１３５）を検出するように構成される、請求項６に記載の装置（１００）。
前記処理装置（１５０）は、前記スペクトルエンベロープ（１０４）が同じ時間的長さを含み、前記スペクトルエンベロープ（１０４）の数（１０２）が２のべき乗であるように前記第２の境界（１５５）を決定するように構成される、請求項１〜請求項７のいずれか１項に記載の装置（１００）。
次の時間部分（１１０）の前記所定の数は、８に等しく、前記数処理装置（１６０）は、前記スペクトルエンベロープ（１０４）の各々が同じ時間的長さを含むように前記スペクトルエンベロープ（１０４）の前記数（１０２）を１，２，４または８に構築するように構成される、請求項８に記載の装置（１００）。
前記検出器（１３０）は、より多くのスペクトルエンベロープ（１０４）を生み出す時間的位置において、より少ないスペクトルエンベロープ（１０４）を生み出す時間的位置よりも高い閾値が用いられるように、前記違反（１３５）の時間的位置によって決まる閾値を用いるように構成される、請求項８または請求項９に記載の装置（１００）。
前記装置（１００）は、トランジェント閾値を有するトランジェント検出器および／またはエンベロープカルキュレータ（２１０）をさらに含み、前記トランジェント閾値は、前記閾値より大きい状態であり、前記エンベロープカルキュレータ（２１０）は、前記第１のエンベロープ境界（１４５）から前記第２のエンベロープ境界（１５５）まで延びているスペクトルエンベロープ（１０４）のためのスペクトルエンベロープデータを計算するように構成されている、請求項１〜請求項１０のいずれか１項に記載の装置（１００）。
前記装置（１００）は、スイッチ決定信号（３７１）を提供するように構成されるスイッチ判断ユニット（３７０）をさらに含み、前記スイッチ決定信号（３７１）は、音声信号および一般のオーディオ信号を示し、前記検出器（１３０）は、前記音声信号のための前記閾値を下げるように構成される、請求項１〜請求項１１のいずれか１項に記載の装置（１００）。
オーディオ信号（１０５）を符号化するためのエンコーダ（３００）であって、
前記エンコーダ（３００）は、
コア周波数帯域の中で前記オーディオ信号（１０５）を符号化するためのコアコーダ（３４０）、
スペクトルエンベロープ（１０４）の数（１０２）を計算するための装置（１００）、および
前記オーディオ信号（１０５）と、第１のエンベロープ境界（１４５）および第２のエンベロープ境界を有するスペクトルエンベロープ（１０４）の前記数（１０２）とに基づいて、エンベロープデータを計算するためのエンベロープカルキュレータ（２１０）を含み、
前記エンコーダ（３００）は、スペクトル帯域複製（ＳＢＲ）エンコーダであり、前記ＳＢＲエンコーダは、最初の時間（ｔ０）から最後の時間（ｔｎ）まで延びているＳＢＲフレームの中で所定数の次の時間部分（１１０）の複数のサンプル値を用いてオーディオ信号（１０５）を符号化するように構成され、前記所定数の次の時間部分（１１０）は、前記オーディオ信号（１０５）によって与えられる時間系列に配置され、
前記装置（１００）は、
一対の隣接した時間部分のスペクトルエネルギー分布の偏差の測定単位となっている決定値（１２５）を決定するための決定値カルキュレータ（１２０）、
前記決定値（１２５）によって閾値の違反（１３５）を検出するための検出器（１３０）、
前記閾値の前記違反（１３５）が検出されると、前記一対の隣接した時間部分の間に第１のエンベロープ境界（１４５）を決定するための処理装置（１４０）、
他の一対の閾値の違反（１３５）に基づいて、またはＳＢＲフレームにおける前記一対または前記異なる一対の時間的位置に基づいて、前記第１のエンベロープ境界（１４５）を有するエンベロープについて、一対の異なる隣接した時間部分の間、または、前記最初の時間（ｔ０）または前記最後の時間（ｔｎ）における第２のエンベロープ境界（１５５）を決定するための処理装置（１５０）、および
前記第１のエンベロープ境界（１４５）および前記第２のエンベロープ境界（１５５）を有するスペクトルエンベロープ（１０４）の前記数（１０２）を設定するための数処理装置（１６０）を含む、エンコーダ（３００）。
スペクトル帯域複製（ＳＢＲ）エンコーダによって得られるスペクトルエンベロープ（１０４）の数（１０２）を計算するための方法であって、
前記ＳＢＲエンコーダは、最初の時間（ｔ０）から最後の時間（ｔｎ）まで延びているＳＢＲフレームの中の所定数の次の時間部分（１１０）の複数のサンプル値を用いてオーディオ信号（１０５）を符号化するように構成され、前記所定数の次の時間部分（１１０）は、前記オーディオ信号（１０５）によって与えられる時間系列に配置され、
前記方法は、
一対の隣接した時間部分のスペクトルエネルギー分布の偏差の測定単位となっている決定値（１２５）を決定すること、
前記決定値（１２５）によって閾値の違反（１３５）を検出すること、
前記閾値の違反（１３５）が検出されたときに、前記一対の隣接した時間部分の間に第１のエンベロープ境界（１４５）を決定すること、
他の一対の閾値の違反（１３５）に基づいて、またはＳＢＲフレームにおける前記一対または前記異なる一対の時間的位置に基づいて、前記第１のエンベロープ境界（１４５）を有するエンベロープに関して、一対の異なる隣接した時間部分の間、または、前記最初の時間（ｔ０）または前記最後の時間（ｔｎ）における第２のエンベロープ境界（１５５）を決定すること、および
前記第１のエンベロープ境界（１４５）および前記第２のエンベロープ境界（１５５）を有するスペクトルエンベロープ（１０４）の前記数（１０２）を設定することを含む、方法。
請求項１４に記載の方法をコンピュータまたは処理装置に実行させるためのコンピュータプログラムを記憶したコンピュータ可読媒体。