JP6147337B2

JP6147337B2 - サブバンド領域内での自由選択可能な周波数偏移のための装置、方法およびコンピュータプログラム

Info

Publication number: JP6147337B2
Application number: JP2015519171A
Authority: JP
Inventors: ナゲル，フレデリク; シュナベル，ミヒャエル; ノイカム，クリスティアン; シュラー，ゲラルト
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン; テヒニシェ・ウニヴェルジテート・イルメナウ
Priority date: 2012-07-02
Filing date: 2013-07-01
Publication date: 2017-06-14
Anticipated expiration: 2033-07-01
Also published as: EP2867894B1; AU2013286049B2; CA2879823C; MX2014015749A; WO2014005992A1; CN104603873B; CN104603873A; BR112014032265A2; ES2596457T3; EP2867894A1; US9514767B2; RU2595889C1; CA2879823A1; JP2015521759A; KR101712475B1; AU2013286049A1; EP2682941A1; MX342099B; US20150110292A1; BR112014032265B1

Description

本発明は、オーディオ信号処理に関し、特に、サブバンド領域における任意の周波数偏移のための装置、方法およびコンピュータプログラムに関する。

コンピュータ支援データ処理システムは、新しいメディアにより特徴付けられる現在の社会において、日常生活に不可欠な部分である。新しいメディアを消費するためのシステムは、だいぶ前から、ほぼ全ての家庭に存在してきた。デジタル形式で信号を送信および再生するこのようなシステムの例は、例えば、ＤＶＤおよびブルーレイ（登録商標）、ＣＤおよびｍｐ３ファイルフォーマットのような、ビデオならびにオーディオデータのためのプレーヤである。これらの再生システムは、メディアコンテンツをほぼ損失なく再生することを特徴とする。従来の電気通信とは別に、インターネットは、通信のための、典型的にはＶｏＩＰによる通信のための、重要な扉（ポータル）である。基礎となるデジタル信号処理は、言及される全ての技術に共通している。これは、再生の品質およびデジタル技術の効率に対して、決定的に重要である。

このような分野では、オーディオ信号処理が重要性を増している。現在、多くのオーディオエンコーダが市場で入手可能であり、それらは、例えば、オーディオ素材を蓄積または送信のためにデジタル的にレンダリングするアルゴリズムにより実現されている。全ての符号化方法の目標は、信号の情報コンテンツを圧縮し、それが最低限の記憶スペースのみを必要とし、その一方で同時に、最良の再生品質可能性を維持するようにすることである。最新のオーディオエンコーダの効率性は、必要とされる蓄積量と、とりわけアルゴリズムに必要な、計算の複雑性とに主に依存する。

基本的に、デジタルオーディオエンコーダは、オーディオ信号を蓄積または送信に適したフォーマットに移し替える道具である。これは、送信側のオーディオエンコーダ（エンコーダ）で行われる。このように生成されたデータは、その後、受信機（デコーダ）においてオリジナルの形に戻され、理想的な場合には、一定の遅延以外は、オリジナルデータに対応する。オーディオエンコーダの一般的な目的は、オーディオ信号を表すのに必要とされるデータ量を最小化すると同時に、知覚される再生品質を最高にすることである。オーディオエンコーダの開発時には、例えば、再生の忠実性、データ転送速度および複雑性のような、いくつかの要因に留意しなければならない。これとは別に、信号処理により追加される遅延（追加遅延）もまた、重要な役割を有する（非特許文献２）。

特に、オーディオ符号化の初期には、蓄積およびコンピューティングの性能は、非常に限定された範囲でのみ利用可能であったため、方法の効率性は非常に重要であった。現在では、この需要は重要性が低くなっているように思われる。家庭用のＰＣまたはラップトップでさえ、複雑なアルゴリズムをリアルタイムで容易に計算することができ、広帯域インターネット接続は、符号化されたオーディオ素材を送信するのに十分な帯域幅を提供する。しかし、オーディオ符号化方法を洗練させることは特に重要である。モバイル通信および衛星送信の分野において、帯域幅は非常に限られている。送信されることになるデータの量を減少させることは重要である。さらに、この分野では、使用される符号化技術の効率性にも重要性が付き物である。基礎となるアルゴリズムは、コンピューティング性能および電流消費を最小化するために、単純な構造を呈していなければならない。

別の側面は、再生される符号化されたオーディオ信号の品質である。多くのオーディオエンコーダは、無意味な音の削減を利用して、データの量を減少させる。ここでは、データ転送速度に依存して、信号部分が損失する。低データ転送速度の場合、再生されるオーディオ信号の品質は低下する。

一般に、２つのタイプのオーディオ符号化、すなわち、損失のないオーディオ符号化と損失のあるオーディオ符号化とに区別される。損失のないオーディオ符号化により、受信側でオリジナルの信号を正確に再構築することが可能になる。これとは対照的に、損失のある方法は、主観的知覚のモデルを介して、オリジナルの信号から非可逆な偏位を引き起こす（非特許文献２４）。

損失のない（ロスレス）オーディオ符号化は、符号化されることになる信号に含まれる冗長性の削減に基づいている。ここでの一般的な方法は、例えば、後続するエントロピー符号化に関連する線形予測コーディング（ＬＰＣ）である。このようなオーディオ符号化方法により、符号化されたビットストリームから、ビット単位で、正確に入力信号を再構築することが可能になる。

線形予測は、将来の値を予測することができるように、信号の連続的な標本間の統計的依存性を使用する。これは、連続的な標本同士は、より大きな距離のある標本同士よりも類似しているということに基づく。以前のいくつかの標本を使用して、現在の標本を推定する線形予測フィルタにより、予測が実現される。ただし、さらに処理されるのは、この予測自体ではなく、その値とそのときの実際の標本との差である。線形予測の目標は、最適化されたフィルタによりこの誤差信号のエネルギーを最小化し、小さな帯域幅しか必要としないこの誤差信号を送信することである（非特許文献２１）。

その後、誤差信号は、エントロピー符号化される。エントロピーは、信号の意味情報コンテンツの尺度であり、符号化に必要とされるビットの理論的な最小値を示す。ここでの典型的な方法は、ハフマン符号化である。ここでは、ある符号語は、個々の標本の発生の確率に依存して、個々の標本に関係付けられる。短いシンボルは、頻繁に発生する標本に関係付けられ、めったに発生しない信号値は、長い符号語により表される。したがって、平均すると、符号化される信号は、可能な限り最小のビット数で表される（非特許文献２）。

線形予測およびエントロピー符号化は、双方とも可逆的であり、したがって、信号から何らの情報をも除去しない。２つの方法を組み合わせると、符号化されることになる信号から冗長性のみが除去される。このような損失のないアプローチは、信号特性に強く依存することから、符号化の利得は比較的小さい。達成される圧縮率、すなわち、入力ビットレートと符号化された信号のビットレートとの比は、１．５：１と３：１との間の領域にある（非特許文献２１）。

損失のあるオーディオ符号化は、無意味な音の削減の原則に基づく。この方法は、時間および周波数の分解能に関して聴覚の心理音響現象を説明する、人間の知覚モデルを必要とする。したがって、オーディオ符号化は、知覚に適応される符号化または心理音響符号化のことも指す。オーディオ符号化の分野では、人間が知覚できないため聞こえない信号部分は全て、「無意味な音」と称される（非特許文献２４）。知覚に適応されるオーディオエンコーダの機能のモードをさらに正確に理解するために、心理音響の深い知識が非常に重要になる。

人間の聴覚は、サウンドイベントを周波数グループに分解することにより、サウンドイベントを解析する。これらの周波数グループは、バーク尺度で表され、臨界帯域と呼ばれる。これらの周波数グループのそれぞれは、人間の聴覚により一緒と評価される周波数領域をまとめたものである。したがって、周波数領域は、基底膜上の局所的な領域に対応する。一般的に、２４の臨界帯域が基底膜に関係付けられ、その帯域幅は、周波数が増加するにつれて増加する（非特許文献８）。損失のあるオーディオエンコーダもまた、ブロードバンド信号をサブバンドに分解し、各帯域を個別に符号化するために、このモデルの周波数グループを使用する（非特許文献２４）。このモデルは頻繁に適応され、しばしば、２４を超える帯域の線形周波数分割がバーク尺度の代わりに使用される。

聴覚型の知覚の別の重要な特性は、等しい音圧レベルの音の大きさを、周波数依存的に感じることである。このことから、聴覚の２つの特徴が生じる。１つは、異なる周波数だが音圧レベルが等しいサウンドが、異なる大きさであると知覚されることで、もう１つは、周波数依存性の閾値があり、その閾値から、まさにサウンドが知覚され始めることである（非特許文献８）。この閾値は、絶対聴覚閾値または静音時聴覚閾値と呼ばれる。この閾値を図２２に例示する。このことから、オーディオ符号化に関して、２つの結論が導き出される。絶対聴覚閾値を下回るレベルの信号は、いずれにしても知覚できないため、処理される必要がない。これとは別に、周波数帯域ごとに必要とされる量子化ステップの数もまた、静音時聴覚閾値と信号レベルとの間の距離から決定されてもよい（非特許文献２４）。

カバリングまたはマスキングの効果は、オーディオ符号化に対して最も大きな影響を有する。時間依存のマスキングと周波数依存のマスキングとは、互いに区別される。双方の事例において、マスカーとは、別のサウンドイベントを覆い隠すサウンドイベントをいう。したがって、マスクされたイベントは聞こえない。時間的マスキングの場合、マスカーの前または後のイベントでさえも覆い隠される。プレマスキングは、マスカーの持続時間から独立しており、マスカー自体を知覚する前に最高５０ミリ秒のサウンドイベントを覆い隠す（非特許文献２３）。これとは対照的に、ポストマスキングは、マスカーの持続時間に依存する。ここでのサウンドイベントは、マスカーが中止された後に覆い隠される。マスカーの持続時間に依存して、静音時聴覚閾値の範囲内の信号に聴覚が再び反応するまで、最高２００ミリ秒が経過することがある（非特許文献８）。

図２１は、時間的マスキングの概略図を示す。特に、図２１は、プレマスキングおよびポストマスキングの領域と、そのレベルを下回ると信号がカバーされるそれぞれのレベルとを概略的に示す。時間的マスキングは、高レベル信号シーケンス（過渡信号）に対して、例えば、量子化雑音のような、符号化プロセスにより引き起こされるスプリアス雑音を隠すために、オーディオ符号化において使用されてもよい。

周波数領域におけるマスキング効果は、時間的カバリング効果よりも、さらに非常に重要な役割を果たす。周波数依存マスキングは、個々のサウンドおよび狭帯域雑音に対する静音時聴覚閾値の変化を表現する。個々のサウンドおよび狭帯域雑音の信号は、それらに特有のマスクされた聴覚閾値のため、静音時聴覚閾値を大きく歪ませる。レベルがマスカーのマスクされた聴覚閾値より小さく、この閾値の有効範囲にある信号は、知覚されない（非特許文献８）。この事情を図２２に示す。

図２２は、人間の聴覚における周波数依存マスキングの概略図を示す。図示の通り、マスクされたサウンドは、マスカーのマスクされた聴覚閾値を下回るため、聞こえない。この効果は、損失のあるオーディオ符号化方法に利用される。周波数依存のマスクされた聴覚閾値を下回る信号部分は、信号から除去され、それ以上は処理されない（非特許文献２４）。

図２３に、知覚に適応された典型的なエンコーダの一般的なセットアップが示される。図２３は、心理音響オーディオエンコーダのブロック回路図を示す。最初に、符号化されることになるＰＣＭ信号が、解析フィルタバンクにより周波数帯域に分割され、心理音響モデルに供給される。ここでは、異なる周波数帯域に関する量子化の正確性を調整する時間依存のマスクされた聴覚閾値が、説明した聴覚の心理音響的特徴により決定される。したがって、重要な周波数帯域、すなわち、容易に知覚される周波数帯域は、非常に高分解能で量子化され、重要でない周波数帯域は、少数のビットの分解能で表される。その後、エントロピー符号化が、データ低減のために実行される。エントロピー符号化は、損失のないオーディオ符号化においても同様に行われるものである。解析フィルタバンクおよび心理音響モデルにより追加の制御パラメータを送信しなければならないため、実際のビットストリームは、ビットストリームマルチプレクサによりセットアップされる。ここでは、損失のあるオーディオエンコーダでの符号化における利得は、量子化とエントロピー符号化との組み合わせにより得られる（非特許文献２４）。達成されることになる品質に依存して、圧縮レートは、４：１と５０：１との間にある（非特許文献２１）。

デコーダは、比較的単純にセットアップできる。最初に、デマルチプレクサにより、受信されたビットストリームが、信号データと制御パラメータとに再分割される。その後、エントロピー復号化および逆量子化が実行される。ここでの制御パラメータは、有効なデータの逆量子化を制御する。その後、このように得られたサブバンド信号は、ブロードバンドＰＣＭ信号を再構築するための合成フィルタバンクに供給される（非特許文献２４）。心理音響オーディオデコーダのそれぞれのブロック回路図を図２４に示す。

信号変換に関するいくつかの先行技術を以下で論じる。多くのオーディオエンコーダにおける量子化は、周波数領域における人間の知覚を説明する知覚モデルに基づいているため、符号化されることになる信号を周波数領域にも変換する必要がある。このことに関して、異なる特性および適用分野を有する非常に多くの変換がある。オーディオ符号化に関連する変換を以下に提示し、フィルタバンクのセットアップについて論じる。

フーリエ変換は、信号の高調波構造を解析するための最も重要な方法である。フーリエ変換は、フーリエ解析の一部であり、フーリエ変換を最初に導入したフランスの数学者および物理学者であるＪｅａｎ−Ｂａｐｔｉｓｔｅ−ＪｏｓｅｐｈＦｏｕｒｉｅｒ（１７６８年〜１８３０年）にちなんで名付けられた。フーリエ変換は、時間信号を周波数領域における表現に変換するための関数である。これを使用して、とりわけ、線形時不変（ＬＴＩ）システムの性能を説明し、それを予測することができる（非特許文献４）。したがって、これは、例えば、人間の聴覚の音響および特徴付けにおいて、非常に重要である。フーリエ変換の基本的な手順は、時間信号を、正弦波振動および余弦波振動の重み付けされた合計に分解することである。非周期性の連続信号に関して、以下のように計算される（非特許文献２）。
ここで、ｘ（ｔ）は、時間領域において解析されることになる信号であり、Ｘ（ｆ）は、周波数領域におけるそれぞれのフーリエスペクトルである。実信号が変換されるが、結果は複素数であることに留意しなければならない。数式２．２のユークリッド関係を使用して、Ｘ（ｆ）の実部がｘ（ｔ）の余弦項に対応し、虚部が正弦成分に対応することが示される。

数式２．２を使用して、数式２．１の結果は、以下のようになる。

その結果、以下のようになる。

正弦と余弦とはそれらの位相だけが互いに異なることから、信号の位相は、対応する項の比から結論付けられる。以下が適用される。
ここで、│Ｘ（ｆ）│は、絶対値周波数応答と呼ばれ、φ（ｆ）は、位相周波数応答または単に位相と呼ばれる。

逆フーリエ変換（数式２．９）により、変換された信号は、時間領域におけるそのオリジナルの表現に再変換される。フーリエ変換とその逆とは、先頭の定数係数と指数関数の符号とが異なることに留意しなければならない（非特許文献４）。

離散フーリエ変換を以下でさらに詳細に論じる。

現実問題として、フーリエ変換を使用するときに、デジタルコンピュータで問題が生じる。１つは、時間値の有限数しか処理できないことに起因し、もう１つは、周波数変数も、時間変数とは別に、離散的に標本化されなければならないということに起因する。これらの問題の解決策が、離散フーリエ変換（ＤＦＴ）である。ＤＦＴを使用して、有限の離散的な時間信号を、離散的な周期スペクトルに変換する。これは、ＤＦＴが、デジタル信号処理における最も重要な変換のうちの１つであることを意味する。ＤＦＴの起源はフーリエ変換にあり、正確な導出は（非特許文献１２）に示されている。長さＮの離散時間信号ｘ［ｎ］は、以下のように定義される（非特許文献４）。

同様に、逆離散フーリエ変換（ＩＤＦＴ）は、以下のようになる。

ここでは、以下の複素回転位相ベクトルＷを用いている。

以上の数式において、Ｘ［ｋ］はｘ［ｎ］の離散周期スペクトルであり、ｋ，ｎは非負の整数
である。スペクトルの周期の長さは変換長Ｎに対応し、正規化された周波数は、［０，２π］の間隔にマッピングされる。

実数入力信号に対して、ＤＦＴは重要な特性を有する。ここでは、一般的な場合と同様にＮ個の独立周波数係数が計算されるのではなく、Ｎの半分のみが計算される。この特性は、例えば、データの蓄積または送信に利用できる。再変換のため、以下の相関を使用して、第２のＮ／２値が計算される（非特許文献１９）。

数式２．１３中の演算子＊は、複素共役を示す。したがって、Ｘ［ｋ］＊は、Ｘ［ｋ］に関する複素共役シーケンスの値である。

ＤＦＴおよびＩＤＦＴの計算の複雑性は、Ｎ^２個の複素乗算および加算にある。計算時に対称性が利用されるとき、必要とされる計算ステップの数はＮｌｏｇ_２Ｎに削減され、複雑性は、
に対応する。しかし、高速の方法を用いる場合には、変換長Ｎは２の累乗に対応する。高速フーリエ変換は、ＦＦＴと呼ばれる（非特許文献１０）。

離散フーリエ変換は、データ圧縮の分野では支持が得られていない。ＤＦＴの重大な欠点は、計算の複雑性の高さと、スペクトルに含まれる冗長性である。ＤＦＴを計算するための効率的な方法、すなわち、ＦＦＴがあるが、結果は常に複素スペクトルになる。このことは、Ｎ個の複素対の値は、Ｎ個の変換値から計算されることを意味する。加えて、最初のＮ／２個のスペクトル値のみが新規の情報を含む。

離散余弦変換および離散正弦変換を以下で論じる。

離散余弦変換（ＤＣＴ）は、前述したＤＦＴの問題の解決策である。ＤＣＴは、実数の、離散的な、線形の直交変換である。まさにこれらの特徴により、ＤＣＴは、デジタルデータ圧縮において最も頻繁に使用される変換である（非特許文献３）。

ＤＣＴは、離散三角関数変換である。一般的に、８通りのＤＣＴ形式が互いに区別される。エッジの連続性に依存して、ＤＣＴ形式は偶数および奇数の変換に分けられ、タイプＩ、ＩＩ、ＩＩＩおよびＩＶに分けられる。ただし、デジタル信号処理に関しては、偶数タイプのＤＣＴのみが重要である。これらを以下に列挙する（非特許文献１９）。
ここで、
である。

これらの形式のそれぞれは、符号化において特殊な目的を有する。ＤＣＴ−ＩＩは、主に画像データの変換として使用される。非特許文献１によると、これが第１のタイプのＤＣＴとして記載されている。これは、「ＤＣＴ」という用語が、一般にＤＣＴ−ＩＩを指すことを意味する。先頭の係数を除けば、ＤＣＴ−ＩＩＩはＤＣＴ−ＩＩの逆変換であり、逆もまたしかりである。オーディオ符号化用には、ＤＣＴ−ＩＶは特に重要である。これは、修正離散余弦変換の基礎となっている。

ＤＣＴの重要な特性を実証することができるように、ＤＦＴとＤＣＴとの相関を以下に挙げる。先に例示してきたように、ＤＦＴは、長さＮの実数値信号からＮ／２個の独立周波数係数のみを計算する。逆に、これは、Ｎ個のスペクトル値を得るために、時間領域において２Ｎ個の値が必要とされることを意味する。しかし、Ｎ個の時間値のみが利用可能である場合に、信号は適切に連続していなければならない。ここでは、信号全体の反映／ミラーリングによる対称的な拡張が適切であると考える。このため、拡張された信号は、周期長２Ｎにおいて拡張された信号自体を繰り返すと考える。これは、クリッピングされた信号でのＤＦＴのスプリアス漏洩効果が抑圧されるという点で有益である（非特許文献１０）。

長さＮの任意の実信号ｘ［ｎ］は、対称的に拡張され、結果は以下のようになる。
ここで、０≦ｎ≦２Ｎ−１である。したがって、
の長さは、２Ｎである。その後、数式２．１２による数式２．１０からのＤＦＴが、この信号に適用され、変形される（非特許文献１９）。詳細な導出は添付書類Ａ．１に示されている。以下が適用される。

この結果を数式２．１４ｂにおけるＤＣＴ−ＩＩと比較したときに、これらの二つの式は、位相項２ｅ^{ｊπ／２Ｎ}だけが異なっていることがわかる。同一のものは信号非依存であり、任意の情報を含まないため、ＤＣＴを計算するときに無視できる（非特許文献１９）。ＤＣＴ−Ｉに関しては、同様の相関が見られるが、ｘ［ｎ］の異なる信号連続性を使用する。ＤＣＴ−ＩＶは、ＤＣＴ−ＩＩの基底関数の位相回転の結果となる。これに関する詳細な導出は、（非特許文献１９）に見られる。

この結果からいくつかの結論を導き出すことができる。最初に気づくことは、ＤＦＴとは対照的に、ＤＣＴは、純粋な実変換であることである。このことから、結果として２つの利点が得られる。第１に、この計算には複素乗算および加算を行う必要がなく、第２に、複素対の値がないため、データを蓄積する蓄積スペースが半分でよい。さらに、ＤＣＴは、Ｎ個の独立周波数係数を計算するために、正確に変換のためのＮ個の値を必要とすることが印象的である。周波数は全て、［０，π］の間隔にある。ＤＦＴとは対照的に、実数値の入力信号に対するスペクトルに含まれる冗長性は消えるため、周波数分解能は２倍になる。しかし、ＤＣＴスペクトルは、絶対値（または大きさ）および位相に関して、変換できないという欠点がある。さらに、ＤＣＴの基底関数（数式２．１４ａ〜２．１４ｄ）に対応するが、この関数と比較して、位相が９０度回転している周波数が信号に含まれるという状況が生じことがある。これらの周波数は、ＤＣＴにより表現されない、すなわち、それぞれのＤＣＴ係数は０である。これらの理由から、ＤＣＴは、有効な高速のデータ圧縮によく適しているが、信号解析に対してはそれほど適していない（非特許文献１３）。

離散余弦変換とは別に、離散正弦変換（ＤＳＴ）がある。一般的に、８個の形式のＤＳＴが互いに区別される。ここでは、ＤＳＴ−ＩＶのみが重要である。ＤＳＴ−ＩＶの形式および特性に関しては、ＤＣＴ−ＩＶに対応する（非特許文献１９）。

ＤＣＴ−ＩＶおよびＤＳＴ−ＩＶの双方を使用して信号が変換されるときに、２つの実スペクトルの組み合わせから再形成される複素スペクトルは、再び絶対値および位相に関する情報を含む。ここでの周波数分解能は依然としてＤＦＴの２倍であり、これは、Ｎ個の周波数が間隔［０，π］にマッピングされることを意味する（非特許文献１３）。

長いオーディオ信号の信号処理に関して、信号全体を変換することは不可能である。一方、Ｎ^２個の計算演算子がＤＣＴの計算に対しても必要とされることから、ここでの計算の複雑性は大幅に増加する。他方、データストリーム全体の送信は、信号が再構築されるまで常に待機されなければならないことから、信号をリアルタイムで処理することは不可能である。結果として、信号をブロックに分割する必要がある。この事例では、ＤＣＴは、いわゆるブロック変換として適用される（非特許文献１９）。ブロックインデックス
を使用して、数式２．１４ｄからのＤＣＴ−ＩＶに関する結果は以下の通りである。

信号の長さｘ［ｎ］は、ｂＮに対応する。ブロック変換の場合、量子化によりブロックアーティファクトが生じる。この種のアーティファクトが認識されることがある既知の例は、ＪＰＥＧ圧縮方法である。ブロックアーティファクトは、周期化のために行われることになるエッジの連続性に起因する。これらは、オリジナルに仮定された信号の連続性に対応しない（数式２．１６参照）。結果は、周波数領域においてエネルギーを高周波数に偏移させるブロック制限での音飛びである（非特許文献１３）。オーディオ信号における音飛びは、パチパチ音として知覚されることがある。人間の聴覚はこのようなアーティファクトに対して非常に敏感である。したがって、これらは絶対に回避されなければならない。

修正離散余弦変換を以下に論じる。

修正離散余弦変換（ＭＤＣＴ）は、オーディオ圧縮に関する中心的な変換である。ＭＤＣＴは、とりわけ、ｍｐ３、ＡＡＣおよびドルビー（登録商標）デジタル（ａｃ−３）において使用される。ＭＤＣＴは、実数の、離散的で、線形的で、直交の変換であり、ＤＣＴ−ＩＶの修正である。これは、以下のように定義される（非特許文献１９）。

ＤＣＴ−ＩＶと比較したＭＤＣＴの利点は、ブロックアーティファクトの回避である。これは、複数の連続ブロックのオーバーラップにより主に達成される。この種の変換は、重複直交変換（ＬＯＴ）としても知られる（非特許文献１４）。

冗長性は、重畳加算法（ＯＬＡ）により再除去される。したがって、逆変換で形成するブロックは最大５０％まで重畳されて加算され、この手順は重畳加算と呼ばれる。

ＭＤＣＴの周波数分解能は、窓関数により入力シーケンスｘ［ｎ＋ｂＮ］を重み付けすることにより、さらに改善されている。数式２．２０において、窓は、信号全体から現在のブロックｂをクリップする三角関数に対応する。周波数領域において、これは、ｓｉ関数を使用した畳み込みに対応する。ｓｉ関数の阻止帯域の減衰は不十分であるが、この窓関数を適応することにより改善され、したがって、周波数選択性の増加が達成される。ＭＤＣＴを完全に再構築できるようにするために、長さ２Ｎの窓関数ｗ［ｎ］は、プリンセン‐ブラッドリー（ＰＲ）条件を満たさなければならない（非特許文献１８）。

これらの条件を満たし、十分な阻止帯域減衰を示す単純な窓は、正弦半波窓である。これは、とりわけ、ｍｐ３およびＡＡＣにおいて使用され、以下のように定義される（非特許文献１３）。

窓関数ｗ［２Ｎ−１−ｎ］を数式２．２０に挿入することにより、ＭＤＣＴの別の重要な特性が認識される。結果は、変調された窓関数ｗ［ｎ］を使用した、ｘ［ｎ＋ｂＮ］の離散畳み込みに対応する。ここで、∀ｋ∈［０，Ｎ−１］に対して、結果は以下の通りである（非特許文献２０）。

ここで、ＭＤＣＴは、ブロック変換として見られるだけではなく、変調されたフィルタバンクとしても見ることができる（非特許文献１３）。したがって、窓関数は、余弦カーネルにより変調されたローパスプロトタイプＦＩＲフィルタに対応し、このため、フィルタバンクの周波数帯域を表現する。この結果は、入力シーケンスｘ［ｎ＋ｂＮ］のちょうどＮ個のサブバンドへの分解である。ＴＤＡ特性に関連して、ＭＤＣＴは、いわゆる「臨界標本化フィルタバンク」の前提条件を満たす。

このような臨界標本化フィルタバンクを図２５に示す。特に、図２５は、ｎ_ｄ標本のシステム遅延を有するＮ帯域の臨界標本化ＰＲフィルタバンクを示す。このようなフィルタバンクは、最小数の標本で信号を可能な限り正確および完全に記述することから、オーディオ符号化のために特に重要である（非特許文献１９）。

下方向矢印とＮのシンボルは、係数１／Ｎによる標本速度の低減に対応し、上方向矢印とＮのシンボルは、係数Ｎによる増加に対応する。合成フィルタバンク後の信号
は、ｎ_ｄ個の標本の一定の遅延を除いて、解析フィルタバンク前の入力信号ｘ［ｎ」と同一である。ＭＤＣＴの場合には、ｈ_ｋ［ｎ］は変調された窓関数ｗｋ［ｎ］である。ｗ［ｎ］がＰＲ条件を満たすことから、解析フィルタｈ_ｋは合成フィルタｇ_ｋと同一である。

数学的観点から、ここまで言及した全ての変換を含む線形数式系を、ベクトル行列の表記法にすることが適切である。長さｂＮの信号ｘ［ｎ］は、列ベクトル
として表現される。ここでの演算子Ｔは、転置を特徴づける。ブロックの形成は、行列の全列がｘ［ｎ］のブロックを含む行列として表現される。

変換規則もまた行列として表現される。ここでの変調された窓関数は、行列の行を形成する。∀ｋ∈［０，Ｎ−１］，∀ｎ∈［０，２Ｎ−１］に対して、以下が適用される。

信号ベクトルｘのＭＤＣＴを計算することができるように、数式２．２４のブロック構造は、ＴＤＡに対する５０％の重ね合せにより拡張されなければならない。したがって、ＭＤＣＴは以下のように記載される。
ここで、
である。

数式２．２６のすべての列は、信号ベクトルｘにおけるインデックスｂを有するそれぞれのブロックのＭＤＣＴスペクトルを形成する。

ブロックの計算に関して、この形式のＭＤＣＴは、２Ｎ^２個の乗算および加算を必要とする。しかし、計算の複雑性は大きく削減される。

ここで、図２５におけるフィルタバンクを同等の多相フィルタバンク（図２６参照）に変換する必要がある。多相表現およびｚ変換を使用して、ＭＤＣＴフィルタバンクのようなマルチレートシステムが、より広範囲に解析される。

フィルタの長さがＭの整数倍に対応するときに、ＦＩＲフィルタｈ［ｎ］は、常に非負の整数
の相に分割できる。ｈ［ｎ］のｍ番目の位相ｐ_ｍ［ｎ］は、ｚ^−ｍによる遅延ｎ［ｎ］および係数Ｍによる標本速度の減少により生成される（非特許文献１３）。以下が適用される。

分解およびｚ変換を使用して、フィルタｈ［ｎ］は以下のように表現される（非特許文献１３）。

合計の表記法の代わりに、ベクトル表記法がここでも好まれる。したがって、数式２．３０は、Ｎ次元のベクトルとして表現される。
ここで、
である。

この多相分解は、次に、ＭＤＣＴフィルタバンクの各フィルタに適用される。結果は、図２６における、前述した、フィルタバンクの同等の多相表現である（非特許文献２０）。したがって、図２６は、同等のＮ帯域の臨界標本化ＰＲ多相フィルタバンクを表す。

ＭＤＣＴカーネルおよびＴＤＡの特徴における対称性を利用することにより、解析多相フィルタ行列
および合成多相フィルタ行列
は、それぞれ、疎畳み込み行列と変換行列とに分割される（非特許文献２０）。ここで、畳み込み行列
および
は、窓関数ｗ［ｎ］の係数をｚ領域における多項式として有するダイヤモンド構造を表す。これらは、窓行列および遅延行列にさらに分解される。

畳み込み行列の正確な形式および分割を以下でさらに示す。変換行列は、ＤＣＴ−ＩＶ行列に対応する。

これらの行列を使用して、ブロックＸに分割される入力信号のＭＤＣＴスペクトルは、以下のように計算される（非特許文献２０）。
ここで、以下が逆変換に適用される。

この解は、数式２．２６にしたがってＭＤＣＴを計算するのと比較して、複数の利点をもたらす。最初に、時間領域エイリアシング形成がさらに容易に認識される。数式２．３３ａによる重畳行列の多相表現の場合、プロセスは、ブロック（ｂ−１）の重み付けされた信号部分を、現在のブロックｂに折り返すように解釈される。これらの信号部分を追加することにより、ＴＤＡが形成される。多相を使用してＭＤＣＴを計算する最大の利点は、計算の複雑性が顕著に減少することである。正方ＤＣＴ−ＩＶ行列およびまばらに占有された畳み込み行列により、計算の複雑性はＮ（Ｎ＋２）個の乗算および加算に削減される。ＦＦＴに類似するＤＣＴの高速実装を使用することにより、必要とされる演算の数はＮ（ｌｏｇＮ＋２）に削減され、したがって、複雑性は、数１１にランダウの記号で示した値に削減される（非特許文献１９）。これらの理由のために、ここでのＭＤＣＴは、多相アプローチにしたがって実装されることが考えられる。

オーディオ信号処理において、低い周波数の信号をより高い周波数に偏移させる必要があることがある。このとき、この周波数偏移は、自由に選択可能であり、正確であるべきである。信号のより高い周波数を復元しようと試みるオーディオエンコーダは、この問題に直面するにちがいない。現代のオーディオ符号化技術は、オーディオデータのさらに効率的な圧縮のために、帯域幅拡張の方法を使用する。人間の聴覚の心理音響的特徴とは別に、低周波数信号部分の高周波数部分に対する相関が、データ削減に利用される。

オーディオ符号化によりデータ転送速度を減少させる様々な方法が存在するにもかかわらず、現在のオーディオエンコーダは、低ビットレートが所望されるときに限界に達する。特に、この事例における心理音響的な方法は、所望でない信号破損を生成する。これは、再生されるオーディオ信号の高音の欠落、ぼやけた過渡信号または人工的なヒス音のような、干渉アーティファクトに見られる。しかし、多くの利用事例では、限られた送信帯域幅しか利用できない。帯域幅拡張（ＢＷＥ）は、これらの問題に対する解決策をもたらす。一般に、帯域幅拡張は、オリジナルの帯域幅を再度得るために、帯域制限されたオーディオ信号をスペクトル的に拡張するのに使用されるいくつかの方法を統合する。一般的に、帯域幅拡張のための方法の４つのカテゴリーが、互いに区別される（非特許文献１１）。これらを図２７にグラフとして示す。

図２７は、帯域幅拡張のカテゴリーを示す（非特許文献１１）。図２７において、左上は、低周波数の心理音響的ＢＷＥを示す。図２７において、右上は、高周波数の心理音響的ＢＷＥを示す。図２７において、左下は、低周波数のＢＷＥを示す。加えて、図２７の右下に、高周波数のＢＷＥを示す。帯域「ａ」（破線）のエネルギーは、帯域「ｂ」（点線）に偏移させられる。

カテゴリーＩＩＩ（図２７の右下）のみが、オーディオ符号化に有用である。いわゆる「高周波数のＢＷＥ」の場合、高周波数範囲のスペクトルを再構築するために、帯域制限された信号に存在する周波数が使用される。オーディオ信号の帯域幅拡張のためのこのような方法を使用するという考えは、信号の高周波数部分と低周波数部分との間に強い相関があるということに基づく。したがって、欠落した高周波数を、存在する低信号部分から再構築することが可能である（非特許文献１１）。帯域制限された信号が、高周波数のＢＷＥによりそのオリジナルの帯域幅に拡張されることがある現在の技術および方法を、以下に提示する。

スペクトル帯域複製（ＳＢＲ）は、とりわけＨＥ−ＡＡＣで用いられているように、先行技術として既知である。ＳＢＲによるスペクトル帯域複製の場合、エンコーダによりスペクトル的に提供されるローパス信号をスペクトル的に拡大するために、低周波数信号部分と高周波数部分との間の相関が利用される。基礎となるフィルタバンクの低周波数帯域が、欠落している高帯域にコピーされ、スペクトル包絡線が適応される。このコピープロセスは、特に低カットオフ周波数により、粗さおよび所望でない音色のような、知覚可能なアーティファクトを引き起こす。これらは、ベースバンドと、アルゴリズム的に生成される高周波数帯域との間の制限内にあるスペクトルの高調波の連続性が欠落することにより主に引き起こされる。

先行技術であるＳＢＲオーディオエンコーダは、信号のｐＱＭＦサブバンドの分解を使用しており、この方法で、高い符号化効率を保証する（非特許文献７）。これは、より低い周波数帯域のみを送信することにより達成されるのに対し、より高い周波数部分は、前述したより低い帯域のサイド情報および周波数偏移を使用して、再構築される。

現在のスペクトル帯域複製は、帯域幅拡張に関して最も広く知られた方法である。これは、とりわけ、ＨＥ−ＡＡＣおよびｍｐ３ＰＲＯにおいて用いられる。ＳＢＲは、符号化技術により開発されてきたが、その目標は、既存のオーディオエンコーダの効率性を増加させることである。これは、エンコーダにより、あるエッジ周波数ｆ_ｇを下回る周波数のみを処理することにより達成される。言及している例では、ｍｐ３およびＡＡＣエンコーダが、コアエンコーダとして使用されている。エッジ周波数を上回る周波数は、いくつかのパラメータによってのみ記述される。達成されることになる品質に依存して、これらは５ｋＨｚと１３ｋＨｚとの間にある。その後、高周波数部分は、前出のサイド情報および復号化された帯域制限信号を使用して、受信機において再構築される（非特許文献７）。

図２８は、拡張されたＳＢＲエンコーダのブロック回路図を示す。入力信号の標本速度は制限され、その後、実際のエンコーダに供給される。並行して、信号は、複素直交ミラーフィルタバンク（ＱＭＦ）により解析され、エネルギー計算が行われる。使用されるＱＭＦは６４個のサブバンドからなる。スペクトル包絡線を推定するのに必要なパラメータは、これから導き出される。さらなるパラメータにより、入力信号の特別な特性に反応することが可能になる。ＳＢＲエンコーダを知ることにより、高周波数帯域を生成することによるオリジナルの高周波数部分（ＨＦ）と合成されたＨＦ部分との間の大きな差が認識される。

例えば、カットオフ周波数を上回るはっきりと異なる個々のサウンドが信号中に存在するときに、これらは、追加のパラメータにより記述され、再構築された信号に再供給される。生成されるサイド情報は、実際のオーディオデータとは別に、送出されるビットストリームに挿入される（非特許文献１１）。

図２９は、ＳＢＲにより拡張されるそれぞれのデコーダのブロック回路図を示す。帯域制限オーディオデータがデコーダにより復号化され、制御パラメータがビットストリームから抽出される。その後、オーディオデータは、高周波数部分を再構築するために、ＱＭＦフィルタバンクに再供給される。このフィルタバンク内にベースバンドがコピーされ、カットオフ周波数の上側に挿入される（図３０、左図を参照）。

図３０は、絶対値周波数応答の概略図である。したがって、図３０は、ＳＢＲ−ＨＦ再構築の概略図である。図３０において、左図は、ベースバンドのコピーおよび偏移を示す。図３０において、右図は、スペクトル包絡線の調節後のスペクトルを示す。

ＳＢＲエンコーダにおいて生成されるスペクトル包絡線上の情報は、コピーされたスペクトルの包絡線をオリジナルの包絡線に一致させるために使用される。送信される制御パラメータおよびそれぞれのＱＭＦ帯域のエネルギーを使用して、この適応が行われる。再構築されたスペクトルの特性が、オリジナルのスペクトルの特性と異なる場合に、音調（トーン）成分または雑音が、信号にさらに追加される（非特許文献１１）。図３０は、適応された再構築スペクトルを右に示す。

最後に、帯域制限信号および再構築された高周波数信号は、合成フィルタバンクにより統合され、時間領域に変換される。このようにして、再生用に現在準備の整っている帯域幅拡張信号が形成される。

この種の帯域幅拡張において、大きく異なる高調波構造の高音調信号により問題が生じる。ＳＢＲ方法がスペクトルの音調適応のための技術を提供する場合でさえ、これらは、破壊された高調波構造を復元するためには不十分である。結果は、信号における知覚可能な粗さである（非特許文献２２）。これらのアーティファクトは、リスナーにとって非常に不快である。これは、ＳＢＲデコーダのコピープロセスに起因する。これは、信号の高調波の微細構造を考慮に入れず、単にベースバンドを複製する。その結果を図３１に示す。

図３１は、ＳＢＲによる高調波構造の破壊を示す。図３１において、左図は、オリジナルのブロードバンドスペクトルを示す。図３１において、右図は、ＳＢＲＨＦ再構築後のスペクトルを示す。

明白に認識できるように、高周波が、カットオフ周波数の上側の範囲にあるオリジナルのスペクトルと比較して、偏移させられている。再構築されたＨＦスペクトルは高調波であるが、高調波構造は、カットオフ周波数において、追加の周波数スウィングｆ_ｌａｇだけ広がっている。さらに、高調波サブトーンの振幅比は、包絡線を再構築することにより歪められている。この効果は、典型的には楽器により生成されるように、全ての高調波信号に生じる。

例えばピッチパイプのような高調波信号に関して、ＳＢＲおよび同等の帯域幅拡張方法は、信号の高調波構造が完全には保持されないことから、例えば、音調の粗さおよび不快な音色のような、好ましくないアーティファクトを生成する。異なる高調波構造を表す信号に関して、ＳＢＲを適用したときに、粗さおよび音色の変化のような、好ましくないアーティファクトが生じる。

これが、これらの構造を含む２つの時間領域帯域幅拡張方法、すなわち、位相ボコーダ制御高調波帯域幅拡張（ＨＢＥ）、および特別の側波帯変調を用いる連続的な変調（ＣＭ）ＢＷＥが開発された理由である（非特許文献１５、１６）。自由に選択可能な周波数による連続変調により、特にＣＭ−ＢＷＥは、良好な高調波復元を達成する。

不調和なスペクトルの連続性の問題を回避するいくつかの代替的な帯域幅拡張方法がある。これらの方法のうちの２つを以下に紹介する。基本的に、これらの方法は、図２９におけるＳＢＲデコーダのＨＦ発生器を置換し、したがって、単純なコピープロセスに対する代替を表す。スペクトル包絡線および調性の適応に変化はない。入力信号は時間領域になければならないことから、この方法は、帯域幅拡張のための時間領域方法とも呼ばれる。

高調波帯域幅拡張（ＨＢＥ）について最初に言及する。ＨＢＥは、高ピッチ範囲を生成するための位相ボコーダを使用する。位相ボコーダを適用することにより、スペクトルが拡大される。図３２の左図に示すように、ベースバンドは最大信号周波数ｆ_ｍａｘまで広がり、カットオフ周波数とｆ_ｍａｘとの間の周波数範囲はクリップアウトされる。その後、スペクトルは、前述の部分およびベースバンドから構成される（図３２の右を参照）。ＳＢＲにおいて行われるのと同様に、包絡線が適応される（非特許文献１５）。

図３２は、ＨＢＥ−ＨＦ再構築の概略図である。図３２において、左図は、係数「２」によるベースバンドの拡大を示す。図３２において、右図は、スペクトル包絡線が適応された後のスペクトルを示す。

正整数の拡張係数σ
を使用することにより、カットオフ周波数ｆ_ｇが高調波構造を変化させないことが保証される。以下が適用される。

欠点として、図３３に見られるように、ＨＦ領域におけるサブトーン間の距離が、スペクトルを広げることにより、拡張係数で変化するということがある。さらに、スペクトルを広げるには複雑な計算が必要とされる。これらの中には、高分解能ＤＦＴ、位相適応および標本速度変換がある（非特許文献６）。オーディオ信号がブロックにサブ分割されると、隣接ブロックの位相を連続できるように、オーバーラップ追加構造がさらに必要とされる。高音調信号に対しては、位相ボコーダ技術を使用して非常に良好な結果を達成できるが、衝撃信号では過渡部がぼやけ、別個の過渡処理を行うことが必要となる（非特許文献２２）。

図３３は、ＨＢＥを用いた高調波構造を示す。図３３において、左図は、オリジナルのブロードバンドスペクトルを示す。図３３において、右図は、ＨＢＥＨＦ再構築後のスペクトルを示す。

連続的な単側波帯変調を以下に提示する。

連続的に変調された帯域幅拡張（ＣＭ−ＢＷＥ）は、帯域幅拡張のための別の時間領域方法である。この方法では、図３４に示したと同様に、ベースバンドが周波数ｆ_ｍｏｄで単側波帯変調により変調され、したがって、別のスペクトル位置に偏移される。可変変調周波数により、帯域幅拡張された信号の高調波構造が確実に保持される。カットオフ周波数ｆ_ｇより大きい変調周波数の場合、スペクトルにおいて形成されるギャップは、雑音で満たされなければならない（非特許文献１６）。

図３４は、ＣＭ−ＢＷＥ−ＨＦ再構築の概略図を示す。図３４において、左図は、周波数ｆ_ｍｏｄによるベースバンドの変調を示す。図３４において、右図は、スペクトル包絡線を適応後のスペクトルを示す。

図３４に示す事例とは別に、ベースバンドが複数回変調されることも必要である。このような事例では、変調周波数はあらゆる変調に適応されなければならず、その変調では、その変調周波数のそれぞれ次の整数の倍数が選択される（非特許文献１６）。変調後に最大の許容信号周波数ｆ_ｍａｘを超えないように、変調前に、変調周波数にしたがって、ベースバンドは低域通過によってフィルタリングされなければならない。既に提示された方法と同様に、その後、スペクトル包絡線が形成され、音調が適応される。

図３５は、高調波構造を、ＣＭ−ＢＷＥにより拡張された信号に形成するものとして示す。図３５において、左図は、オリジナルのブロードバンドスペクトルを示す。図３５において、右図は、ＣＭ−ＢＷＥ−ＨＦ再構築後のスペクトルを示す。ＨＢＥ法におけるのと同様に、ＣＭ−ＢＷＥは、スペクトル中の高調波サブトーンを欠いている。しかし、これは、否定的に注意を引くものではない。高調波構造自体が保持されているからである。

この方法の欠点は、単側波帯変調の計算にある。解析信号が、正しい計算、すなわち信号が正の周波数のみを含むこと、のために必要である。ヒルベルト変換がこのような信号の計算に必要である。これは、基本的に、無限インパルス応答の非因果性フィルタである。このようなフィルタは実現できず、簡潔化されなければならない。しかし、それでもなお可能な限り最高のストップ帯域減衰を最小フィルタ次数で達成するために、無視できない遅延が、フィルタの因果性化により、信号に追加される（非特許文献２２）。

しかし、周波数偏移が時間領域内で実現される場合、これは、非常に複雑になる。これとは対照的に、偏移をサブバンドオーディオエンコーダのサブバンド領域で実現することは、要求される周波数偏移に対して周波数分解能があまりに粗くなるという結果をもたらす。

Ａｈｍｅｄ，Ｎ．；Ｎａｔａｒａｊａｎ，Ｔ．；Ｒａｏ，Ｋ．Ｒ．：ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ．Ｉｎ：Ｃｏｍｐｕｔｅｒｓ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣ-２３（１９７４），Ｊａｎｕａｒ，Ｎｒ．１Ｂｏｓｉ，Ｍ．；Ｇｏｌｄｂｅｒｇ，Ｒ．Ｅ．：ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＤｉｇｉｔａｌＡｕｄｉｏＣｏｄｉｎｇａｎｄＳｔａｎｄａｒｄｓ．２ｎｄｅｄｉｔｉｏｎ．Ｂｏｓｔｏｎ；Ｄｏｒｄｒｅｃｈｔ；Ｌｏｎｄｏｎ：ＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒｓ，２００３Ｂｒｉｔａｎａｋ，Ｖ．；Ｙｉｐ，Ｐ．Ｃ．；Ｒａｏ，Ｋ．Ｒ．：ＤｉｓｃｒｅｔｅＣｏｓｉｎｅａｎｄＳｉｎｅＴｒａｎｓｆｏｒｍｓ：ＧｅｎｅｒａｌＰｒｏｐｅｒｔｉｅｓ，ＦａｓｔＡｌｇｏｒｉｔｈｍｓａｎｄＩｎｔｅｇｅｒＡｐｐｒｏｘｉｍａｔｉｏｎｓ．Ａｍｓｔｅｒｄａｍ；ｕ．ａ．：Ｅｌｓｅｖｉｅｒ，２００７Ｂｕｒｒｕｓ，Ｃ．Ｓ．；Ｐａｒｋｓ，Ｔ．：ＤＦＴ／ＦＦＴａｎｄＣｏｎｖｏｌｕｔｉｏｎＡｌｇｏｒｉｔｈｍｓ：ＴｈｅｏｒｙａｎｄＩｍｐｌｅｍｅｎｔａｔｉｏｎ．ＮｅｗＹｏｒｋ：ＪｏｈｎＷｉｌｅｙ＆ＳｏｎｓＬｔｄ．，１９８５Ｃｈｅｎｇ，Ｃ．：ＭｅｔｈｏｄｆｏｒＥｓｔｉｍａｔｉｎｇＭａｇｎｉｔｕｄｅａｎｄＰｈａｓｅｉｎｔｈｅＭＤＣＴＤｏｍａｉｎ．Ｉｎ：ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１１６，Ｍａｉ２００４Ｄｏｌｓｏｎ，Ｍ：ＴｈｅＰｈａｓｅＶｏｃｏｄｅｒ：ＡＴｕｔｏｒｉａｌ．Ｉｎ：ＣｏｍｐｕｔｅｒＭｕｓｉｃＪｏｕｒｎａｌ１０（１９８６），Ｎｒ．４Ｅｋｓｔｒａｎｄ，Ｐ．：ＢａｎｄｗｉｄｔｈＥｘｔｅｎｓｉｏｎｏｆＡｕｄｉｏＳｉｇｎａｌｓｂｙＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ１ｓｔＩＥＥＥＢｅｎｅｌｕｘＷｏｒｋｓｈｏｐｏｎＭＰＣＡ，Ｌｅｕｖｅｎ，Ｂｅｌｇｉｕｍ．Ｂｄ．１，Ｎｏｖｅｍｂｅｒ２００２Ｆａｓｔｌ，Ｈ．；Ｚｗｉｃｋｅｒ，Ｅ．：Ｐｓｙｃｈｏａｃｏｕｓｔｉｃｓ：ＦａｃｔｓａｎｄＭｏｄｅｌｓ．３．Ａｕｆｌａｇｅ．Ｂｅｒｌｉｎ；Ｈｅｉｄｅｌｂｅｒｇ；ＮｅｗＹｏｒｋ：Ｓｐｒｉｎｇｅｒ，２００７Ｊｏｒｄａｎ-Ｅｎｇｅｌｎ，Ｇ．；Ｒｅｕｔｔｅｒ，Ｆ．：ＮｕｍｅｒｉｓｃｈｅＭａｔｈｅｍａｔｉｋｆｕｅｒＩｎｇｅｎｉｅｕｒｅ．２ｎｄｒｅｖｉｓｅｄｅｄｉｔｉｏｎ．Ｍａｎｎｈｅｉｍ：ＢｉｂｌｉｏｇｒａｐｈｉｓｃｈｅｓＩｎｓｔｉｔｕｔ，１９７８Ｋｉｅｎｃｋｅ，Ｕ．；Ｊａｅｋｅｌ，Ｈ．：ＳｉｇｎａｌｅｕｎｄＳｙｓｔｅｍｅ．３ｒｄｒｅｖｉｓｅｄｅｄｉｔｉｏｎ．Ｍｕｅｎｃｈｅｎ；Ｗｉｅｎ：ＯｌｄｅｎｂｕｒｇＶｅｒｌａｇ，２００５Ｌａｒｓｅｎ，Ｅ．；Ａａｒｔｓ，Ｒ．Ｍ．：ＡｕｄｉｏＢａｎｄｗｉｄｔｈＥｘｔｅｎｓｉｏｎ：ＡｐｐｌｉｃａｔｉｏｎｏｆＰｓｙｃｈｏａｃｏｕｓｔｉｃｓ，ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇａｎｄＬｏｕｄｓｐｅａｋｅｒＤｅｓｉｇｎ．Ｃｈｉｃｈｅｓｔｅｒ：ＪｏｈｎＷｉｌｅｙ＆ＳｏｎｓＬｔｄ．，２００４Ｌｏｃｈｍａｎｎ，Ｄ．：ＤｉｇｉｔａｌｅＮａｃｈｒｉｃｈｔｅｎｔｅｃｈｎｉｋ：ＤｉｇｉｔａｌｅＭｏｄｕｌａｔｉｏｎｕｎｄＳｉｇｎａｌｖｅｒａｒｂｅｉｔｕｎｇ．Ｂｄ．１．Ｂｅｒｌｉｎ：ＶＢＥＶｅｒｌａｇＴｅｃｈｎｉｋ，１９９０Ｍａｌｖａｒ，Ｈ．Ｓ．：ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｗｉｔｈＬａｐｐｅｄＴｒａｎｓｆｏｒｍｓ．Ｂｏｓｔｏｎ；Ｌｏｎｄｏｎ：ＡｒｔｅｃｈＨｏｕｓｅ，１９９２Ｍａｌｖａｒ，Ｈ．Ｓ．；Ｓｔａｅｌｉｎ，Ｄ．Ｈ．：ＴｈｅＬＯＴ：ｔｒａｎｓｆｏｒｍｃｏｄｉｎｇｗｉｔｈｏｕｔｂｌｏｃｋｉｎｇｅｆｆｅｃｔｓ．Ｉｎ：Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ３７（１９８９），Ａｐｒｉｌ，Ｎｒ．４Ｎａｇｅｌ，Ｆ．；Ｄｉｓｃｈ，Ｓ．：Ａｈａｒｍｏｎｉｃｂａｎｄｗｉｄｔｈｅｘｔｅｎｓｉｏｎｍｅｔｈｏｄｆｏｒａｕｄｉｏｃｏｄｅｃｓ．Ｉｎ：Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２００９．ＩＣＡＳＳＰ２００９．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，Ａｐｒｉｌ２００９Ｎａｇｅｌ，Ｆ．；Ｄｉｓｃｈ，Ｓ．；Ｗｉｌｄｅ，Ｓ．：Ａｃｏｎｔｉｎｕｏｕｓｍｏｄｕｌａｔｅｄｓｉｎｇｌｅｓｉｄｅｂａｎｄｂａｎｄｗｉｄｔｈｅｘｔｅｎｓｉｏｎ．Ｉｎ：ＡｃｏｕｓｔｉｃｓＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１０ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，Ｍａｅｒｚ２０１０Ｐｒｉｎｃｅｎ，Ｊ．；Ｂｒａｄｌｅｙ，Ａ．：Ａｎａｌｙｓｉｓ／Ｓｙｎｔｈｅｓｉｓｆｉｌｔｅｒｂａｎｋｄｅｓｉｇｎｂａｓｅｄｏｎｔｉｍｅｄｏｍａｉｎａｌｉａｓｉｎｇｃａｎｃｅｌｌａｔｉｏｎ．Ｉｎ：Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ３４（１９８６），ｏｃｔ，Ｎｒ．５Ｐｒｉｎｃｅｎ，Ｊ．；Ｊｏｈｎｓｏｎ，Ａ．；Ｂｒａｄｌｅｙ，Ａ．：Ｓｕｂｂａｎｄ／Ｔｒａｎｓｆｏｒｍｃｏｄｉｎｇｕｓｉｎｇｆｉｌｔｅｒｂａｎｋｄｅｓｉｇｎｓｂａｓｅｄｏｎｔｉｍｅｄｏｍａｉｎａｌｉａｓｉｎｇｃａｎｃｅｌｌａｔｉｏｎ．Ｉｎ：Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩＣＡＳＳＰ ’８７．Ｂｄ．１２，Ａｐｒｉｌ１９８７Ｒａｏ，Ｋ．Ｒ．；Ｙｉｐ，Ｐ．Ｃ．：ＴｈｅＴｒａｎｓｆｏｒｍａｎｄＤａｔａＣｏｍｐｒｅｓｓｉｏｎＨａｎｄｂｏｏｋ．Ｌｏｎｄｏｎ；ＮｅｗＹｏｒｋ；Ｗａｓｈｉｎｇｔｏｎ，Ｄ．Ｃ．：ＣＲＣＰｒｅｓｓ，２００１Ｓｃｈｕｌｌｅｒ，Ｇ．Ｄ．Ｔ．；Ｓｍｉｔｈ，Ｍ．Ｊ．Ｔ．：Ｎｅｗｆｒａｍｅｗｏｒｋｆｏｒｍｏｄｕｌａｔｅｄｐｅｒｆｅｃｔｒｅｃｏｎｓｔｒｕｃｔｉｏｎｆｉｌｔｅｒｂａｎｋｓ．Ｉｎ：ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ４４（１９９６），Ａｕｇｕｓｔ，Ｎｒ．８Ｗｅｉｎｚｉｅｒｌ，Ｓ．：ＨａｎｄｂｕｃｈｄｅｒＡｕｄｉｏｔｅｃｈｎｉｋ．Ｂｅｒｌｉｎ；Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２００８Ｗｉｌｄｅ，Ｓｔｅｐｈａｎ：ＥｎｔｗｉｃｋｌｕｎｇｖｏｎＺｅｉｔｂｅｒｅｉｃｈｓｖｅｒｆａｈｒｅｎｚｕｒＢａｎｄｂｒｅｉｔｅｎｅｒｗｅｉｔｅｒｕｎｇｖｏｎＡｕｄｉｏｓｉｇｎａｌｅｎ，Ｆｒｉｅｄｒｉｃｈ-Ａｌｅｘａｎｄｅｒ-ＵｎｉｖｅｒｓｉｔａｅｔＥｒｌａｎｇｅｎ-Ｎｕｅｒｎｂｅｒｇ，ｄｉｓｓｅｒｔａｔｉｏｎ，２００９Ｙｏｓｔ，Ｗ．Ａ．：ＦｕｎｄａｍｅｎｔａｌｓｏｆＨｅａｒｉｎｇ：ＡｎＩｎｔｒｏｄｕｃｔｉｏｎ．３ｒｄｅｄｉｔｉｏｎ．ＳａｎＤｉｅｇｏ；ＮｅｗＹｏｒｋ；Ｂｏｓｔｏｎ；Ｌｏｎｄｏｎ；Ｓｙｄｎｅｙ；Ｔｏｋｙｏ：ＡｃａｄｅｍｉｃＰｒｅｓｓ，１９９４Ｚｏｅｌｚｅｒ，Ｕ．：ＤｉｇｉｔａｌｅＡｕｄｉｏｓｉｇｎａｌｖｅｒａｒｂｅｉｔｕｎｇ．３ｒｄｒｅｖｉｓｅｄａｎｄｅｘｔｅｎｄｅｄｅｄｉｔｉｏｎ．Ｓｔｕｔｔｇａｒｔ；Ｌｅｉｐｚｉｇ；Ｗｉｅｓｂａｄｅｎ：Ｔｅｕｂｎｅｒ，２００５

オーディオ信号の符号化に望まれるのは、必要とされるデジタルデータのメモリスペース、またはそのデータを送信するのに必要とされる帯域幅、を最小化することである。同時に、再生されるオーディオ信号の知覚される品質は、ＣＤの標準規格と同等であるべきである（１６ビットの量子化深度における標本化周波数４４１００Ｈｚ）。したがって、品質は、低データ速度で最大化されることになる。

本発明は、サブバンド領域における自由に選択可能な周波数偏移に関する概念の改善を提供することを目的とする。

本発明の目的は、請求項１に記載の装置により、請求項２３に記載の方法により、および、請求項２４に記載のコンピュータプログラムにより、達成される。

オーディオ入力信号に基づいて、周波数偏移したオーディオ信号を生成する装置が提供される。オーディオ入力信号は、複数の第１サブバンドに対して、１または複数の第１のブバンド値により表される。この装置は、インターフェースと周波数偏移部とを備える。インターフェースは、オーディオ入力信号を受信するように構成されている。周波数偏移部は、周波数偏移したオーディオ信号を生成するように構成され、この周波数偏移されたオーディオ信号は、複数の第２サブバンドに対して１または複数の第２サブバンド値を各々含む。加えて、第１サブバンド値と第２サブバンド値とは各々、それぞれの位相角に関する情報を含む。周波数偏移部は、第２サブバンド値の１つを、第１サブバンド値の１つに基づいて、当該第２サブバンド値の第２位相角の当該第１のサブバンド値の第１位相角からの位相角差が、周波数偏移したオーディオ信号を得るためにオーディオ入力信号を偏移されるべき周波数差を示す周波数情報に依存し、第１のサブバンドの１つの周波数帯域幅に依存するように生成する。

実施形態は、帯域幅拡張のための改善された概念を提供し、これらの改善された概念は、ここでは、「高調波スペクトル帯域拡張」または「ＨＳＢＥ」と呼ばれる。周波数領域におけるこの開発された高調波帯域幅拡張により、好ましくないアーティファクトの抑圧が可能になる。ここで複製されるスペクトルは、オリジナルの高調波構造が保持されるように変調される。他の方法とは対照的に、ＨＳＢＥは、ＭＤＣＴ領域における信号表現に基づくことができ、したがって、効率的な実現が可能になる。後続の変調によりスペクトル値をコピーするプロセスにより、高調波的に正しい帯域幅拡張が達成される。

一実施形態では、オーディオエンコーダにおいて既に通常実現されているＭＤＣＴのサブバンド領域が使用される。このようにして、変換が追加の複雑性または遅延を引き起こすことはない。

信号がサブバンド帯域幅の偶数の整数倍だけ偏移させられるとき、実施形態では、より低い周波数のサブバンド信号は、対応するより高い周波数帯域に偏移させられる。

信号がサブバンド帯域幅の奇数の整数倍だけ偏移させられるとき、実施形態では、コピーされることになるサブバンド信号の全ての第２標本値に、逆の符号（時間の方向における、ブロックインデックスの増加）が提供される。このように、ＭＤＣＴフィルタバンクのエイリアシング消去特性は、周波数偏移したコピー信号に対して依然として作用する。

より低い周波数の信号がサブバンド帯域幅の整数ではない倍数だけ偏移させられるときに、実施形態では、より低い周波数のサブバンドの複素数値のバージョンが生成され、これらのコピーが行われ、これらは、複素指数関数により変調（乗算）される。ここで、この複素指数関数は、サブバンド帯域幅の次の整数倍の周波数の差に対応する周波数である（これは、断片化されたサブバンド帯域幅偏移である）。しかし、ＭＤＣＴフィルタバンクのエイリアシング補償特性は、これにより影響を受け、または破壊される。

結果として生じる周波数の歪みを防ぐ、または削減するために、隣接するサブバンド信号間での畳み込み様の処理が行われ、１つのサブバンド信号の重み付けされたバージョンが、その隣接のサブバンドのサブバンド信号に追加される。これにより、逆符号のエイリアシング成分が提示され、これにより、エイリアシングが補償または削減される。１つの実施形態では、ここでの重みは、重みが所望の断片化された周波数偏移に対応するように選ばれる。

スペクトルの変調は、ＭＤＣＴのＴＤＡＣ特性に違反し、結果としてエイリアシング成分となる。これらをなくすために、実施形態では、エイリアシング消去のためのＦＩＲフィルタ構造が提供される。このために必要とされるフィルタインパルス応答は、連続近似により最適化され、例えば、ルックアップテーブルとして記憶される。

しかし、ここで提示した概念の適用性に関して、符号化プロセスを適応する必要はなく、すなわち、例示的には、心理音響モデルを適用することにより、データを圧縮する必要はない。

提供される概念は、既に存在する帯域幅拡張方法に基づき、これを改善する。この新規の方法を使用して、一定の記憶要件とともに、再生されるオーディオ素材の品質を向上させることが可能である。ここでの符号化プロセスは影響を受けないが、デコーダがさらに開発される。開発された方法は、高調波帯域幅拡張を実現する。これは、ＨＥ−ＡＡＣ技術において使用されるような、スペクトル帯域複製（ＳＢＲ）に基づく。

提供される、発明の効率的なスペクトル帯域複製の概念は、オリジナルのスペクトルの高調波構造を保持するため、既知のＳＢＲ技術で生じるアーティファクトを削減する。

高調波スペクトル帯域拡張（ＨＳＢＥ）に関する概念が提供される。効率性が重要な役割を果たすことから、基礎となる信号処理が、ＦＩＲフィルタによりアーティファクトを抑圧するために使用されるフィルタバンクから始まって、説明される。

ここで提示する高調波スペクトル帯域拡張は、オーディオ信号の帯域制限されたスペクトルの高調波構造を持続したまま、オーディオ信号の帯域制限されたスペクトルを拡張する強力で効率的な方法を提供する。

スペクトルを高調波的に正しい方法で連続させるために、高調波スペクトル帯域拡張に関するいくつかの問題に留意すべきであることを示す。スペクトルの高調波構造を再構築するためのいくつかの方法が知られている場合でさえ、それでもなお、新規でさらに効率的な技術を開発することが有用である。特に、ＡＡＣまたはＵＳＡＣのような、現在のオーディオエンコーダ構造における統合に対して、そこでの一般的な条件への適応は不可欠である。

連続的な高調波スペクトル帯域拡張の本質的な要件が、発生するスプリアス成分を抑圧する。これは、まさに、このために設計されたエイリアシング消去の機能および最適化のモードが、ここで重点を置かれる理由である。適切なＦＩＲフィルタを選択することにより、不要な信号部分を大きく削減できることが示される。したがって、従来のフィルタリングとは対照的に、これは、フィルタインパルス応答を使用して折り畳まれる時間信号ではなく、複素ＭＤＣＴ／ＭＤＳＴ係数である。この方法が、生じている全てのエイリアシング成分を消去できない場合でさえ、わずかな支配的なスプリアス部分をなくすことで十分である。

これとは別に、ＭＤＣＴ係数のＭＤＳＴスペクトル値への変換は、高調波スペクトル帯域拡張の別の重要な要素である。現代のオーディオエンコーダは、ＭＤＣＴ領域において排他的に動作する。信号は、そのスペクトル表現で、十分に正確に記述されるが、それでもなお、この情報は、ＨＳＢＥを使用してスペクトルを複製するのに十分ではない。必要とされる位相の形は、追加のＭＤＳＴ係数のみにより修正できる。ここで変換が導入され、変換により、一定の遅延を使用して、既知のＭＤＣＴ値から可能な限り効率的に、欠落しているＭＤＳＴ係数を計算することが可能になる。正確な解とは別に、誤差が出やすいが、リソースを節約する代替策を提示する。

スペクトルの変調はＨＳＢＥとともに重要である。スペクトルの効率的な複製のために２つのステップが有用であることを示す。一方で、スペクトルが整数のＭＤＣＴサブバンドだけ偏移し、他方で、ＭＤＣＴサブバンドの帯域幅内の変調は、微細な分解能のために行われる。ＣＤ品質の信号にとって、この技術により達成される分解能は約０．５Ｈｚである。これは、スペクトルの高調波構造が高度に正確に複製されることがあることを意味する。

変調の決定に必要とされるラグ周波数は、典型的には、エンコーダにより提供される。

実施形態では、周波数偏移した信号を生成するために、装置または方法またはコンピュータプログラムが提供され、サブバンドの分解が使用され、断片化されたサブバンド帯域幅偏移に対して、サブバンドに、複素指数関数が乗算される。

実施形態では、隣接するサブバンド信号間でバタフライ処理を行うことにより、エイリアシング成分が補償され、または、少なくとも削減される。

さらなる実施形態では、オーディオ符号化システムのサブバンド領域において、周波数偏移が行われる。

実施形態では、オーディオ符号化システムにおいて信号の欠落した周波数部分および／または信号の周波数表現のスペクトルホールを満たすために、周波数偏移が使用される。

実施形態では、再生スピードを変化させ、ピッチを同じままとする標本速度コンバージョンと組み合わせて、周波数偏移が使用される。

典型的には、最初に周波数偏移により周波数を増やし、その後に再生スピードを減らすと、ある量のオーディオデータの再生時間は、一定のピッチで長くなる。他方、典型的には、最初に周波数偏移により周波数を減らし、その後にある量のオーディオデータの再生時間を増やすと、再生時間は一定のピッチで短くなる。

さらなる実施形態では、音楽信号の微細な調節のための概念が使用される。例示的に、提供される概念は、オーディオチューンにとって特に有益な方法で使用されてもよい。例えば、デジタル音楽信号の小さなピッチ変化のみが実現されることになるとき、すなわち、典型的に、周波数変化がサブバンドの帯域幅より小さくなる、例えば、ＭＤＣＴまたはＱＭＦサブバンドより小さくなるときに、提供される概念は特に有益である。

実施形態によると、概念は、スペクトルのより小さい周波数部分をコピーする、または周波数偏移することにより、より高い周波数のスペクトルを生成するために使用される。

実施形態では、サブバンドの分解は修正離散余弦変換（ＭＤＣＴ）である。

さらなる実施形態では、サブバンドの分解は多相直交ミラーフィルタバンク（ＱＭＦ）である。

先の実施形態において提供された概念は、とりわけ、システム、装置の双方、または方法またはコンピュータプログラムとして実現される。

高調波スペクトル帯域拡張の実行可能な実現は、提供および開発されるアルゴリズムおよび機能原則に基づいて形成されている。Ｍａｔｌａｂあるいはプログラミング言語Ｃまたは別のプログラミング言語でのリアルタイムの実現が可能である。これは、提供された概念がリアルタイムシステムにおいて適用されてもよいことを意味する。再生される信号の品質は、これらの方法を使用すると増加すると予想され、ＳＢＲについても同様である。

提供される概念にしたがったスペクトルの変調の複雑性を解析することにより、非常に良好な値がもたらされる。ここでの計算の複雑性は、ＭＤＣＴ−ＭＤＳＴ変換に大きく依存する。

加えて、オーディオ入力信号に基づいて、周波数偏移されたオーディオ信号を生成するための方法が提供され、ここで、オーディオ入力信号は、複数の第１サブバンドに対して、１または複数の第１サブバンド値により表される。

方法は、オーディオ入力信号を受信し、周波数が偏移したオーディオ信号を、複数の第２サブバンドに対して１または複数の第２サブバンド値を各々含む信号として生成することを含み、ここで、第１サブバンド値と第２サブバンド値とは各々、それぞれの位相角に関する情報を含み、第２サブバンド値の１つを、第１サブバンド値の１つに基づいて、当該第２サブバンド値の第２位相角の当該第１サブバンド値の第１位相角からの位相角差が、周波数偏移したオーディオ信号を得るためにオーディオ入力信号を偏移させるべき周波数差を示す周波数情報に依存し、第１サブバンドの１つの周波数帯域幅に依存する位相角差となるように生成する。

さらに、コンピュータプログラムがコンピュータまたは信号プロセッサにおいて実行されるときに、先の方法を行うためのコンピュータプログラムが提供される。

好ましい実施形態は従属請求項にて説明する。

好ましい実施形態は以下で図面を参照して説明する。

一実施形態に係る帯域幅拡張のための装置を示す。実施形態に係る装置を示し、ここで、装置は、周波数が広げられたオーディオ信号を生成するように構成されている。一実施形態に係るＨＳＢＥ−ＨＦの概略図である。一実施形態に係る周波数偏移したオーディオ信号を生成するための装置３００を示す。一実施形態に係るＭＤＣＴ−ＭＤＳＴ変換行列の推定を示す。一実施形態に係るＭＤＣＴ−ＭＤＳＴ変換行列の推定を示す。一実施形態に係るＭＤＣＴ−ＭＤＳＴ変換行列のインパルス応答を示す。白色雑音に対するＭＤＳＴスペクトルの推定を示す。一実施形態に係るＨＳＢＥによる高調波構造を示す。一実施形態に係る拡張されたＨＳＢＥ−ＨＦ再構築の図を示す。 φ＝４５度に対するエイリアシング成分を示す。 φ＝９０度に対する、一実施形態に係るアンチエイリアシングフィルタのフィルタインパルス応答を示す。一実施形態に係るφ＝９０度に対するアンチエイリアシングフィルタリングの正弦波信号への影響を示す。一実施形態に係るエイリアシング削減に対するバタフライ構造を示す。一実施形態に係るＨＳＢＥ−ＬＰＣの包絡線適応化を示す。ＨＳＢＥにおける変調およびアンチエイリアシングフィルタリングの複雑性を示す。高速ＭＤＣＴ／ＭＤＳＴの複雑性を示す。ＭＤＣＴ−ＭＤＳＴ変換の複雑性の図を示す。変換長に依存したＨＳＢＥにおける残余の障害を示す。ＨＳＢＥとＳＢＲとの比較を示す。高速ユニバーサルＤＣＴ−ＩＩＩ／ＤＳＴ−ＩＩＩ構造を示す。高速ＤＣＴ−ＩＶ構造を示す。時間的マスキングの概略図を示す。人間の聴覚における周波数依存マスキングの概略図である。心理音響オーディオエンコーダのブロック回路図を示す。心理音響オーディオエンコーダのブロック回路図を示す。ｎ_ｄ個の標本のシステム遅延を有するフィルタバンクを示す。多相フィルタバンクを示す。帯域幅拡張のカテゴリーを示す。拡張ＳＢＲエンコーダのブロック回路図を示す。ＳＢＲにより拡張されたデコーダのブロック回路図を示す。ＳＢＲ−ＨＦ再構築の概略図である。ＳＢＲによる高調波構造の破壊を示す。ＨＢＥ−ＨＦ再構築の概略図である。ＨＢＥによる高調波構造を示す。ＣＭ−ＢＷＥ−ＨＦ再構築の概略図である。ＣＭ−ＢＷＥによる高調波構造を示す。

図１Ａは、周波数偏移したオーディオ信号をオーディオ入力信号に基づいて生成する装置１００を示す。オーディオ入力信号は、複数の第１サブバンドに対して、ここでは１または複数の第１サブバンド値により表される。この装置は、インターフェース１１０および周波数偏移部１２０を備える。インターフェース１１０は、オーディオ入力信号を受信するように構成されている。周波数偏移部１２０は、周波数偏移したオーディオ信号を生成するように構成され、周波数偏移オーディオ信号は、複数の第２サブバンドに対して、１または複数の第２サブバンド値をそれぞれ含む。加えて、第１および第２サブバンド値のそれぞれは、それぞれの位相角に関する情報を含む。周波数偏移部１２０はさらに、第２サブバンド値の１つを、第１サブバンド値に基づいて生成するように構成される。このとき、第２サブバンド値の第２位相角が、第１サブバンドの第１位相角と、ある位相角差だけ異なるようにする。この位相角差は周波数情報に依存し、この周波数情報の示す周波数差により、オーディオ入力信号が偏移させられる。すなわち、例えば、周波数情報の示す周波数差により、オーディオ入力信号のサブバンドの第１サブバンド値が、周波数偏移したオーディオ信号を得るために偏移させられる。位相角差は、第１サブバンドの１つの周波数帯域幅に依存する。

いくつかの実施形態では、インターフェースは、オーディオ入力信号のサブバンドの第１サブバンド値が偏移させられることになる周波数差を示す周波数情報を受信するように構成される。

図１Ｂは、一実施形態に係る装置１５０を示す。この装置１５０は、周波数が拡張されたオーディオ信号（周波数拡張オーディオ信号）を生成するように構成されている。ここで示す装置１５０は、装置１５０が周波数偏移したオーディオ信号の第２サブバンド値を生成することにより、周波数拡張オーディオ信号を生成するように構成されている。周波数拡張オーディオ信号は、オーディオ入力信号の第１サブバンド値および周波数偏移したオーディオ信号の第２サブバンド値を含む。

実施形態に係る帯域幅拡張の概念を以下に紹介する。この概念は、高調波スペクトル帯域拡張（ＨＳＢＥ）と呼ばれる。これは、ほとんど、ＳＢＲの利点と連続的な単一側波帯変調の利点とを組み合わせた概念である。これは、ＭＤＣＴ領域における信号表現に基づく。したがって、ＨＳＢＥは、ＳＢＲにおいて行われているように、追加のＱＭＦフィルタバンクを使用することなく、ＨＥ−ＡＡＣまたはＵＳＡＣのような、現在のオーディオエンコーダに直接統合されてもよい。時間領域方法とは対照的に、高分解能ＤＦＴが計算されることになり、解析信号は必要とされない。

高調波スペクトル帯域拡張の機能の形態を以下に論じる。高調波スペクトル帯域拡張は、ＨＦ部を発生させるために、ベースバンドのコピーを使用する。ベースバンドは、コピープロセスを使用して、高周波数領域に複製される。ある高調波サブトーンが欠落しているギャップがコピーにより形成されるＣＭ−ＢＷＥとは対照的に、ＨＳＢＥにおけるベースバンドの偏移は拡張される。ベースバンドは、この場合も、最初に上方向にコピーされ、これにより、０Ｈｚの周波数がｆ_ｇとなる。したがって、ベースバンド内の周波数ｆ＜ｆ_ｇの最後の高調波と周波数ｆ_ｇとの間に形成されるギャップは、コピーされたベースバンドを再度下方向に偏移させ、高調波構造が再度連続的になるようにすることで補償される。したがって、時間領域方法におけるような、高調波サブトーンをスキップすることにより生じるギャップは回避される。ここでの帯域幅拡張プロセスは２つの部分からなる。一方の部分は、ＭＤＣＴ領域におけるコピープロセスにより実現される。低周波数ＭＤＣＴ係数は、単純なコピーにより複製される。帯域幅拡張の他方の部分、すなわち高調波構造の保持は、位相を操作することにより得られる。したがって、位相情報は、このステップのために存在する必要がある。高調波スペクトル帯域拡張は、基本的に純粋な実ＭＤＣＴ係数を使用して動作する。これは、位相情報を変更するために、複素スペクトルへの変換が行われることを意味する。これは、ここで提供されるＭＤＣＴ−ＭＤＳＴ変換により達成される。

ベースバンドの高周波数が、適応中に複製された帯域の周波数と重複しないように、ＨＦ帯域はハイパスフィルタリングを受ける。信号をＭＤＣＴ係数として表すので、望ましくない係数は零に設定されてもよいことから、このフィルタリングは非常に単純である。しかし、このタイプの偏移は、合成された信号の帯域制限を引き起こす。これは、ＨＦ帯域再構築後に、オリジナルの最大信号周波数ｆ_ｍａｘを得ることができず、周波数ｆ_ｓｙｎのみであることを意味する。ｆ_ｍａｘとｆ_ｓｙｎとの間に生じているギャップは、必要な場合には、雑音で満たされてもよい。

図２は、高調波の適応を含むコピープロセスの概略図である。したがって、図２は、ＨＳＢＥ−ＨＦ再構築の概略図である。図２において、左図は、ベースバンドのコピーおよび偏移を示す。図２において、右図は、スペクトル包絡線の適応後のスペクトルを示す。

位相に必要な適応は、信号における追加のスプリアス成分の原因となる。これらは、開発された、複素ＭＤＣＴ／ＭＤＳＴスペクトル値のアンチエイリアシングフィルタリングにより抑圧される。最後に、包絡線は、適切な方法により、包絡線のオリジナルの方向に適応される。

図３は、ＨＳＢＥデコーダ、すなわち、上述の手順によりもたらされるＨＳＢＥにより拡張されたデコーダを示す。

図３は、一実施形態に係る周波数偏移オーディオ信号生成装置３００を示す。１つの実施形態では、これは、ＨＳＢＥデコーダ、すなわち、ＨＳＢＥにより拡張されたデコーダである。

装置３００は、インターフェース３１０および周波数偏移部３２０を備える。

ＭＤＣＴ／ＭＤＳＴ変換部３１５が、インターフェース３１０と周波数偏移部３２０との間に設けられる。さらに、装置３００は、フィルタ部３３０を備える。さらに、装置３００は、典型的にはフィルタバンクの形態で、合成変換部３４０と、包絡線適応部３５０とを備える。さらに、図３の実施形態における装置３００は、τおよびφを計算する計算部を備える。

ＭＤＣＴ／ＭＤＳＴ変換部３１５は、オーディオ入力信号の１または複数の第１のＭＤＣＴ係数、すなわちオーディオ入力信号の修正離散余弦波変換の係数を得るように構成される。ＭＤＣＴ／ＭＤＳＴ変換部３１５は、例えばインターフェース３１０から、これらの第１のＭＤＣＴ係数を得ることができる。

ＭＤＣＴ／ＭＤＳＴ変換部３１５は、オーディオ入力信号の１または複数の第１のＭＤＣＴ係数に基づいて、オーディオ入力信号の１または複数の第１のＭＤＳＴ係数、すなわち修正離散正弦波変換の係数を決定するように構成されている。

次に、周波数偏移部３２０は、第１サブバンド値のそれぞれの１つに基づいて、第２サブバンド値を生成するように構成され、第１サブバンド値のそれぞれは、第１のＭＤＣＴ係数のうちの１つに基づいており、第１のＭＤＳＴ係数のうちの１つは、この第１のＭＤＣＴ係数に基づいて決定されている。

ここで示す装置３００の構造は、典型的にはＨＳＢＥデコーダとして実現され、実装されるアルゴリズムに依存する。他の環境でこのデコーダを使用するときには、周波数領域において包絡線の再構築を行う必要があるかもしれない。その場合の対応ブロックは、ＭＤＣＴ／ＭＤＳＴ合成フィルタバンクの前に直接設けられる。ＳＢＲで使用される調性適応のような、さらなるコンポーネントもまたここに挿入されてもよい。ただし、これらは、高調波スペクトル帯域拡張の機能の一般モードに影響するものではない。

実施形態に係るＭＤＣＴ領域で符号化された信号の復号化プロセスもまた、図３から得られる。スペクトルのいくつかの部分を所望のように偏移させるために、復号化されたＭＤＣＴ係数が、最初に、結合されたＭＤＣＴ／ＭＤＳＴ表現に変換される。これは、複素スペクトルの変調が、全ての第２サブバンドにおいてのみ、より大きなエイリアシング成分を生成することから、有用である。したがって、補償は、全ての第２サブバンドにおいてのみ必要であり、ここで、この補償は、提案されるエイリアシング補償方法を使用して行われる。

ＨＦ発生器は、所望の偏移にしたがって、ビットストリームによる復号化方法で、あるいは、デコーダにおいてまたは外部プロセスにより決定される復号化方法で、ＭＤＣＴ／ＭＤＳＴからの複素周波数入力を偏移させる。使用される変調項は以下の通りである。
ｂは、ブロックインデックスであり、φは、度数法での周波数偏移である（１８０度だけの周波数偏移は、次のサブバンドの中央への偏移に対応する）。

この後、エイリアシング削減が行われ、複素スペクトルが時間領域に逆再変換されて、再生される。

使用される変調項は、複素指数関数である。φは、度数法での角度であり、サブバンドの第１サブバンド値が偏移させられることになる周波数差に依存する。

ＭＤＣＴからＭＤＳＴへの変換を以下に論じる。

高調波構造を保持するための単一側波帯変調は、位相の操作を使用して、部分的に実現される。高調波スペクトル帯域拡張に関して、位相応答は本質的に重要である。既に論じてきたように、一般的にＨＳＢＥは実ＭＤＣＴ領域にて動作する。

エンコーダは、ＭＤＣＴ係数のみを利用可能にし、これにより、ＭＤＳＴ係数が位相応答に対してさらに必要とされる。ＭＤＣＴ係数の、対応するＭＤＳＴ係数への変換が可能であり、以下に論じる。

ＭＤＳＴの正確な計算を以下に論じる。

ＤＣＴにおけるように、ＭＤＣＴにおいて、信号中の正弦波部を計算するための対応する関数、すなわち修正離散正弦波変換（ＭＤＳＴ）がある。ＭＤＳＴに関して、ＭＤＣＴと同一の特性が適用されるが、オーディオ符号化で使用されることはほとんどない。

しかし、例えば、ＨＳＢＥのような、いくつかの適用に対して、信号のＭＤＳＴスペクトルを計算することは有用である。２つのスペクトルを合成することにより、正確な絶対値および位相スペクトルを得ることができる（非特許文献５）。

ＭＤＳＴは、ＭＤＣＴと同様に、数式２．３５にて計算される。変換行列および窓行列は、差を表す。ＤＳＴ−ＩＶの変調コアを使用して、ＭＤＳＴ変換行列が計算される（数式２．１８参照）。

ＤＳＴ−ＩＶと比較した、他の対称的性質およびＤＳＴ−ＩＶの他のエッジの連続性により、畳み込み行列はそれに応じて適応されなければならない。修正は、窓行列の第２象限および第４象限の正弦波の変化である。

これらの適応を使用して、ブロックに分割される信号ｘのＭＤＳＴは、以下のように計算される。

逆変換に関して、以下を適用する。

ＭＤＣＴスペクトルおよびＭＤＳＴスペクトルの合成から計算される複素変換関数は、例えば、位相応答を操作するために必要である。ＭＤＣＴスペクトルをＭＤＳＴ係数に変換するために実行される方法を以下に提示する。

平凡ではあるがその計算に関しては複雑な方法で、ＭＤＣＴ領域中の信号を時間領域に戻すように変換し、続いてＭＤＳＴを以下のように計算することである。

この計算を単純化して、必要とされる複雑性を削減する。そこで、最初に、多相行列Ｈを以下のように定義する。

行列Ｈの要素はそれぞれ、ｚにおける３次多項式からなる。この性質は、行列Ｈを３つの行列の加算として表現するために使用される。

３つのサブ行列Ｈ_０、Ｈ_１およびＨ_２は、結果的に効率的な計算になる特有の特性を示す。行列Ｈ_１は、要素０．５および−０．５を有する疎行列である。行列Ｈ_０とＨ_２との間には直接的な関連性があり、行列Ｈ_２がその第二の対角線に対してＨ_０の要素を反映する。これらの行列の正確な形および詳細な計算を以下に提示する。ブロック（ｂ−１）のＭＤＳＴスペクトルは、その場合、以下のように計算される。

ここで、下線付きで示すＸ（ｂ）は、下に波線付きで示す行列Ｘのｂ番目の列である。この数式から、１つのブロックの遅延が、ＭＤＳＴスペクトルの計算のために導入されることも認識される。ブロックｂのＭＤＳＴスペクトルが存在するときに、最初に、以前のブロックのＭＤＳＴスペクトルが利用可能である。この方法で得られるＭＤＳＴ係数を使用して、複素ＭＤＣＴ／ＭＤＳＴスペクトルから位相応答を計算してもよく、以前に論じたように、高調波構造を保持するために位相回転を使用して位相応答を操作してもよい。

簡潔化されたＭＤＳＴの計算を以下に論じる。

導出された方法にしたがってＭＤＳＴが大幅に簡潔化された場合でさえ、この変換の計算は、非常に大変である。加えて、行列を記憶するために、多数のメモリスペースが必要とされる。これは、変換のさらなる簡潔化が求められていることを意味する。

行列およびをさらに正確に解析するときに、注目すべきは、これらが零に近似する値を非常に多く含むことである。絶対値が最も大きい係数は、行列の主対角線に近い狭い領域に集中する。したがって、この方法で計算能力および蓄積要求の双方を節約するために、残りの係数を零に置換することが良いように思われる。さらに、対角線上の値は、非常に似ている。これらは、基本的に、符号が互いに異なるのみである。角に近い領域にだけ、より大きな値の係数がある。

簡潔化の目的のために、主対角線の上下の値が等しいと仮定する。これは、主対角線に関して、行列の軸対称性があることを意味する。簡潔化された行列が計算され、行列の値は行列の中央の列から取られる。したがって、主対角線の要素および主対角線の下にある任意の数のさらなる要素を含む領域が、中央の列から切り出される。この切り出されたセクターを下線付きのｈ［ｎ］で表す。その後、新規の行列の中央の列は、ｈ［ｎ］および主軸要素であるｈ_ｉｊに対するｈ［ｎ］の点対称から形成され、列の残りは零である。その後、簡潔化された行列の他の列は、この列のサイクリック偏移により形成される。２列目は全て符号が適応される。密行列を簡潔にするためのこれらの方法を使用して、下波線付きＨ′_０で表す疎行列が、非常に少数の係数を使用して決定される。対称的なテプリッツ様の構造が、この行列の特異性である。これは、主対角線に関してミラーリングされた、クリップされたインパルス応答ｈ［ｎ］の巡回偏移により形成される。

ここで、ｉは、行列の行のインデックスであり、ｊは、行列の列のインデックスであり、σは、セクターの長さを決定する窓インデックスである。このセクターの長さは常に２σ＋１となる。σ＝１およびＮ＝６に関して、行列Ｈ′_０の構造に以下が適用される。

留意すべきことは、１列目から開始して各次の列は全て−１が乗算されていることである。以下の検討では、窓インデックスσが変換長Ｎの約１０％に対応する、すなわち、σ＝「０．１・Ｎ」であるとする。これは、ｈ［ｎ］の値をミラーリングすることにより、変換行列に対するメモリ要求が２０％減少していることを意味する。

図４は、ＭＤＣＴ−ＭＤＳＴ変換行列の推定を表す。図４において、左図は、Ｎ＝６４に関する完全に占有された変換行列を示す。図４において、右図は、Ｎ＝６４に関する簡潔化された変換行列Ｈ′_０を示す。

図４において、左図は、完全に占有された変換行列Ｈ_０を示し、これに対して、右図は、対称的なテプリッツ様の構造における簡潔化された行列Ｈ′_０を示す。見て分かるように、Ｈ′_０の主対角線から離れた大部分の係数は、単純化に起因して、零に等しい。

図５は、ＭＤＣＴ−ＭＤＳＴ変換行列のインパルス応答を表す。特に、図５は、行列の３３番目の列のオリジナルのインパルス応答を示す（連続した線）。比較のために、さらに、コピープロセスおよびミラーリングにより形成されている新規の行列Ｈ′_０の対応するインパルス応答を示す。値のクリッピングアウト（切り抜き）は、窓インデックスσ＝６による矩形窓を使用して行われる。

この種のＭＤＣＴ−ＭＤＳＴ変換の簡潔化は、数式４．８の計算により形成されるような、正確なＭＤＳＴスペクトルは提供しない。行列Ｈ_０およびＨ_２の簡潔化が行われることにより、スペクトルに誤差が追加される。図６に示すように、これは、信号対雑音比のおおよそ−７０ｄＢの減少を引き起こす。図６は、白色雑音に関するＭＤＳＴスペクトルの推定を示す。ＭＤＳＴスペクトルの推定誤差は、スペクトルのエッジ領域において増加する。この効果は、主対角線の端に近い行列係数の正確でない推定が原因である。生成されるミラーは、ＨＳＢＥアルゴリズムのハイパスフィルタリングにより削減され、結果として、高周波数にのみ存在する。

周波数スペクトルの高調波構造の適応を以下に論じる。

ＨＳＢＥ方法の利点は、帯域幅拡張後に高調波構造を保持することである。言及してきたように、これは、複素ＭＤＣＴ／ＭＤＳＴ領域における位相操作により行われる。ここで、帯域幅Ｂ＝ｆ_ｍａｘ−ｆ_ｇのコピーされたスペクトル帯域を検討する。目的は、偏移後のこの帯域における第１高調波（例示的には周波数ｆ_Ｈ，ｎ＞ｆ_ｇを有する）が、周波数ｆ_Ｈ，α＜ｆ_ｇのベースバンド中の最高高調波の周波数になるように、スペクトルを下方向に偏移することである。周波数ｆ_Ｈ，ｎとｆ_Ｈ，αとの間の距離を、ラグ周波数ｆ_ｌａｇという。

高調波構造の適応は、この周波数を使用して調整される。この周波数は、ＭＤＣＴサブバンドの整数倍およびＭＤＣＴサブバンドの非整数倍としてそれぞれ表わされ、これにより、周波数帯域は下方向に偏移させられることになる。これにより、開発された方法の柔軟性を最大にできる。前述の条件を満たした後に、ベースバンドおよび偏移させられた帯域がオーバーラップしないように、ｆ_ｇより小さい離散周波数を有する全てのＭＤＣＴ係数が零に設定される。

図７は、音調信号に対するＨＳＢＥ方法の所望の結果の概略図である。ここで、図７は、ＨＳＢＥにおける高調波構造を示す。図７において、左図は、オリジナルのブロードバンドスペクトルを示す。図７において、右図は、ＨＳＢＥＨＦ再構築後のスペクトルを示す。

ここでは、オリジナルの高調波構造が保持される。複製された高周波数帯域のカットオフ周波数ｆ_ｇより小さい周波数への論じた偏移により、どの高調波サブトーンも、取り除かれてはいない。したがって、スペクトルの偏移は、変調周波数ｆ_ｍｏｄを使用した、ハイパスフィルタリングされたベースバンド信号の単一側波帯変調である解釈される。以下が適用される。

ここで、ＭＤＣＴ帯域の帯域幅の半分より大きい周波数ｆ_ｌａｇの場合、ｆ＝ｆ_ｍａｘに近いＭＤＣＴ係数が偏移により零になることに留意しなければならない。これらは、雑音により満たされてもよい。周波数ｆ_ｌａｇがＭＤＣＴ帯域の帯域幅の半分より小さいときには、零に設定されるＭＤＣＴ係数がないことから、これは必要ない。

非整数サブバンドの適応を以下で論じる。

ＭＤＣＴ帯域が高調波構造の連続的なサブトーンの周波数差と比較して高い帯域幅を含むときに、高調波構造の保持は複雑化する。ＭＤＣＴ帯域の帯域幅の整数倍である周波数のみを使用して変調を行うときに、高調波再構築の分解能は大きく制限され、結果として、微細な高調波構造を復元できない。そこで、高い変調精度を持たせるために、ベースバンドのスペクトルがＭＤＣＴ帯域の帯域幅の整数倍により変調されるだけでなく、ＭＤＣＴ帯域の帯域幅の分数によっても変調されることが必要である。

以下のアプローチを使用すると、ＭＤＣＴサブバンドの帯域幅内でスペクトルを偏移することが可能である。方法は、複素ＭＤＣＴ／ＭＤＳＴスペクトルの位相の修正に基づく。ここでの位相は、信号の時間的経過に依存して、正規化された周波数偏移φで回転させられる。この位相角の時間的回転により、非常に微細なスペクトルの偏移が可能になる。以下が適用される。

ここで、Ｘ（ｂ）は、複素行列
のｂ番目の列であり、φは、度数法での正規化された周波数偏移である。理論的に、φとしてどのような角度を使用してもよいが、実用上の理由から、値の範囲は大きく制限されて、区間
内となる。この区間を使用して、ＭＤＣＴ帯域の帯域幅をカバーする変調を計算することが可能である。正規化された周波数偏移を示された区間に設定することにより、スペクトルは、より高いまたはより低い周波数に向けて、ＭＤＣＴ帯域幅の半分ずつそれぞれ偏移させられる。

ｂおよびφに依存する複素指数関数
^°に関して、結果値が最初に計算される。φは、サブバンドの第１サブバンド値が偏移させられることになる角度であり、周波数差に依存する度数法での角度である。その後、決定されるべき第２サブバンド値が、Ｘ（ｂ）内の第１サブバンド値の１つに結果値を乗算することにより確立される。

整数のサブバンドの適応を以下で論じる。

位相角φの値の制限範囲が、導入された変調を用いて、スペクトルのＭＤＣＴ態域の帯域幅のほとんどにわたる偏移のみを許容する。ＭＤＣＴ帯域の帯域幅より大きいスペクトルの偏移については、その偏移が、２つの部分、すなわちＭＤＣＴ帯域の帯域幅の整数倍とその帯域幅の分数、に分割される。最初に、スペクトルは、数式４．１２にしたがって、ＭＤＣＴ帯域の帯域幅より小さい必要な周波数により変調され、その後、スペクトルは、整数のスペクトル値だけ偏移させられる。

続いて、ＭＤＣＴ帯域の帯域幅の倍数に正確に対応する偏移を検討する。この場合、位相角φ’があり、これは１８０度の整数倍である。したがって、整数のＭＤＣＴスペクトル値によるスペクトルの偏移は、整数でないサブバンドに関する先に導入された方法の特別な場合と考えてもよい。数式４．１２における複素変調関数を評価することにより、以下の結果が得られる。ブロックインデックスｂおよびφ’の積が１８０度の偶数の倍数である場合に、変調関数の結果は常に１であり、そうでない場合は−１である。これを知ると、整数のサブバンドの適応に関する数式４．１２における関数を評価する必要はなく、単純な場合分けで十分である。以下が適用される。
ここでは、以下の整数変調インデックスτを使用している。

ここで、Ｘ（ｂ，τ：Ｎ−１）は、この場合にも、複素行列
のｂ番目の列である。ただし、τで始まり最終要素Ｎまでのベクトル要素だけを用いることが異なる。このベクトル要素のクリッピングは、複素ＭＤＣＴ／ＭＤＳＴスペクトルの上述のハイパスフィルタリングに対応する。

変調の適用に関して、変調周波数は、ｆ_ｌａｇに依存して、変調インデックスτおよび位相角φに変換される。最初に、周波数ｆ_ｌａｇは標本化周波数ｆ_ｓの半分に正規化される。その後、ＭＤＣＴ帯域φ_ｌａｇにおける同等な偏移が確立され、変調インデックスτおよび位相角φが以下のように計算される。

２つの方法を組み合わせることにより、可変パッチ比を実現することが可能である。ここでのパッチ比は、可能な最大信号周波数ｆ_ｍａｘとベースバンドカットオフ周波数ｆ_ｇとの比である。例えば２：１のパッチ比は、ベースバンドの単一のコピーが確立および変調されることを表す（図２参照）。２：１より大きいパッチ比は、より低速レートまたは可変の転送速度により生じる。このような比は、ＣＭ−ＢＷＥ（先の説明を参照）に類似し、ベースバンドを複数回コピーおよび変調することにより実現される。ここでも留意しておくべきことは、ここで必要とされるラグ周波数が、２．５：１のパッチ比に関して図８に示すように、ベースバンドの各コピーでｆ_ｌａｇずつ増加させられることである。

図８は、拡張されたＨＳＢＥ−ＨＦ再構築の概略図を示す。図８において、左図は、ベースバンドのコピーおよび偏移を示す。図８において、右図は、スペクトル包絡線を適応した後のスペクトルを示す。

続いて、生じているスプリアス成分を抑圧するための概念を以下で説明する。ここで説明する概念は、典型的には、図３のフィルタ部３３０に適用される。

ＭＤＣＴ領域におけるスペクトルの変調は、容易には行うことができない。逆ＭＤＣＴにおける完全な再構築は、スペクトルの変調に起因して、もはや可能ではない。原因は、形成された時間領域のエイリアシング成分である。これらのスプリアス成分のエネルギーは、スペクトルの変調により再分散される。ＭＤＣＴのＴＤＡＣ特性はこのことにより乱され、もはや、逆変換によりこれらの成分を取り消すことはできない。この理由のために、逆ＭＤＣＴ後の変調信号を検討するときに、スプリアス成分がＤＦＴ絶対値周波数応答に見出される。φ＝０度およびτ＞０だけスペクトルを偏移するときに、これらのエイリアシング成分は、非常に低い振幅のみを表し、第１または最後のＭＤＣＴ帯域に位置する。その場合、成分を削減する必要はない。偏移因子φ≠０度の場合、形成されるスプリアス成分の振幅は、顕著に大きくなる。その場合、これらは明確に聞こえる。結果として、これらの成分は処理される。

図９は、φ＝４５度に関するエイリアシング成分を示す。ｙ_ｒｅｆはオリジナルの正弦波音調であり、ｙ_ｍｏｄはエイリアシング成分を含む変調された正弦波音調であり、説明のため、ＤＣＴ−ＩＶフィルタバンクを拡大して示す。

特に、図９は、φ＝４５度偏移した正弦波音調（ｙ_ｍｏｄ）の絶対値の周波数応答を示す。オリジナルの正弦波音調（ｙ_ｒｅｆ）の周波数は、１２番目のＭＤＣＴ帯域の中央に対応する。選択された位相角だけ高周波数に向かうＭＤＣＴ帯域の帯域幅の１／４により、スペクトル全体が変調される。図に示すように、８個の支配的なエイリアシング成分が、それぞれ、１２番目のＭＤＣＴ帯域の上下それぞれ２番目の帯域ごとに位置している。エイリアシング成分のこの特性はいずれの信号に対して適用される。この理由は、各信号が、正弦振動および余弦振動の重み付けされた合計に分解されるからである（先を参照）。これらのサブ振動のそれぞれに関して、数式４．１２にしたがって変調するときに、エイリアシング成分のこの特別なパターンが生じる。これを知ると、どのような信号からでも不要なスプリアス成分を無くすことのできる方法が開発される。したがって、これは、正弦波信号の変調により形成されるエイリアシング成分を解析および消去するのに十分である。

続いて、アンチエイリアシングフィルタリングに関する概念を提供する。

追加の信号部分が、ＴＤＡに関するブロックの時間的オーバーラッピングにより、周波数領域に形成される。これらは、周波数領域における偏移による逆変換において消去されないため、帯域幅拡張された信号のスペクトル中でスプリアス成分として存在する。ＭＤＣＴでは、これらのスプリアス成分は、ＦＦＴスペクトル（図９参照）においてピークとして認識でき、オーバーラップするＭＤＣＴ帯域の幾つかにおける部分の合計により、ＤＣＴ−ＩＶフィルタバンクの約１５ｄＢだけの低ストップ帯域減衰により示される。したがって、高分解能ＤＦＴスペクトルにおけるスプリアス成分のエネルギーは、複数のＭＤＣＴ帯域のエネルギーの合計とみなされる。

この関係により、ＭＤＣＴ領域においてスプリアス成分を減少させるフィルタが提供される。フィルタは、フィルタ係数により重み付けされた周波数値のシーケンシャルな合計に基づく。中央にある周波数値によるフィルタの拡張は、スプリアス成分が消去される周波数領域を表す。全ての支配的なエイリアシング成分に関して、それを最小化するフィルタ係数が必要とされる。フィルタは、周波数偏移φに依存する。以下が適用される。

ここで、ｈ（φ）は、ある位相角φに対する実アンチエイリアシングフィルタであり、Ｘ（ｂ）は、複素ＭＤＣＴ／ＭＤＳＴスペクトルである。ここでのフィルタリング（Ｘ_{ＡｎｔｉＡｌｉａｓ}（ｂ））後のスペクトルは、オリジナルスペクトルＸ（ｂ）よりも長い。これは、スペクトルが、変換長Ｎに再度対応するために、スペクトルが切り抜かれなければならないことを意味する。フィルタが決定および減衰するスペクトルのこの部分は、除去される。したがって、複素ＭＤＣＴ／ＭＤＳＴ領域における重畳の積の開始および終了の双方において、フィルタ長の半分による切り抜き（クリッピング）が行われる。

図１０では、φ＝９０度に関するアンチエイリアシングフィルタ（ＡＡＦ）のフィルタインパルス応答について見ることができる。単一正弦波音調の例を使用すると、示したフィルタを使用して、７個の支配的なエイリアシング成分の合計を消去することができる。３個の成分は、正弦波音調の周波数を下回る。正弦波音調の周波数にこれらの位置を対応させる、３次までの成分であるこれらの成分は、フィルタ係数（フィルタタップ）０、２および４により処理される。フィルタタップ８、１０、１２および１４は、正弦波音調を上回る周波数、すなわち、４次までの成分の周波数において、４個のスプリアス成分を消去する。一般的に、フィルタは１５個の係数を含み、２番目ごとの値は全て０に等しい。これは、２番目ごとの帯域においてのみ生じるエイリアシング成分についての、先の観察に対応する。

図１０のフィルタ係数は整然とした順序となっている。この順序では、零ではないフィルタ係数に続く全てのフィルタ係数が、零値となっている。

このようなフィルタ構造を使用して、どのような数のエイリアシング成分でも抑圧することが一般に可能である。４次までの成分を消去すれば十分である。これにより、少なくとも７０ｄＢの信号対雑音比を達成でき、これは、十分であると考えられる。加えて、高次のエイリアシング成分は、非常に大きい位相角φによってのみ目立つようになる。したがって、４次までの消去に対する制限は、エイリアシング消去に関して、達成可能なＳＮＲと計算の複雑性との間の良好な妥協である。

アンチエイリアシングフィルタの最適化を以下に論じる。

説明するエイリアシング消去の重要な要素は、使用されるアンチエイリアシングフィルタである。達成可能な個々のスプリアス成分の振幅の削減は、決定的に、適切なフィルタ係数の選択に依存する。したがって、可能な限り最高の抑圧が保証されるように、これらのフィルタを最適化する必要がある。ここで信頼できる方法は、連続近似によるフィルタ係数の数値の最適化である。

連続近似は、数値的な数学の反復的な方法であり、計算の問題をステップ単位で正確な解に近似するプロセスのことを指す。したがって、計算方法が繰り返し適用され、１つのステップの結果は、そのそれぞれの次のステップに関する開始値として使用される。結果のシーケンスは収束することになる。正確な解に関する許容誤差が最小であるときに、結果は、十分に正確な程度であると決定される（非特許文献９）。

最適化プロセスの開始時に、解析信号は、数式４．１２を使用して、ある位相角φにより変調される。解析信号は、先に引用された理由のために、正弦波音調である。音調の周波数は、理想的には、基礎となる標本化周波数の１／４である。この利点は、４次まで形成されるエイリアシング成分が、スペクトルのエッジに対して可能な限り最大の距離を表し、他のスプリアス成分と干渉しないことである。最適化の目的のために、３２標本のＭＤＣＴ変換長が理想である。次に続くのは、正弦波音調の周波数が、１６番目のＭＤＣＴ帯域の帯域中央に対応するということである。この変換長に対する制限は、複数の利点をもたらす。一方で、これは、ＭＤＣＴの計算の複雑性の減少を可能にする。他方、４次までのエイリアシング成分が、互いに最大距離で、干渉せずに生成される。これは、必要な信号のピーク認識に対して特に有益である。信号のピーク認識は、高分解能ＤＦＴの絶対値の周波数応答において抑圧されることになるエイリアシング成分を自動的に検出する。

解析信号の変調後に、エイリアシング成分は、交互に順次最適化される。これは、スプリアス成分が互いに影響することから、必要となる。ここで、次数は、最も弱い４次の成分から、最も支配的な１次の成分までである。これは、１次のエイリアシング成分が、可能な限り最大の減衰を受けることを保証する。直接成分、すなわち、エイリアシング成分が計算されることになるスペクトル値に関して、フィルタは「１」に設定される。この値は、最適化の間変更されない。

示した連続近似の原則にしたがって、実際の数値の最適化が行われる。このため、開始値は、最適化されるフィルタ係数に割り振られ、他の全ての係数は、直接的な成分を除いて、零のままである。その後、複素ＭＤＣＴ／ＭＤＳＴスペクトルは、このフィルタを使用して折り畳まれ、絶対値の周波数応答は、それぞれのスプリアス成分の減少に関して検査される。この場合であれば、フィルタ係数は、ステップサイズ設定に対応して増加させられる。この検査および増加方法は、このエイリアシング成分のさらに強い抑圧がもはや可能でなくなるまで繰り返される。その後、以降のフィルタ係数が同じ方法で処理され、既に最適化されたフィルタ係数は保持される。

エイリアシング成分の相互の影響により、実用的には、このプロセスは複数回反復される。フィルタ係数を増加させるステップサイズは、各反復のたびに減少する。これは、最適化フィルタの品質が各回ごとに増加することを意味する。位相角ごとにそれぞれ１つのフィルタからなる最適化フィルタセットのために、３回の反復で十分であることが示される。これにより、エイリアシング成分を＜−９０ｄＢに減少させることが可能になる。

図１１は、φ＝９０度に対する、アンチエイリアシングフィルタリングの正弦波信号への影響を示す。Ｘ_{Ａｌｉａｓ}は、φ＝９０度により変調された正弦波信号であり、Ｘ_{ＡｎｔｉＡｌｉａｓ}は、抑圧されたスプリアス成分を含むフィルタリングされた信号である。

図１１は特に、絶対値周波数応答における、φ＝９０度で変調された正弦波信号へのアンチエイリアシングフィルタリングの影響を示す。Ｘ_{Ａｌｉａｓ}は、変調信号のスペクトルであり、Ｘ_{ＡｎｔｉＡｌｉａｓ}は、対応する位相角に対して最適化フィルタを使用して折り畳まれた変調信号のスペクトルである。「ピーク認識」により特徴づけられるスペクトルのピークは、信号ピーク認識により検出されるエイリアシング成分であり、直接成分（左から４番目のピーク認識）を含んでいる。この例では、フィルタの数値の最適化は、スプリアス成分を、平均して−１０３ｄＢに削減する。

値の範囲にある各位相角に対するフィルタの設定は、１回確立すれば十分である。この場合、信号のフィルタリングのために、必要とされるフィルタをデータベースからロードしてもよい。

典型的には、フィルタのフィルタ係数を、位相角に依存して周波数偏移したオーディオ信号を生成する装置のデータベースまたは記憶装置から読み出すことができる。

図１２は、バタフライ構造を示す。重みは、連続近似により決定される。したがって、図１２は、サブバンドＸ_４に対するエイリアシング減少を示す（黒線）。同じ方法が、全ての修正されたサブバンドに対して、相応に行われることになる。Ｘ_４の変調により引き起こされるエイリアシング成分を削減するため、Ｘ_４は重みｗ_０〜ｗ_４が乗算され、サブバンド信号Ｘ_０、Ｘ_２、Ｘ_４、Ｘ_６およびＸ_８に加算されることになる。重みｗ_２は常に「１」に等しいことに留意しなければならない。

逆に、これは、サブバンドのうちの１つのフィルタリングされたサブバンド値を生成させるために、このサブバンドのフィルタリングされていないサブバンド値およびさらなる加数の合計が形成されなければならない（このサブバンドのフィルタリングされていないサブバンド値に適用される重み／フィルタ係数ｗ_２は、ｗ_２＝１である）ことを意味する。さらなる加数は重み付けされたサブバンド値であり、すなわち、他の重み／フィルタ係数により乗算されている／重み付けされている他のサブバンドのそれぞれの１つのサブバンド値である。

スペクトル包絡線の再構築を以下に論じる。

スペクトル包絡線の再構築は、ＬＰＣフィルタリングを使用して行われる。ここで、信号の音調部分は、エンコーダにおいて線形予測フィルタにより除去され、ＬＰＣ係数として個別に送信される。これに必要とされるフィルタ係数は、レビンソン−ダービン再帰法を使用して計算される（非特許文献１１）。結果として、デコーダにおけるベースバンドが、白色スペクトル特性を得る。ＨＳＢＥによる帯域幅拡張後に、ＬＰＣ係数を使用する逆フィルタリングが行われ、オリジナルのスペクトル包絡線が、信号上に再度印加される。

図１３は、ＨＳＢＥ−ＬＰＣ包絡線適応を示す。ここで、Ｘは包絡線適応前のＢＷＥ信号を表す。Ｘ_ｉＬＰＣは、包絡線適応後のＢＷＥ信号である。

図１３は特に、ＨＳＢＥを使用する、帯域幅拡張された信号のＤＦＴの絶対値の周波数応答を示す。スペクトル包絡線の再構築前に、信号Ｘは、上述した白色信号特性を含む。逆ＬＰＣフィルタリングによる包絡線の適応後は、包絡線が、オリジナルのスペクトル特性に対応する。さらに、図１３は、使用されるＬＰＣフィルタの伝達関数を示す。スペクトル包絡線の十分に正確な記述のために、いくつかのフィルタ係数で既に十分であり、この例では、１４個のＬＰＣフィルタタップが使用される。包絡線の再構築は、ＨＳＢＥの標準コンポーネントではなく、別の方法により置換されてもよい。

提供される概念について、ここで評価する。ここでの評価は、高調波スペクトル帯域拡張の新規の方法とＣＭ−ＢＷＥによる帯域幅拡張との間の比較と、可能性および制限に関するＨＳＢＥの効率性ならびにアルゴリズム的な計算の複雑性の検査との双方を意味する。

スペクトル帯域複製方法の比較を最初に提示する。

連続単一側波帯変調による帯域幅拡張は、時間領域方法である。これは、この方法を適用するために、時間信号が常に必要であることを意味する。帯域幅拡張後に、包絡線および調性の適応が行われ、それぞれがスペクトル領域において信号を必要とすることから、ＣＭ−ＢＷＥ方法を適用するときに、帯域幅拡張された信号を変換して周波数領域に戻されなければならない。この時間領域への変換および周波数領域への逆変換は、ＭＤＣＴ／ＭＤＳＴ領域において行われていることから、高調波スペクトル帯域拡張では省略できる。

さらに、連続的な単一側波帯変調の適用前に、時間信号が解析信号に変換されることになる。必要とされる解析信号の計算は、ヒルベルト変換器を使用して実現されることから、確率的である。ヒルベルト変換の理想的な変換関数は、正弦関数である。この関数は、無限長のフィルタによってのみ時間領域で表現できる。有限インパルス応答の実現可能なフィルタを使用するときには、理想的なヒルベルト変換器は近似されるだけである。さらに、信号は、近似ヒルベルト変換後に完全な解析特性を持たない。したがって、計算される擬似解析信号の品質は、使用されるフィルタの長さに依存する。

高調波スペクトル帯域拡張の適用は、追加の変換も必要とする。周波数領域においてＨＳＢＥが動作することから、位相変調の計算に複素スペクトルが必要とされる。しかし、帯域幅拡張の適用前に、ＭＤＣＴ係数しかデコーダ構造中に存在しない。したがって、複素スペクトルを得るため、そして必要な位相情報を得るためには、ＭＤＣＴ係数をＭＤＳＴ領域に変換しなければならない。これは、典型的には、逆ＭＤＣＴ変換およびそれに続くＭＤＳＴ変換を簡潔化して形成された行列乗算を使用して実現されることが、ここでは考えられる。既に示してきたように、これに対して必要とされる計算の複雑性は、ＭＤＳＴ係数の正確な計算が行われるにもかかわらず、極度に最小化される。

ＣＭ−ＢＷＥおよびＨＳＢＥを適用後の絶対値周波数応答の概略的な設定を検討するときに、見ての通り、ＣＭ−ＢＷＥにおけるスペクトルの一部が白色雑音で満たされなければならない。個々の高調波サブ音調をここでは複製できないことから、この部分の高調波構造は失われる。この問題は、ＨＳＢＥを適用するときには生じない。高調波構造は、ギャップなく連続する。

高調波スペクトル帯域拡張の複雑性を以下で検討する。

新規の高調波スペクトル帯域拡張の効率性は、計算の複雑性および必要なメモリスペースに依存する。これらの要因の検討を、プログラミング言語Ｃでのアルゴリズムの実装に基づいて行う。アルゴリズムの実現において、最も強調されるのは、計算ステップ数の最小化である。しかし、ＭＤＣＴ係数のＭＤＳＴスペクトル値への変換およびアンチエイリアシングフィルタリングは、計算が最も複雑なステップに含まれる。スペクトルの高調波的に正しい複製を形成する変調は、変調インデックスτによる偏移がコピープロセスのみに対応し、角度φの位相回転はスペクトル値ごとの複素数乗算に還元されることから、比較的容易である。スペクトル包絡線の適応はここでは考慮に入れない。これは、評価の目的のために重要なＨＳＢＥ方法の一部ではないことから、アルゴリズム的には実現されない。

アンチエイリアシングフィルタリングにおいて行われる加算（ＡＤＤ）、乗算（ＭＵＬＴ）および乗累算（ＭＡＣ）命令などの関連する命令は全て、評価において考慮される。表１は、スペクトルの変調およびフィルタリングに対する結果の概要である。これらは、対応するアルゴリズムが実現される関数であるｌｏｃａｌ＿ＨＳＢＥｐａｔｃｈｉｎｇ（）として参照される。

表１は、表中で、ＨＳＢＥ変調およびアンチエイリアシングフィルタリングの複雑性を示す。リストには、変換長Ｎに依存する関連する演算の数を含む。Ｎ＝２０４８のスペクトルの変調には合計１０２４１の演算が必要とされ、その内訳は、２Ｎ個の加算と３Ｎ個の乗算である。必要とされるエイリアシング消去は、さらに複雑である。ここでは１６３８４個のＭＡＣ演算が行われる。これは、変換長により乗算されるアンチエイリアシングフィルタの非零の要素の数に対応し、この場合は、８Ｎである（先のアンチエイリアシングフィルタリングに関連する説明を参照）。この結果のため、複雑性
を有する線形のコンテキストが、変調およびＡＡＦの複雑性の計算に対して得られる。

図１４は、このコンテキストの視覚的な例示である。ここで、図１４は、ＨＳＢＥ変調およびアンチエイリアシングフィルタリングの複雑性を示す。

高調波スペクトル帯域拡張の中心的な要素は、ＭＤＣＴおよびＭＤＳＴによる信号の変換である。高速フーリエ変換と同様に、これらの変換に対しても、高速アルゴリズムが使用される。基礎となる高速ＤＣＴ−ＩＶの構造を以下でさらに論じる。評価の結果は、上述した多相アプローチにしたがった、高速ＭＤＣＴ／ＭＤＳＴが実装された関数ｆｍｄｃｓｔ１ｄ（）に関連する。ＭＤＣＴおよびＭＤＳＴの解析を表２にまとめる。

これらの結果を評価するときに、合計がおよそ９・Ｎｌｏｇ_２Ｎの演算が、ＭＤＣＴ／ＭＤＳＴの計算に必要とされることが理解できる。さらに逆変換においてＮ個の乗算が行われる。この理由は、変換に必要とされるスケーリングがここで行われるからである。対応する評価を表３にまとめる。

この結果、順方向の変換および逆変換に対して、複雑性は
となる。したがって、予想されるように、実現されるアルゴリズムは、高速変換に対する要件を満たす。この評価の結果を図１５に示す。

図１５は、高速ＭＤＣＴ／ＭＤＳＴの複雑性を示す。複素ＭＤＣＴ／ＭＤＳＴ領域から時間領域への信号の変換のために、２個の逆変換が計算されなければならないことに留意しなければならない。必要とされる演算の数は２倍になる。

ＭＤＣＴ係数のＭＤＳＴスペクトル値への正確な変換は、ＨＳＢＥにおける計算が最も複雑なプロセスである。１つのブロックの一定の遅延がここに形成されるだけでなく、最長の計算時間も必要になる。導入された方法により、必要とされる複雑性が減少されるときでさえ、表４にまとめたように、これは、結果として、最大数の演算となる。

完全に満たされた密行列であるＨ_０およびＨ_２の双方のスペクトルベクトルへの乗算のため、合計Ｎ^２個の乗算およびＮ（Ｎ−１）個の加算がそれぞれ必要とされる。疎行列Ｈ_１は、２Ｎ個の乗算およびＮ個の加算がここで行われなければならないような効率的な実現を可能にする。ＭＤＣＴ値のＭＤＳＴ係数への正確な変換に関して、合計４Ｎ^２＋Ｎ個の加算および乗算が計算される。実現されるアルゴリズムの複雑性に関して、変換長への自乗の依存がある。これは、
により表される。簡潔化された方法は、およそ２σ＋１／Ｎの割合だけ少ない演算を必要とする。図１６において、対応するコンテキストを例示する。ここで、図１６は、ＭＤＣＴ／ＭＤＳＴ変換の複雑性を示す。

アルゴリズムの複雑性とは別に、メモリ利用は、効率性を考えるときに重要な役割を果たす。オーディオデコーダが実装される端末装置に依存して、非常に限られた量の記憶装置のみが利用可能である。したがって、主記憶装置の利用を可能な限り低く保つ必要がある。表５は、使用されるリソースについてリスト作成する。「モジュール」欄の記載は、同名のＣソースファイルを指す。信号ベクトルおよび行列を記憶および処理するのに必要とされる最も重要なバッファのみをここでは考慮する。
カッコ内の情報は、ＭＤＣＴ／ＭＤＳＴ変換の簡潔化された計算を示す。

高調波スペクトル帯域拡張の実装は、単精度浮動小数点算術に基づいており、これは、浮動小数点数が３２ビットで表されることを意味する。表５において示されている数は、このモジュールにおいて必要とされる浮動小数点数の個数に関連する。表から推測できるように、実際のＨＳＢＥアルゴリズムのためのメモリの利用は、変調、エイリアシング消去およびＭＤＣＴ／ＭＤＳＴに対しておよそ１０９ＫＢと、比較的小さい。アンチエイリアシングフィルタに対するデータベースもまた、ルックアップテーブルとして記憶され、合計数２７１５のフィルタ係数に対してほぼ１１ＫＢを必要とする。メモリスペース要件に関する明白な影響があるのは、変換行列Ｈ_０である。この行列のために、およそ１６ＭＢの作業メモリが使用される。行列Ｈ_０のメモリ要件は、先に提示したＭＤＣＴ／ＭＤＳＴ変換の簡潔化により大幅に減少される。σ＝「０．１・Ｎ」をとる例に関して、約０．８ＫＢの作業メモリのみがここでは消費される。

提示された技術を使用すると、ここで提供される高調波スペクトル帯域拡張による帯域幅拡張により、スペクトルの高調波的に正しい拡張が可能になる。その後、提供される概念の可能性および限界を論じる。

一般に、異なる長さの信号が処理される。しかし、実現される高速ＭＤＣＴ／ＭＤＳＴを計算するために、変換長Ｎが正の整数の２乗であることが絶対に必要である。可能性のある最大ブロック長は、ＡＡＣと同様に、２^１１、すなわち、２０４８に制限される。ＨＳＢＥの場合、ランタイム中にブロック長を変化させることも可能である。これは、現代のオーディオエンコーダにおける過渡処理に対しては特に必要である。ブロック長により信号対雑音比ＳＮＲが明白に決定される。最大変換長は、結果として、非常に短いブロック長よりも良好な結果となる傾向がある。これは、変調により生じるエイリアシング成分により引き起こされる。４次までのスプリアス成分はアンチエイリアシングフィルタリングにより抑圧されるが、それでもなお、何らかの不要成分が依然として信号中に残る。非常に短いブロック長の場合に、これらのエイリアシング成分は、大きな帯域幅にわたって拡張し、明確に聞こえる。大きな変換長の場合、帯域幅は、これに対応して小さくなり、エイリアシング成分はマスクされる。２５６のブロック長は、異なる試行では極限となることが分かっている。図１７に示すように、この長さ以降、アーティファクトはほとんど知覚されない。

図１７は、変換長に依存して、ＨＳＢＥに残っている干渉を示す。図１７において、左図は、Ｎ＝３２およびφ＝９０による逆ＭＤＣＴ後のスペクトルを示す。図１７において、右図は、Ｎ＝２５６およびφ＝９０による逆ＭＤＣＴ後のスペクトルを示す。

ここに示されるのは、位相角φにより変調された正弦信号の絶対値の周波数応答である。明確に認識できるように、小さなブロックサイズ（図１７の左）では、エイリアシング消去後に明確なスプリアス成分がある。これらは、およそ−７０ｄＢの範囲にあり、ＳＮＲに対して明白である。２５６より大きいブロックサイズでは（図１７の右）、これらの部分は有効な信号によりマスクされる。

一般的に、高調波スペクトル帯域拡張は、信号の高調波構造の非常に正確な再構築をもたらす。２１５６の変換長およびＣＤの標準規格である４４１００Ｈｚに対応するオーディオデータに対する標本化周波数に関して、開発された方法の分解能は、およそ０．５Ｈｚの範囲にある。これは、スペクトルが、１ヘルツの半分の正確さにより変調できることを意味する。より小さな標本化周波数またはより大きなブロック長の場合、分解能は増加し、変調はさらに正確な範囲で行わる。ＨＳＢＥをマルチ正弦信号に適用した結果を図１８に示す。

図１８は、ＨＳＢＥとＳＢＲとの比較を示す。ＲＥＦｆｒｅｑ．ｒｅｓｐ．は、オリジナルのマルチ正弦波信号のスペクトルを指す。ＳＢＲｆｒｅｑ．ｒｅｓｐ．は、ＳＢＲにより拡張された信号の帯域幅を指す。ＨＳＢＥｆｒｅｑ．ｒｅｓｐ．は、ＨＳＢＥにより拡張された信号の帯域幅を指す。

示した絶対値の周波数応答において認識できるように、スペクトルは、開発されたＨＳＢＥ方法を使用して正確に再構築される。ＨＳＢＥ（ＨＳＢＥｆｒｅｑ．ｒｅｓｐ．）を使用して、帯域制限された信号を処理した後に、スペクトルはオリジナルのスペクトル（ＲＥＦｆｒｅｑ．ｒｅｓｐ．）を正確に上回る。高調波的に適応されていない対応するスペクトル（ＳＢＲｆｒｅｑ．ｒｅｓｐ．）を、比較のために示す。この信号は、ＨＳＢＥアルゴリズムを使用して計算されるが、基礎となるラグ周波数は零である。これは、ＳＢＲ方法に基本的に対応する帯域幅拡張の原因となる。カットオフ周波数ｆ_ｇ＝６４００Ｈｚにおける高調波構造を偏移し、この周波数を２倍にすることが、ここでは明確に理解される。

この導出を以下で提供する。

最初にＤＦＴのＤＣＴ−ＩＩへの変換が導出される。特に、ＤＣＴ−ＩＩは、数式２．１２を使用して、数式２．１０におけるＤＦＴから導出される（非特許文献１９も参照）。以下が適用される。
ここで、
であり、正弦関数および余弦関数の特性は以下の通りである。

ＦＦＴを使用してＤＣＴを効率的に計算するために、この関連性も使用される（非特許文献１も参照）。

畳み込み行列を以下で論じる。

ＭＤＣＴの計算に必要とされる畳み込み行列Ｆ_ａおよびＦ_ｓ（数式２．３５参照）は、遅延行列Ｄおよび窓行列Ｆから構成される。窓行列は、ダイヤモンド構造で配置された、窓関数ｗ［ｎ］の係数を含む。以下が適用される。
ここで、
および、
である。

因果性を保つために、逆遅延行列Ｄ^−１に遅延ｚ^−１が乗算されている。これは、ＭＤＣＴフィルタバンクの遅延の元である（非特許文献２０）。

変換行列Ｈ
変換行列Ｈは、ＭＤＣＴスペクトルをそれぞれのＭＤＳＴスペクトルに変換するのに必要とされる。以下が適用される。

Ｎ＝４の例を使用して、詳細な分解を示す。

遅延要素ｚ^−１の行列は、２つの行列のそれぞれの加算として表現される。結果は以下のようになる。

この分解および行列を使用して、数式Ａ．８は、以下のように表される。

その後、数式の個々の項は、これらのｚへの依存性を使用して置換される。

そして、数式Ａ．１１ａに挿入される。

結果は、数式４．７からの簡潔化された表記法となる。

三つのサブ行列およびの数値解析は、行列の計算の複雑性の顕著な削減に寄与するいくつかの重要な理解をもたらす。最初に注意すべきことは、が、疎行列であることである。これは、異なる変換長Ｎに対する同じ形を常に表し、要素０．５および−０．５を排他的に含む。以下が適用される。

行列Ｈ_０とＨ_２との間に直接的な関連性があり、結果として以下のようになる。
ここで、
である。

ここで、Π_Ｎは、左から乗算すると行の次数が逆転し、右から乗算すると列の次数が逆転するＮ×Ｎの行列である。したがって、数式Ａ．１６は、行列Ｈ_０の値を第二の対角線に対して鏡映すると解釈される。これらの特性を使用して、行列Ｈを計算するのに必要とされる複雑性は、本来必要とされる４Ｎ^３演算（数式Ａ．１１ｄも参照）から、その１／４に削減される。

高速ＤＣＴ−ＩＶを以下に論じる。ＤＣＴ−ＩＶの実現は、高速ＤＣＴ−ＩＶのアルゴリズムに依存する。この実現の利点は、変換および変換に関連するアルゴリズム的な短い遅延の効率的な計算である。ＤＣＴ−ＩＶの核心部は、数式２．１４ｃにしたがった、並列に接続された２つのＤＣＴ−ＩＩＩ変換である。ＦＦＴと同様に、これは、いわゆるバタフライ構造およびパイプライン構造から構成される（非特許文献１９）。このアルゴリズムの複雑性は、
であり、ＦＦＴの必要とされる計算の複雑性と同等である。ＤＣＴ−ＩＩＩの特有の設定を図１９に示す。特に、図１９は、高速ユニバーサルＤＣＴ−ＩＩＩ／ＤＳＴ−ＩＩＩ構造を示す（非特許文献１９）。

入力シーケンスｘ_ｎは、ＤＣＴ−ＩＩスペクトル値ｘ^ＩＩ _ｎに変換される。ＤＣＴ−ＩＩＩはＤＣＴ−ＩＩへの逆変換を表すことから、２つの変換は、この構造を使用して計算される。ＤＣＴ−ＩＩＩ／ＤＳＴ−ＩＩＩおよびそれぞれの逆変換であるＤＣＴ−ＩＩおよびＤＳＴ−ＩＩを計算するためのこの一般構造は、数式２．１４ｄにしたがって、ＤＣＴ−ＩＶの基礎を形成する。図２０は、実現されるＤＣＴ−ＩＶのセットアップを示す。したがって、図２０は、高速ＤＣＴ−ＩＶ構造を示す（非特許文献１９）。

この構造は、典型的にはプログラミング言語Ｃで実現される。対応する関数は、一般ＤＣＴ−ＩＩＩ／ＤＳＴ−ＩＩＩ（ＤＳＴ−ＩＩ／ＤＳＴ−ＩＩ）に対してはｄｃｔ＿ｐｒｏｃｅｓｓｏｒ（）であり、高速ＤＣＴ−ＩＶ／ＤＳＴ−ＩＶに対してはｆｄｃｓｔｉｖ１ｄ（）である。アルゴリズムの性能はここでは重要でないため、この変換の高速バリエーションはＭａｔｌａｂでは実現されない。

以下のセクションは、Ｍａｔｌａｂ関数およびプログラミング言語Ｃの関数を説明するものである。

Ｍａｔｌａｂ関数：
ｄｅｃｏｄｅｒ＿ｈｓｂｅ（）
説明：
ｄｅｃｏｄｅｒ＿ｈｓｂｅ（）は、高調波スペクトルバンド拡張（ＨＳＢＥ）のためのデコーダである。ここでのＭＤＣＴドメインにおけるローパス信号は、信号の高調波構造が保持されるようにスペクトル的に拡張される。包絡線を再構築するために逆ＬＰＣフィルタリングが実行される。信号は逆ＭＤＣＴにより時間ドメインに変換される。
プロトタイプ：
［ｙｖａｒａｒｇｏｕｔ］＝ｄｅｃｏｄｅｒ＿ｈｓｂｅ（Ｘ＿ｃｏｒｅ，Ｔ＿ｉｄｃｔ，Ｇ，ｓｉｄｅｉｎｆｏ，．．．
ａａｆ＿ｄａｔ，ｂ＿ｎｏｉｓｅｆｉｌｌ，ｂ＿ｕｓｅＭＤＳＴ）；
出力：
ｙ再構築された時間信号
ｖａｒａｒｇｏｕｔ（１）包絡線適応前の拡張されたＭＤＣＴスペクトル
ｖａｒａｒｇｏｕｔ（２）包絡線適応前の拡張されたＭＤＳＴスペクトル
ｖａｒａｒｇｏｕｔ（３）包絡線適応前の複素数スペクトル
入力：
Ｘ＿ｃｏｒｅＭＤＣＴ領域における信号のベースバンド
Ｔ＿ｉｄｃｔ逆ＤＣＴ−ＩＶ変換行列
Ｇダイヤモンド形でのｉＭＤＣＴに対する逆畳み込み行列
ｓｉｄｅｉｎｆｏ副情報
ａａｆ＿ｄａｔアンチエイリアシングフィルタ係数を有するデータベース
オプション：
ｂ＿ｎｏｉｓｅｆｉｌｌブーリアン、雑音が追加されたか否かを示す
標準：偽
ｂ＿ｕｓｅＭＤＳＴブーリアン、あらかじめ計算されたＭＤＳＴが使用されることになるか否かを示す。真の場合、Ｘ＿ｃｏｒｅは複素数となる必要がある
標準：偽

ＡＡＦＣｒｅａｔｏｒ．ｍ
説明：
アンチエイリアシングフィルタ（ＡＡＦ）ＦＩＲフィルタ作成ツールである「ＡＡＦＣｒｅａｔｏｒ」：ＡＡＦＦＩＲフィルタ作成ツールは、ＨＳＢＥアルゴリズムのサブバンドシフトによるエイリアシング消去のために必要とされるアンチエイリアシングフィルタを計算する。フィルタは、データベース中のＦＩＲフィルタである。データベースは、．ｍａｔファイルとして記憶され、１次元構造体を含む。データベース中の全アイテムは、ＦＩＲフィルタが使用されることになる角度の表示およびベクトルとしてのフィルタ係数を含む。
プロトタイプ：
Ｍａｔｌａｂｓｃｒｉｐｔ，ｎｏｆｕｎｃｔｉｏｎａｌｎａｍｅ．
出力：
．ｂｍｐＡＡＦインパルス応答によるビットマップおよびエイリアシング消去の結果
．ｍａｔＭＡＴファイルフォーマットでのＡＡＦフィルタを有するデータベース
．ｗａｖＲＩＦＦオーディオファイルとしてのＡＡＦインパルス応答
入力：
ｆｓテスト信号のサンプリング周波数
ＮＭＤＣＴ変換長Ｎ
ｓｉｇ＿ｔｙｐテスト信号タイプ
ｆテスト信号の周波数
ｔテスト信号の連続時間
ｐｈｉ位相角φ、可能な複数の角度
ｎｕｍ＿ｏｐｔ最適化パスの数
ｎｕｍ＿ａｌｉａｓ抑制される最高次のエイリアシング成分
ｂ＿ｓａｖｅ＿ｗａｖブーリアン、．ｗａｖファイルが記憶されるか否かを示す
ｂ＿ｓａｖｅ＿ｂｍｐブーリアン、．ｂｍｐファイルが記憶されるか否かを示す
ｂ＿ｂｒｅａｋブーリアン、中間結果によりｂｒｅａｋが行われるか否かを示す
ｐａｔｈ＿ｂｍｐ．ｂｍｐファイルに対するパス
ｐａｔｈ＿ｗａｖ．ｗａｖファイルに対するパス

ＡＡＦｏｐｔｉｍｉｚｅｒ（）
説明：
ＡＡＦｏｐｔｉｍｉｚｅｒ（）は、ＦＩＲフィルタとしてアンチエリアシングフィルタ（ＡＡＦ）を発生させる。アルゴリズムは、連続近似による数値的なピーク認識により検出されるエイリアシング成分を最適化する。
プロトタイプ：
［ｆｉｒｘ＿ａｎｔｉａｌｉａｓ］＝ＡＡＦｏｐｔｉｍｉｚｅｒ（ｘ，Ｘ＿ｃｍｐｘ，Ｔ＿ｉｍｄｃｔ，．．．Ｔ＿ｉｍｄｓｔ，ｖａｒａｒｇｉｎ）；
出力：
ｆｉｒ時間ドメインにおけるアンチエイリアシングフィルタのフィルタインパルス応答
ｘ＿ａｎｔｉａｌｉａｓＦＩＲによるエイリアシングフリーの入力信号ｘ
入力：
Ｘエイリアシング成分を提供された時間信号
Ｘ＿ｃｍｐｘＭＤＣＴ／ＭＤＳＴ領域におけるｘの複素数表現
Ｔ＿ｉｍｄｃｔ逆ＭＤＣＴ行列
Ｔ＿ｉｍｄｓｔ逆ＭＤＳＴ行列
オプション：
ｖａｒａｒｇｉｎ（１）抑制される最高次のエイリアシング成分
標準：４
ｖａｒａｒｇｉｎ（２）最適化パスの数；標準：３
ｖａｒａｒｇｉｎ（３）位相角φを使用してｘが変調されている位相角φ；標準：０
ｖａｒａｒｇｉｎ（４）ブーリアン、プロットが確立されるか否かを示す
標準：偽
ｖａｒａｒｇｉｎ（５）ブーリアン、確立されたプロットが記憶されるか否かを示す
標準：偽
ｖａｒａｒｇｉｎ（６）．ｂｍｐファイルに対するパス
標準：０

Ｃ関数
ＨＳＢＥｐｒｏｃｅｓｓｉｎｇ（）
説明：
ＨＳＢＥｐｒｏｃｅｓｓｉｎｇ（）は、ＨＳＢＥによる帯域幅拡張に対して確立される静的ライブラリｈｓｂｅ．ｌｉｂに対するメインインターフェースである。現在のバージョン１．０では、時間ドメインの信号部分はＭＤＣＴ／ＭＤＳＴを使用して変換され、高調波構造が保持されるようにスペクトル的に拡張される。複素帯域幅拡張信号は時間ドメインおよび出力に再変換される。Ｍａｔｌａｂ関数であるｄｅｃｏｄｅｒ＿ｈｓｂｅ（）において行われるような包絡線の再構築は、行われない。
プロトタイプ：
ＨＳＢＥ＿ＲＥＳＵＬＴＨＳＢＥｐｒｏｃｅｓｓｉｎｇ（ＨＳＢＥ＿ＨＡＮＤＬＥＨＳＢＥｈａｎｄｌｅ，．．．
ｆｌｏａｔ＊ｐＳａｍｐｌｅｓＩｎ，ｆｌｏａｔ＊ｐＳａｍｐｌｅｓＯｕｔ，．．．
ｕｎｓｉｇｎｅｄｓｈｏｒｔｎＳａｍｐｌｅｓＩｎ，ｆｌｏａｔｆｒｅｑｕｅｎｃｙＯｆｆｓｅｔ）；
出力：
ＨＳＢＥ＿ＲＥＳＵＬＴエラーコード
ｐＳａｍｐｌｅｓＯｕｔ帯域幅拡張時間信号のベクトルに対するポインタ
入力：
ＨＳＢＥｈａｎｄｌｅＨＳＢＥハンドル構造体
ｐＳａｍｐｌｅｓＩｎ入力信号のベクトルに対するポインタ
ｎＳａｍｐｌｅｓＩｎ変換長Ｎ
ｆｒｅｑｕｅｎｃｙＯｆｆｓｅｔ正規化された周波数としてのラグ周波数ｆ_ｌａｇ

ＨＳＢＥｉｎｉｔ（）
説明：
ＨＳＢＥｉｎｉｔ（）は、ＨＳＢＥを初期化するための関数である。ここでは、必要とされる作業メモリが予約され、窓関数が計算され、ＭＤＣＴ／ＭＤＳＴ変換行列
が計算される。加えて、ＨＳＢＥｐｒｏｃｅｓｓｉｎｇ（）に必要とされる全パラメータがハンドルに導入される。
プロトタイプ：
ＨＳＢＥ＿ＲＥＳＵＬＴＨＳＢＥｉｎｉｔ（ＨＳＢＥ＿ＨＡＮＤＬＥ＊ＨＳＢＥｈａｎｄｌｅ，．．．
ｕｎｓｉｇｎｅｄｓｈｏｒｔｎＳａｍｐｌｅｓＩｎ，ｆｌｏａｔｆ＿ｃｏｒｅ，ｆｌｏａｔｆ＿ｈｓｂｅ，．．．
ｕｎｓｉｇｎｅｄｃｈａｒｗｉｎｄｏｗｔｙｐｅ，ｃｈａｒｆｌａｇｓ）；
出力：
ＨＳＢＥ＿ＲＥＳＵＬＴエラーコード
ＨＳＢＥｈａｎｄｌｅＨＳＢＥハンドル構造体に対するポインタ
入力：
ＨＳＢＥｈａｎｄｌｅＨＳＢＥハンドル構造体に対するポインタ
ｎＳａｍｐｌｅｓＩｎ変換長Ｎ
ｆ＿ｃｏｒｅ正規化された周波数としてのベースバンドのカットオフ周波数ｆ_ｇ
ｆ＿ｈｓｂｅ正規化された周波数として再構築されることになる最大周波数
ｗｉｎｄｏｗｔｙｐｅ使用されることになる窓関数のタイプ
ｆｌａｇｓチェックフラグ

ＨＳＢＥｆｒｅｅ（）
説明：
ＨＳＢＥｆｒｅｅ（）は、ＨＳＢＥｉｎｉｔ（）により求められたリソースを解放する。
プロトタイプ：
ＨＳＢＥ＿ＲＥＳＵＬＴＨＳＢＥｆｒｅｅ（ＨＳＢＥ＿ＨＡＮＤＬＥ＊ＨＳＢＥｈａｎｄｌｅ）；
出力：
ＨＳＢＥ＿ＲＥＳＵＬＴエラーコード
ＨＳＢＥｈａｎｄｌｅＨＳＢＥハンドル構造体に対するポインタ
入力：
ＨＳＢＥｈａｎｄｌｅＨＳＢＥハンドル構造体に対するポインタ

装置に関連していくつかの態様を説明してきたが、これらの態様は対応する方法の説明も表すことを理解すべきであり、それにより、装置のブロックまたは要素も対応する方法のステップまたは方法のステップの特徴であると理解すべきである。同様に、方法のステップに関連して、または、方法のステップとして説明してきた態様は、対応するブロックの説明あるいは対応する装置の詳細または特性も表す。方法のステップのうちのいくつかまたは全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のような、ハードウェア装置により（またはハードウェア装置を使用して）実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちのいくつかまたは複数は、このような装置により実行されてもよい。

特有の実現要件に依存して、発明の実施形態は、ハードウェアまたはソフトウェアのいずれかにおいて実現されてもよい。実現は、例えば、フレキシブルディスク、ＤＶＤ、ブルーレイディスク（登録商標）、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ（登録商標）またはフラッシュメモリ、あるいは、ハードディスクのような、デジタル記憶媒体、あるいは、それぞれの方法が実行されるようなプログラム可能なコンピュータシステムとともに協働することができる電子的に読取可能な制御信号が記憶されている、別の磁気記憶媒体または光記憶媒体を使用して実行されてもよい。したがって、デジタル記憶媒体は、コンピュータ読取可能である。

発明に係るいくつかの実施形態は、ここで説明した方法のうちの１つが実行されるような、プログラム可能なコンピュータシステムと協働することができる電子的に読取可能な制御信号を含むデータ担体を含む。

一般に、本発明の実施形態は、プログラムコードを含むコンピュータプログラム製品として実現されてもよく、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法のうちの１つを実行するのに有効である。

プログラムコードは、典型的には、機械読取可能担体に記憶される。

他の実施形態は、本明細書で説明した方法のうちの１つを実行するためのコンピュータプログラムを含み、コンピュータプログラムは、機械読取可能キャリアに記憶される。言い換えると、方法の発明の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書で説明した方法のうちの１つを実行するためのプログラムコードを含むコンピュータプログラムである。

したがって、方法の発明の別の実施形態は、本明細書で説明した方法のうちの１つを実行するためのコンピュータプログラムが記録されているデータキャリア（またはデジタル記憶媒体またはコンピュータ読取可能媒体）である。

したがって、方法の発明の別の実施形態は、本明細書で説明した方法のうちの１つを実行するためのコンピュータプログラムを表現する信号のデータストリームまたはシーケンスである。信号のデータストリームまたはシーケンスは、例えば、インターネットのような、データ通信リンクを通じて伝送されるように構成されていてもよい。

別の実施形態は、例えば、本明細書で説明した方法のうちの１つを実行するように構成または適合されたコンピュータまたはプログラム可能な論理装置のような、処理手段を含む。

別の実施形態は、本明細書で説明した方法のうちの１つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。

本発明に係る別の実施形態は、本明細書で説明した方法のうちの少なくとも１つを実行するためのコンピュータプログラムを受信機に送信するように構成されている装置またはシステムを含む。送信は、典型的には、電子的または光により行われる。受信機は、典型的には、コンピュータ、モバイル装置、メモリ装置またはこれらに類するものである。装置またはシステムは、典型的には、コンピュータプログラムを受信機に送信するためのファイルサーバを含む。

いくつかの実施形態では、例示的に、本明細書で説明した方法の機能性のうちのいくつかまたは全てを実行するために、プログラム可能な論理装置（フィールドプログラム可能なゲートアレイ（ＦＰＧＡ））が使用されてもよい。いくつかの実施形態では、フィールドプログラム可能なゲートアレイは、本明細書で説明した方法のうちの少なくとも１つを実行するようにマイクロプロセッサと協働してもよい。一般に、いくつかの実施形態では、方法は、任意のハードウェア装置の一部で実行される。これは、コンピュータプロセッサ（ＣＰＵ）のような、一般的に用いることができるハードウェア、または、例えば、ＡＳＩＣのような、方法に特有のハードウェアであってもよい。

先に説明した実施形態は、本発明の原則の例示のみを表す。本明細書で説明した構成および特徴の修正および変形は当業者にとって明らかであろうことが理解されるべきである。そのため、発明は、以下の特許請求の範囲によってのみ限定されるが、実施形態の説明および議論を使用して本明細書で提示してきた特有の詳細によっては限定されないことを意図している。

以上で使用した略語の意味を、以下に示す。
ＡＡＣ高度オーディオ符号化
ＡＡＦアンチエイリアシングフィルタ
ａｃ−３ドルビーデジタル適応変換コーダ３
ＢＷＥ帯域幅拡張
ＣＤコンパクトディスク
ＣＭ−ＢＷＥ連続的に修正される帯域幅拡張
ＤＣＴ離散余弦波変換
ＤＦＴ離散フーリエ変換
ＤＳＴ離散正弦波変換
ＤＶＤデジタル多用途ディスク
ＦＦＴ高速フーリエ変換
ＦＩＲ有限インパルス応答
ＨＢＥ高調波帯域幅拡張
ＨＥ−ＡＡＣＭＰＥＧ−４高効率高度オーディオ符号化
ＨＦ高周波数
ＨＳＢＥ高調波スペクトル帯域幅拡張
ＪＰＥＧジョイント・フォトグラフィック・エキスパート・グループ
ＫｉＢキビバイト２^１０バイト＝１０２４バイト
ＬＯＴラップド直交変換
ＬＰＣ線形予測コーディング
ＬＴＩ線形時不変
ＭＤＣＴ修正離散余弦波変換
ＭＤＳＴ修正離散正弦波変換
ＭｉＢメビバイト＝２^２０バイト＝１０４８５７６バイト
ｍｐ３ＭＰＥＧ−１オーディオレイヤＩＩＩ
ＰＣパーソナルコンピュータ
ＰＣＭパルスコード変調
ＰＲ完全再構築
ＱＭＦ直交ミラーフィルタ
ＳＢＲスペクトル帯域複製
ＳＮＲ信号対雑音比
ＴＤＡ時間ドメインエリアシング
ＴＤＡＣ時間ドメインエリアシング消去
ＵＳＡＣ統合音声音オーディオコーディング
ＶｏＩＰボイス・オーバー・インターネット・プロトコル

以上で使用したシンボルの意味を表６および表７に示す。

Claims

周波数が偏移したオーディオ信号をオーディオ入力信号に基づいて生成する装置（１００；１５０；３００）において、
前記オーディオ入力信号は、複数の第１サブバンドに対して、１または複数の第１サブバンド値により表されており、
前記装置（１００；１５０；３００）は、
前記オーディオ入力信号を受信するインターフェース（１１０；３１０）と、
前記周波数が偏移したオーディオ信号を、複数の第２サブバンドに対して１または複数の第２サブバンド値を各々含む信号として生成する周波数偏移部（１２０；３２０）と
を備え、
前記第１サブバンド値と前記第２サブバンド値とは各々、それぞれの位相角に関する情報を含み、
前記周波数偏移部（１２０；３２０）は、前記第２サブバンド値の１つを、前記第１サブバンド値の１つに基づいて、当該第２サブバンド値の第２位相角の当該第１サブバンド値の第１位相角からの位相角差が、前記周波数が偏移したオーディオ信号を得るために前記オーディオ入力信号を偏移させるべき周波数差を示す周波数情報に依存し、前記第１サブバンドの１つの周波数帯域幅に依存する位相角差となるように生成する構成である
ことを特徴とする成装置。
請求項１記載の装置（１００；１５０；３００）において、
前記周波数偏移部（１２０；３２０）は、
前記第１サブバンドの１つを、前記第２サブバンドの各々に対する周波数情報に基づいて決定し、
前記第２サブバンドのそれぞれの前記１または複数の第２サブバンド値を、決定された各第１サブバンドの１または複数の第１サブバンド値に基づいて生成し、
前記第２のサブバンドのそれぞれの第２サブバンド値のそれぞれ１つを、前記決定された各第１サブバンドの第１サブバンド値のそれぞれ１つに基づいて、各第２サブバンド値の位相角の情報が、各第１サブバンド値の位相各の情報に依存し、かつ、前記オーディオ入力信号を偏移させる周波数差とそのサブバンドの周波数帯域幅に依存するように生成する
構成である
装置。
請求項１または２に記載の装置（１００；１５０；３００）において、
前記第１サブバンド値の各々および前記第２サブバンド値の各々は複素数として表され、
前記周波数偏移部（１２０；３２０）は、複素指数関数の結果値を決定する構成であり、
前記周波数偏移部（１２０；３２０）は、第２サブバンド値の少なくとも１つを、前記第１サブバンド値の１つに基づいて、前記第１サブバンド値の前記１つを表す第１の複素数に前記結果値を乗算して前記第２サブバンド値の前記１つを表す第２の複素数を得ることにより生成する構成である
装置。
請求項３に記載の装置（１００；１５０；３００）において、
前記周波数偏移部（１２０；３２０）は、前記複素指数関数の前記結果値を決定する構成であり、前記複素指数関数は、
ｅ^{-ｊｂφπ／１８０°}
であり、ここで、ｊは虚数単位であり、ｂは整数であり、φは、度数法での角度であって、前記第１サブバンドの前記第１サブバンド値を偏移させる周波数差に依存する角度である
装置。
請求項１から４のいずれか１項に記載の装置（１００；１５０；３００）において、
前記周波数偏移部（１２０；３２０）は、前記第２サブバンド値の前記１つを、前記第１サブバンド値の前記１つに基づいて生成する構成であり、
前記第１サブバンド値は、前記オーディオ入力信号の第１のＭＤＣＴ係数、すなわち前記オーディオ入力信号の修正離散余弦変換の係数、あるいは、前記オーディオ入力信号の第１のＱＭＦ係数、すなわち前記オーディオ入力信号のＱＭＦ変換の係数である
装置。
請求項１から５のいずれか１項に記載の装置（１００；１５０；３００）において、
ＭＤＣＴ／ＭＤＳＴ変換部（３１５）をさらに備え、
前記ＭＤＣＴ／ＭＤＳＴ変換部（３１５）は、前記オーディオ入力信号の１または複数の第１のＭＤＣＴ係数、すなわち前記オーディオ入力信号の修正離散余弦変換の係数を得る構成であり、
前記ＭＤＣＴ／ＭＤＳＴ変換部（３１５）は、前記オーディオ入力信号の前記第１のＭＤＣＴ係数の１または複数に基づいて、前記オーディオ入力信号の１または複数の第１のＭＤＳＴ係数、すなわち前記オーディオ入力信号の修正離散正弦変換の係数を決定するように構成され、
前記周波数偏移部（１２０；３２０）は、前記第１サブバンド値のそれぞれ１つに基づいて、前記第２サブバンド値のそれぞれを生成する構成であり、前記第１サブバンド値はそれぞれ、前記第１のＭＤＣＴ係数の１つと、この第１のＭＤＣＴ係数に基づいて決定されている前記第１のＭＤＳＴ係数の１つとに基づいている
装置。
請求項６記載の装置（１００；１５０；３００）において、
前記周波数偏移部（１２０；３２０）は、前記第２サブバンド値のそれぞれを前記第１サブバンド値のそれぞれ１つに基づいて生成する構成であり、前記第１のＭＤＣＴ係数のそれぞれ、および前記第１のＭＤＳＴ係数のそれぞれは実数値であり、前記第１サブバンド値はそれぞれ、前記第１のＭＤＣＴ係数の１つと、この第１のＭＤＣＴ係数に基づいて決定されている虚数単位ｊの乗算された前記第１のＭＤＳＴ係数の１つとの合計を表す
装置。
請求項６または７に記載の装置（１００；１５０；３００）において、
前記ＭＤＣＴ／ＭＤＳＴ変換部（３１５）は、前記オーディオ入力信号の前記１または複数の第１のＭＤＳＴ係数を、前記オーディオ入力信号の前記第１のＭＤＣＴ係数の１または複数に基づいて決定する構成であり、
前記オーディオ入力信号の前記第１のＭＤＣＴ係数は、１つまたは複数の列を含むＭＤＣＴ係数行列Ｘの行列係数として表され、
前記オーディオ入力信号はブロックにサブ分割され、
前記ＭＤＣＴ係数行列Ｘの前記列のそれぞれは、前記オーディオ入力信号の前記ブロックの１つを表し、
前記ＭＤＣＴ係数行列Ｘの前記列のそれぞれは、前記オーディオ入力信号のそれぞれの前記ブロックのＭＤＣＴスペクトルを形成し、
前記ＭＤＣＴ／ＭＤＳＴ変換部（３１５）は、変換行列Ｈの行列係数を、前記変換行列Ｈに前記ＭＤＣＴ係数行列Ｘを行列乗算することによって行列係数が前記第１のＭＤＳＴ係数を表すＭＤＳＴ係数行列Ｘ_ＭＤＳＴが得られるように決定する
装置。
請求項６または７に記載の装置（１００；１５０；３００）において、
前記ＭＤＣＴ／ＭＤＳＴ変換部（３１５）は、前記オーディオ入力信号の前記１または複数の第１のＭＤＳＴ係数を、前記オーディオ入力信号の前記１または複数の第１のＭＤＣＴ係数に基づいて決定する構成であり、
前記オーディオ入力信号の前記第１のＭＤＣＴ係数は、１または複数の列を含むＭＤＣＴ係数行列Ｘの行列係数として表され、
前記オーディオ入力信号は、複数のブロックに細分割され、前記ＭＤＣＴ係数行列Ｘの列のそれぞれが前記複数のブロックの１つを表し、
前記ＭＤＣＴ／ＭＤＳＴ変換部（３１５）は、前記第１のＭＤＳＴ係数を決定するために、
を適用する構成であり、
ここで、
Ｘ（ｂ）は、前記行列Ｘのｂ番目の列であり、
Ｘ（ｂ−１）は、前記行列Ｘのｂ−１番目の列であり、
Ｘ（ｂ−２）は、前記行列Ｘのｂ−２番目の列であり、
Ｈ_０は、第１のサブ行列であり、
Ｈ_１は、第２のサブ行列であり、
Ｈ_２は、第３のサブ行列であり、
Ｘ_ＭＤＳＴ（ｂ-１）は、前記第１のＭＤＳＴ係数を含むブロックｂ−１のＭＤＳＴスペクトルを表す
装置。
請求項９に記載の装置（１００；１５０；３００）において、
前記ＭＤＣＴ／ＭＤＳＴ変換部（３１５）は、前記第１のＭＤＳＴ係数を決定するために、
を適用する構成であり、
ここで、前記第１のサブ行列Ｈ_０の２以上の行列係数は零値であり、前記第２のサブ行列Ｈ _１の２以上の行列係数は零値であり、前記第３のサブ行列Ｈ_２の２以上の行列係数は零値である
装置。
請求項９または１０に記載の装置（１００；１５０；３００）において、
前記ＭＤＣＴ／ＭＤＳＴ変換部（３１５）は、前記第１のＭＤＳＴ係数を決定するために、
を適用する構成であり、
ここで、前記第２のサブ行列Ｈ_１は、
であり、「．．．」は、前記第２のサブ行列Ｈ_１の以前の行列係数と同じ値が、前記第２のサブ行列Ｈ_１の後続する行列係数においても継続していることを意味する
装置。
請求項１から１１のいずれか１項に記載の装置（１００；１５０；３００）において、フィルタ部（３３０）をさらに備え、このフィルタ部（３３０）は、前記第２サブバンド値を、複数のフィルタ係数を含むフィルタを適用することによりフィルタリングし、前記第１サブバンド値に基づいて前記第２サブバンド値を生成するときに形成された前記第２サブバンド値のスプリアス成分を削減する構成である装置。
請求項１２記載の装置（１００；１５０；３００）において、
前記周波数偏移部（１２０；３２０）は、前記第２サブバンド値の前記１つを、前記第１サブバンド値の前記１つに基づいて、前記第２サブバンド値の前記第２位相角が前記第１サブバンド値の前記第１位相角と前記位相角差だけ異なるように、生成する構成であり、
前記フィルタ部（３３０）は、前記第２サブバンド値を、前記フィルタを適用することによりフィルタリングする構成であり、前記フィルタ係数の１または複数が前記位相角差に依存する
装置。
請求項１３に記載の装置（１００；１５０；３００）において、
記憶装置またはデータベースをさらに備え、
前記フィルタ係数の１または複数が前記位相角差に依存し、
前記フィルタ部（３３０）は、前記位相角差に依存して、前記記憶装置または前記データベースから前記フィルタ係数を読み出す構成であり、
前記フィルタ部（３３０）は、前記記憶装置または前記データベースから読み出された前記フィルタ係数を含む前記フィルタを適用することにより、前記第２サブバンド値をフィルタリングする構成である
装置。
請求項１２から１４のいずれか１項に記載の装置（１００；１５０；３００）において、
前記フィルタ部（３３０）は、前記第２サブバンドのそれぞれの前記１または複数の第２サブバンド値のそれぞれをフィルタリングして、前記第２サブバンドのそれぞれに対する１または複数のフィルタリングされたサブバンド値を得る構成であり、
前記フィルタ部（３３０）は、前記フィルタリングされたサブバンド値のそれぞれを、第１の加数あるいは１または複数のさらなる加数の合計を計算することにより決定する構成であり、
前記第１の加数は、前記第２サブバンドの１つの第２サブバンド値の１つであり、
前記１または複数のさらなる加数は、１または複数の重み付けされたサブバンド値であり、
前記フィルタ部（３３０）は、前記１または複数の重み付けされたサブバンド値をそれぞれ、前記フィルタ係数の１つに他のサブバンドの１つのサブバンド値をそれぞれ乗算することにより決定する構成である
装置。
請求項１２から１５のいずれか１項に記載の装置（１００；１５０；３００）において、
前記フィルタ部（３３０）は、前記複数のフィルタ係数を含む前記フィルタを適用することによりフィルタリングして、前記第２サブバンド値のスプリアス成分を削減する構成であり、
前記フィルタの前記フィルタ係数は整然とした順序となっており、零ではないフィルタ係数に続く全てのフィルタ係数が零値となっている
装置。
請求項１から１６のいずれか１項に記載の装置（１００；１５０；３００）において、
前記インターフェース（１１０；３１０）は、前記オーディオ入力信号の前記第１サブバンドの前記第１サブバンド値を偏移させる周波数差を示す前記周波数情報を受信する構成である装置。
請求項１から１７のいずれか１項に記載の装置（１００；１５０；３００）において、
合成変換部（３４０）をさらに備え、
この合成変換部は、前記周波数が偏移したオーディオ信号を、前記第２サブバンド値を複数の時間領域標本に変換することにより取得する構成である装置。
請求項１から１８のいずれか１項に記載の装置（１５０）において、
周波数が拡張されたオーディオ信号を生成する構成であり、
前記周波数が拡張されたオーディオ信号を、前記周波数が偏移したオーディオ信号の前記第２サブバンド値を生成することにより生成し、前記周波数が拡張されたオーディオ信号は、前記オーディオ入力信号の前記第１サブバンド値と、前記周波数偏移されたオーディオ信号の前記第２サブバンド値とを含む
装置。
請求項１９に記載の装置（１５０）において、
合成変換部（３４０）をさらに備え、
この合成変換部は、前記周波数が拡張されたオーディオ信号を、前記第１サブバンド値と前記第２サブバンド値とを複数の時間領域標本に変換することにより得る構成である装置。
請求項１９または２０に記載の装置（１５０）において、
スペクトル包絡線が前記周波数が拡張されたオーディオ信号に印加されるように前記周波数が拡張されたオーディオ信号をフィルタリングする構成の包絡線適応部（３５０）をさらに備える
装置。
請求項２１に記載の装置（１５０）において、前記包絡線適応部（３５０）は、前記周波数が拡張されたオーディオ信号を、ＬＰＣ係数を使用する逆フィルタリングによりフィルタリングして、前記スペクトル包絡線を前記周波数が拡張されたオーディオ信号に印加する構成である装置。
周波数が偏移したオーディオ信号をオーディオ入力信号に基づいて生成する方法において、
前記オーディオ入力信号は、複数の第１サブバンドに対して、１または複数の第１サブバンド値により表されており、
前記オーディオ入力信号を受信し、
前記周波数が偏移したオーディオ信号を、複数の第２サブバンドに対して１または複数の第２サブバンド値を各々含む信号として生成し、
前記第１サブバンド値と前記第２サブバンド値とは各々、それぞれの位相角に関する情報を含み、
前記第２サブバンド値の１つを、前記第１サブバンド値の１つに基づいて、当該第２サブバンド値の第２位相角の当該第１サブバンド値の第１位相角からの位相角差が、前記周波数が偏移したオーディオ信号を得るために前記オーディオ入力信号を偏移させるべき周波数差を示す周波数情報に依存し、前記第１サブバンドの１つの周波数帯域幅に依存する位相角差となるように生成する
方法。
コンピュータまたは信号プロセッサ上でコンピュータプログラムが実行されるときに、請求項２３に記載の方法を実行するコンピュータプログラム。