JP2015504539A

JP2015504539A - オーディオ・コーデックからの向上したクロマ抽出

Info

Publication number: JP2015504539A
Application number: JP2014543874A
Authority: JP
Inventors: ビスワス，アリジット; フィンク，マルコ; シュフーグ，ミヒャエル
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2011-11-30
Filing date: 2012-11-28
Publication date: 2015-02-12
Anticipated expiration: 2032-11-28
Also published as: CN103959375B; US20140310011A1; JP6069341B2; WO2013079524A2; US9697840B2; WO2013079524A3; EP2786377B1; EP2786377A2; CN103959375A

Abstract

本稿は、音楽情報検索（MIR）のための方法およびシステムに関する。詳細には、本稿は、オーディオ信号からクロマ・ベクトルを抽出するための方法およびシステムに関する。オーディオ信号（３０１）のサンプルのブロックについてクロマ・ベクトル（１００）を決定する方法（９００）が記述される。本方法（９００）は、スペクトル帯域複製ベースのオーディオ・エンコーダ（４１０）のコア・エンコーダ（４１２）から、前記オーディオ信号（３０１）のサンプルのブロックから導出された周波数係数の対応するブロックを受領する段階（９０１）であって、前記オーディオ・エンコーダは、周波数係数の前記ブロックから前記オーディオ信号（３０１）のエンコードされたビットストリーム（３０５）を生成するよう適応されている、段階と；周波数係数の受領されたブロックに基づいて前記オーディオ信号（３０１）のサンプルのブロックについてのクロマ・ベクトル（１００）を決定する段階（９０４）とを含む。

Description

関連出願への相互参照
本願はここに参照によってその全体において組み込まれる2011年11月30日に出願された米国仮特許出願第61/565,037号の優先権を主張するものである。

発明の技術分野
本稿は、音楽情報検索（MIR: music information retrieval）のための方法およびシステムに関する。詳細には、本稿は、オーディオ信号のエンコード・プロセスとの関連で（たとえばエンコード・プロセスの間に）オーディオ信号からクロマ・ベクトルを抽出するための方法およびシステムに関する。

利用可能な音楽ライブラリのナビゲートは、簡単にアクセスできるデータの量がここ数年で著しく増大したという事実のため、ますます難しくなりつつある。音楽情報検索（MIR）と呼ばれる学際的な研究分野は、ユーザーが自分のメディアを探るのを助けるために音楽データを構造化し、分類する解決策を探求している。たとえば、MIRベースの方法は、似た型の音楽を提案するために音楽を分類できることが望ましい。MIR技法は、時間を追った諸半音のエネルギー分布を指定するクロマグラムと呼ばれる中レベルの時間‐周波数表現に基づくことがある。オーディオ信号のクロマグラムは、オーディオ信号のハーモニー情報（たとえば、メロディーについての情報および／またはコードについての情報）を同定するために使われてもよい。しかしながら、クロマグラムの決定は、典型的にはかなりの計算上の複雑さに結びついている。

M. Goto、"A Chorus Section Detection Method for Musical Audio Signals and its Application to a Music Listening Station"、IEEE Trans. Audio, Speech, and Language Processing 14, no.5 (September 2006): 1783-1794 Stein, M., et. al.、"Evaluation and Comparison of Audio Chroma Feature Extraction Methods"、126th AES Convention、Munich, Germany, 2009 G.Schuller, M.Gruhne, and T.Friedrich、"Fast audio feature extraction from compressed audio data"、Selected Topics in Signal Processing, IEEE Journal of、5(6):1262-1271, oct.2011

本稿は、クロマグラム計算方法の複雑さの問題に取り組むものであり、低減した計算量でのクロマグラム計算のための方法およびシステムを記述する。

ある側面によれば、オーディオ信号のサンプルのブロックについてクロマ・ベクトルを決定する方法が記述される。サンプルのブロックは、いわゆるサンプルの長ブロックであってもよい。これはサンプルのフレームとも称される。オーディオ信号はたとえば音楽トラックであってもよい。本方法は、オーディオ・エンコーダ（たとえばAAC（Advanced Audio Coding［先進オーディオ符号化］）またはmp3エンコーダ）からオーディオ信号のサンプルのブロックから導出された周波数係数の対応するブロックを受領する段階を含む。オーディオ・エンコーダは、スペクトル帯域複製（SBR: spectral band replication）ベースのオーディオ・エンコーダのコア・エンコーダであってもよい。例として、SBRベースのオーディオ・エンコーダのコア・エンコーダはAACまたはmp3エンコーダであってもよく、より詳細には、SBRベースのオーディオ・エンコーダはHE（High Efficiency［高効率］）AACエンコーダまたはmp3PROであってもよい。本稿に記載される方法が適用可能なSBRベースのオーディオ・エンコーダのさらなる例はMPEG-D USAC（Universal Speech and Audio Codec［統合音声音響符号化］）エンコーダである。

（SBRベースの）オーディオ・エンコーダは典型的には、周波数係数のブロックからオーディオ信号のエンコードされたビットストリームを生成するよう適応されている。この目的のため、オーディオ・エンコーダは周波数係数のブロックを量子化してもよく、周波数係数の量子化されたブロックをエントロピー符号化してもよい。

本方法はさらに、周波数係数の受領されたブロックに基づいてオーディオ信号のサンプルのブロックについてのクロマ・ベクトルを決定する段階を含む。詳細には、クロマ・ベクトルは、周波数係数の受領されたブロックから導出される周波数係数の第二のブロックから決定されてもよい。ある実施形態では、周波数係数の第二のブロックは周波数係数の上記の受領されたブロックである。これは、周波数係数の受領されたブロックが周波数係数の長ブロックである場合に成り立ちうる。もう一つの実施形態では、周波数係数の第二のブロックは周波数係数の推定された長ブロックに対応する。この周波数係数の推定された長ブロックは、周波数係数の受領されたブロック内に含まれる複数の短ブロックから決定されてもよい。

前記ブロックの周波数係数は、修正離散コサイン変換（MDCT: Modified Discrete Cosine Transformation）係数のブロックであってもよい。時間領域から周波数領域への変換（および結果として得られる周波数係数のブロック）の他の例は、MDST（Modified Discrete Sine Transform［修正離散サイン変換］）、DFT（Discrete Fourier Transform［離散フーリエ変換］）およびMCLT（Modified Complex Lapped Transform［修正複素重複変換］）といった変換である。一般的な表現では、周波数係数のブロックは、時間領域から周波数領域への変換を使って対応するサンプルのブロックから決定されてもよい。逆に、サンプルのブロックが、対応する逆変換を使って周波数係数のブロックから決定されてもよい。

MDCTは重複変換である。つまり、そのような場合、周波数係数のブロックはサンプルのブロックおよび該サンプルのブロックのすぐ近傍からのオーディオ信号の追加的なさらなるサンプルから決定される。詳細には、周波数係数のブロックは、サンプルのブロックおよび直前のサンプルのブロックから決定されてもよい。

サンプルのブロックはそれぞれM個のサンプルからなるN個の相続く短ブロックを含んでいてもよい。換言すれば、サンプルのブロックはN個の短ブロックのシーケンスであってもよい（あるいはN個の短ブロックのシーケンスを含んでいてもよい）。同様に、周波数係数のブロックはそれぞれM個の周波数係数からなるN個の対応する短ブロックを含んでいてもよい。ある実施形態ではM＝129、N＝8であり、つまりサンプルのブロックはM×N＝1024個のサンプルを含む。オーディオ・エンコーダは過渡オーディオ信号をエンコードするために短ブロックを利用し、それにより周波数分解能を低下させつつも時間分解能を上げてもよい。

オーディオ・エンコーダからの短ブロックのシーケンスを受領すると、本方法は、周波数係数の短ブロックの受領されたシーケンスの周波数分解能を上げ、それによりサンプルのブロック全体（これはサンプルの短ブロックからなる前記シーケンスを含む）についてのクロマ・ベクトルの決定を可能にする追加的なステップを含んでいてもよい。詳細には、本方法は、M個の周波数係数のN個の短ブロックからのサンプルのブロックに対応する周波数係数の長ブロックを推定することを含んでいてもよい。この推定は、周波数係数の推定される長ブロックが周波数係数のN個の短ブロックに比べ増大した周波数分解能をもつように行なわれる。そのような場合、オーディオ信号のサンプルのブロックについてのクロマ・ベクトルは、周波数係数の推定された長ブロックに基づいて決定されてもよい。

周波数係数の長ブロックを推定する前記段階は、種々のレベルの総合のために階層的な仕方で実行されてもよい。つまり、複数の短ブロックが長ブロックに総合されてもよく、複数の長ブロックが超長ブロックに総合されてもよい、といったことである。結果として、種々のレベルの周波数分解能（および対応して時間分解能）が提供できる。例として、周波数係数の長ブロックはN個の短ブロックのシーケンスから決定されてもよい（上記と同様）。次の階層レベルでは、周波数係数のN2個の長ブロック（このうち一部または全部がN個の短ブロックの対応する諸シーケンスから推定されたものでありうる）のシーケンスがN2倍多い周波数係数（そして対応して高い周波数分解能）の超長ブロックに変換されてもよい。よって、周波数係数の短ブロックのシーケンスから周波数係数の長ブロックを推定する方法は、（同時にクロマ・ベクトルの時間分解能を階層的に減少させつつ）クロマ・ベクトルの周波数分解能を階層的に増大させるために使用されてもよい。

周波数係数の長ブロックを推定する段階は、周波数係数のN個の短ブロックの対応する周波数係数をインターリーブし、それにより周波数係数のインターリーブされた長ブロックを与えることを含んでいてもよい。周波数係数のブロックの量子化およびエントロピー符号化のコンテキストでは、そのようなインターリーブはオーディオ・エンコーダ（たとえばコア・エンコーダ）によって実行されてもよいことを注意しておくべきである。よって、本方法は、代替的に、オーディオ・エンコーダから周波数係数のインターリーブされた長ブロックを受領する段階を含んでいてもよい。結果として、インターリーブ段階によって追加的な計算資源が消費されることはない。クロマ・ベクトルは、周波数係数のインターリーブされた長ブロックから決定されてもよい。さらに、周波数係数の長ブロックを推定する段階は、（高周波数ビンに比べ変換の低周波数ビンにおける）エネルギー圧縮属性をもつ変換、たとえばDCT-II変換を周波数係数のインターリーブされた長ブロックに適用することによって、周波数係数のN個の短ブロックのN個の対応する周波数係数を脱相関することを含んでいてもよい。エネルギー圧縮変換、たとえばDCT-II変換を使ったこの脱相関方式は、適応ハイブリッド変換（AHT: Adaptive Hybrid Transform）方式と称されてもよい。クロマ・ベクトルは、周波数係数の脱相関されたインターリーブされた長ブロックから決定されてもよい。

あるいはまた、周波数係数の長ブロックを推定する段階は、M個の周波数係数のN個の短ブロックにポリフェーズ変換（PPC: polyphase conversion）を適用することを含んでいてもよい。ポリフェーズ変換は、M個の周波数係数のN個の短ブロックをN×M個の周波数係数の正確な長ブロックに数学的に変換するための変換行列に基づいていてもよい。よって、変換行列は、オーディオ・エンコーダ（たとえばMDCT）によって実行される時間領域から周波数領域への変換から数学的に決定されてもよい。変換行列は、周波数係数のN個の短ブロックの時間領域への逆変換と、時間領域サンプルの周波数領域へのその後の変換の組み合わせを表わしていて、それによりN×M個の周波数係数の正確な長ブロックを与えるのでもよい。ポリフェーズ変換は、変換行列係数の一部を0と置いた上記変換行列の近似を利用してもよい。例として、変換行列係数の90%以上の割合が0と置かれてもよい。結果として、ポリフェーズ変換は低い計算量で周波数係数の推定される長ブロックを提供しうる。さらに、上記割合は、複雑さの関数として変換の品質を変えるためのパラメータとして使われてもよい。換言すれば、上記割合は複雑さがスケーラブルな変換を提供するために使われてもよい。

AHTが（PPCも）短ブロックの上記シーケンスの一つまたは複数の部分集合に適用されてもよいことを注意しておくべきである。よって、周波数係数の長ブロックを推定することは、周波数係数の上記N個の短ブロックの複数の部分集合を形成することを含んでいてもよい。それらの部分集合は、L個の短ブロックの長さを有していて、それによりN/L個の部分集合を与えてもよい。部分集合当たりの短ブロックの数Lは、オーディオ信号に基づいて選択されてもよく、それによりAHT/PPCをそのオーディオ信号（すなわち、オーディオ信号のその特定のフレーム）の特定の特性に適応させてもよい。

AHTの場合、各部分集合について、周波数係数の短ブロックの対応する周波数係数がインターリーブされ、それによりその部分集合についての（L×M個の係数をもつ）周波数係数のインターリーブされた中間ブロックを与えてもよい。さらに、各部分集合について、エネルギー圧縮変換、たとえばDCT-II変換が、その部分集合の周波数係数のインターリーブされた中間ブロックに適用され、それにより周波数係数のインターリーブされた中間ブロックの周波数分解能を上げてもよい。PPCの場合、M個の周波数係数のL個の短ブロックをL×M個の周波数係数の正確な中間ブロックに数学的に変換するための中間変換行列が決定されてもよい。各部分集合について、ポリフェーズ変換（これは中間ポリフェーズ変換と称されてもよい）は、中間変換行列係数の一部を0と置いた中間変換行列の近似を利用してもよい。

より一般には、周波数係数の長ブロックの推定は、（前記複数の部分集合についての）短ブロックのシーケンスから周波数係数の複数の中間ブロックの推定を含んでいてもよいと言ってもよい。周波数係数の前記複数の中間ブロックから（本稿に記載される方法を使って）複数のクロマ・ベクトルが決定されてもよい。よって、クロマ・ベクトルの決定についての周波数分解能（および時間分解能）はオーディオ信号の特性に適応させることができる。

クロマ・ベクトルを決定する段階は、周波数係数の受領されたブロックから導出される周波数係数の第二のブロックに対して周波数依存の音響心理学的処理を適用することを含んでいてもよい。周波数依存の音響心理学的処理はオーディオ・エンコーダによって提供される音響心理学的モデルを利用してもよい。

ある実施形態では、周波数依存の音響心理学的処理を適用することは、周波数係数の第二のブロックの少なくとも一つの周波数係数から導出された値を、周波数依存のエネルギー閾値（たとえば、周波数依存の音響心理学的なマスキング閾値）と比較することを含む。前記少なくとも一つの周波数係数から導出された値は、対応する複数の周波数（たとえばスケール因子帯域）についての複数の周波数係数から導出された平均エネルギー値（たとえばスケール因子帯域エネルギー）に対応していてもよい。詳細には、平均エネルギー値は、前記複数の周波数係数の平均であってもよい。上記比較の結果として、周波数係数は、該周波数係数がエネルギー閾値より低ければ、0と置かれてもよい。エネルギー閾値は、オーディオ・エンコーダによって、たとえばSBRベースのオーディオ・エンコーダのコア・エンコーダによって適用される音響心理学的モデルから導出されてもよい。詳細には、エネルギー閾値は、周波数係数のブロックを量子化するためにオーディオ・エンコーダによって使用される周波数依存のマスキング閾値から導出されてもよい。

クロマ・ベクトルを決定する段階は、前記第二のブロックの周波数係数の一部または全部をクロマ・ベクトルの諸音程クラス〔トーン・クラス〕に分類することを含んでいてもよい。その後、クロマ・ベクトルの諸音程クラスについての累積されたエネルギーが、分類された周波数係数に基づいて決定されてもよい。例として、周波数係数は、クロマ・ベクトルの諸音程クラスに関連付けられた諸帯域通過フィルタを使って分類されてもよい。

オーディオ信号（サンプルのブロックのシーケンスを含む）のクロマグラムは、オーディオ信号のサンプルのブロックのシーケンスからクロマ・ベクトルのシーケンスを決定し、クロマ・ベクトルの該シーケンスをサンプルのブロックのシーケンスに関連する時間軸に対してプロットすることによって決定されてもよい。換言すれば、サンプルのブロックのシーケンスについて（すなわち、一連のフレームについて）本稿で概説される方法を逐次反復することによって、信頼できるクロマ・ベクトルが、どのフレームも無視することなく（たとえば、短ブロックのシーケンスを含む過渡オーディオ信号についてのフレームを無視することなく）、フレーム毎に決定されうる。結果として、連続的なクロマグラム（フレーム毎に（少なくとも）一つのクロマ・ベクトルを含む）が決定されてもよい。

もう一つの側面によれば、オーディオ信号をエンコードするよう適応されたオーディオ・エンコーダが記載される。オーディオ・エンコーダは、オーディオ信号の（可能性としてはダウンサンプリングされた）低周波数成分をエンコードするよう適応されたコア・エンコーダを有していてもよい。コア・エンコーダは典型的には、サンプルのブロックを周波数領域に変換してそれにより周波数係数の対応するブロックを与えることによって、低周波数成分のサンプルのブロックをエンコードするよう適応されている。さらに、オーディオ・エンコーダは、周波数係数のブロックに基づいてオーディオ信号の低周波数成分のサンプルのブロックのクロマ・ベクトルを決定するよう適応されたクロマ決定ユニットを有していてもよい。この目的のために、クロマ決定ユニットは、本稿で概説される方法段階の任意のものを実行するよう適応されていてもよい。エンコーダはさらに、オーディオ信号の対応する高周波数成分をエンコードするよう適応されたスペクトル帯域複製エンコーダを有していてもよい。さらに、エンコーダは、前記コア・エンコーダおよび前記スペクトル帯域複製エンコーダによって与えられるデータからエンコードされたビットストリームを生成するよう適応されたマルチプレクサを有していてもよい。さらに、前記マルチプレクサは、クロマ・ベクトルから導出された情報（たとえばコードおよび／またはキーといったクロマ・ベクトルから導出される高レベルの情報）を、メタデータとして、エンコードされたビットストリームに加えるよう適応されていてもよい。例として、エンコードされたビットストリームは、MP4フォーマット、3GPフォーマット、3G2フォーマット、LATMフォーマットの任意のものにおいてエンコードされてもよい。

本稿に記載される方法はオーディオ・デコーダ（たとえばSBRベースのオーディオ・エンコーダ）に適用されてもよいことを注意しておくべきである。そのようなオーディオ・デコーダは典型的には、エンコードされたビットストリームを受領するよう適応されており、エンコードされたビットストリームから周波数係数の（量子化された）ブロックを抽出するよう適応されている多重分離およびデコード・ユニットを有する。周波数係数のこれらのブロックは、本稿で概説されているようにクロマ・ベクトルを決定するために使われてもよい。

結果として、オーディオ信号をデコードするよう適応されたオーディオ・デコーダが記述される。オーディオ・デコーダは、ビットストリームを受領するよう適応されており、受領されたビットストリームから周波数係数のブロックを抽出するよう適応された多重分離およびデコード・ユニットを有する。周波数係数のブロックは、オーディオ信号の（ダウンサンプリングされた）低周波数成分のサンプルの対応するブロックに関連付けられている。詳細には、周波数係数のブロックは、対応するオーディオ・エンコーダにおいて導出された周波数係数の対応するブロックの量子化されたバージョンに対応してもよい。デコーダにおける周波数係数のブロックは、（逆変換を使って）時間領域に変換されて、オーディオ信号の（ダウンサンプリングされた）低周波数成分のサンプルの再構成されたブロックを生じてもよい。

さらに、オーディオ・デコーダは、ビットストリームから抽出された周波数係数のブロックに基づいてオーディオ信号の（低周波数成分の）サンプルのブロックのクロマ・ベクトルを決定するよう適応されたクロマ決定ユニットを有する。クロマ決定ユニットは、本稿で概説される方法段階の任意のものを実行するよう適応されていてもよい。

さらに、いくつかのオーディオ・デコーダは音響心理学的モデルを有することがあることを注意しておくべきである。そのようなオーディオ・デコーダの例は、たとえばドルビー・デジタルおよびドルビー・デジタル・プラスである。この音響心理学的モデルは、（本稿で概説される）クロマ・ベクトルの決定のために使用されてもよい。

さらなる側面によれば、ソフトウェア・プログラムが記述される。ソフトウェア・プログラムは、プロセッサ上で実行され、コンピューティング装置上で実行されたときに本稿で概説される方法段階を実行するよう適応されていてもよい。

もう一つの側面によれば、記憶媒体が記述される。記憶媒体は、プロセッサ上で実行され、コンピューティング装置上で実行されたときに本稿で概説される方法段階を実行するよう適応されたソフトウェア・プログラムを有していてもよい。

さらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を有していてもよい。

本稿で概説される好ましい実施形態を含む方法およびシステムは担体で使われても、あるいは本稿で開示される他の方法およびシステムとの組み合わせで使用されてもよいことを注意しておくべきである。さらに、本稿で概説される方法およびシステムのあらゆる側面は、任意に組み合わされることができる。特に、請求項の特徴は任意の仕方で互いに組み合わされることができる。

本発明について、付属の図面を参照しつつ、例示的な仕方で下記で説明する。
クロマ・ベクトルの例示的な決定方式を示す図である。スペクトログラムの係数をクロマ・ベクトルの例示的な音程クラスに分類するための例示的な帯域通過フィルタを示す図である。クロマ決定ユニットを有する例示的なオーディオ・エンコーダのブロック図である。例示的な高効率先進オーディオ符号化（High Efficiency−Advanced Audio Coding）エンコーダおよびデコーダのブロック図である。修正離散コサイン変換の決定方式を示す図である。ＡおよびＢは、例示的な音響心理学的周波数曲線を示す図である周波数係数の（推定された）長ブロックの例示的なシーケンスを示す図である。周波数係数の（推定された）長ブロックの例示的なシーケンスを示す図である。周波数係数の（推定された）長ブロックの例示的なシーケンスを示す図である。周波数係数の（推定された）長ブロックの例示的なシーケンスを示す図である。周波数係数の（推定された）長ブロックの例示的なシーケンスを示す図である。さまざまな長ブロック推定方式から導出されるクロマ・ベクトルの類似性についての例示的な実験結果を示す図である。オーディオ信号についてのクロマ・ベクトルのシーケンスを決定する方法の例示的なフローチャートである。

今日の記憶解決策は、音楽コンテンツの巨大なデータベースをユーザーに提供する容量をもつ。Simfyのようなオンライン・ストリーミング・サービスは1300万曲を超える曲を提供し、こうしたストリーミング・サービスは大きなデータベース内をナビゲートして、加入者に適切な音楽トラックを選択してストリーミングする課題に直面している。同様に、データベースに記憶された音楽の大きな個人的コレクションをもつユーザーは、適切な音楽を選択するという同じ問題をもつ。そのような大量のデータを扱うことができるためには、音楽を発見するための新しい方法が望ましい。特に、ユーザーの音楽に対する選好される嗜好が既知であるときに、音楽検索システムがユーザーに対して似た種類の音楽を提案することが有益でありうる。

音楽類似性を識別するためには、テンポ、リズム、ビート、ハーモニー、メロディー、ジャンルおよびムードといった数多くの高レベルの内容的特徴が必要とされることがあり、音楽コンテンツから抽出される必要があることがある。音楽情報検索（MIR）は、これらの音楽特徴の多くを計算する方法を提供する。たいていのMIR戦略は中レベルの記述子に依拠しており、それから必要な高レベルの音楽特徴が得られる。中レベルの記述子の一例は、図１に示されているいわゆるクロマ・ベクトル１００である。クロマ・ベクトル１００は通例はK次元ベクトルであり、ベクトルの各次元がある半音クラスのスペクトル・エネルギーに対応する。西洋音楽の場合、典型的にはK＝12である。他の種類の音楽については、Kは異なる値を有していてもよい。クロマ・ベクトル１００は、ある特定の時点でのオーディオ信号のスペクトル１０１（たとえば、短期間フーリエ変換（STFT: Short Term Fourier Transform）の振幅スペクトルを使って決定される）を単一のオクターブにマッピングして折り畳むことによって得られてもよい。よって、クロマ・ベクトルは、その特定の時点におけるオーディオ信号のメロディーおよびハーモニー内容を捕捉する一方、スペクトログラム１０１に比べて音色の変化にはそれほど敏感ではない。

図１に示されるように、オーディオ信号のクロマ特徴は、スペクトル１０１を音楽ピッチ知覚のシェパード（Shepard）の螺旋表現１０２に投影することによって視覚化できる。表現１０２では、クロマは真上から見たときの螺旋１０２の周上の位置に当たる。他方、高さは横から見たときの螺旋の垂直位置に当たる。高さはオクターブの位置に対応する。すなわち、高さはオクターブを示す。クロマ・ベクトルは、振幅スペクトル１０１を螺旋１０１のまわりに巻き付け、螺旋１０２の周上で対応する諸位置にあるが異なるオクターブ（異なる高さ）にあるスペクトル・エネルギーをクロマ（または音程クラス）に投影し、それにより半音クラスのスペクトル・エネルギーを総和することによって抽出されうる。

半音クラスのこの分布はオーディオ信号のハーモニー内容を捕捉する。クロマ・ベクトルの時間的な進行はクロマグラムとして知られる。クロマ・ベクトルおよびクロマグラム表現は、コードネーム（たとえばC、EおよびGの大きなクロマ・ベクトル値をもつCメジャー・コード）を識別するため、オーディオ信号の全体的なキーを推定するため（キーは楽曲の最終落着点または楽曲のあるセクションの焦点を表わす主三和音、コード、長調／短調を特定する）、オーディオ信号の旋法を推定するため（旋法は音階の型を表わす、たとえば長調または短調の楽曲）、楽曲内および楽曲間の類似性を検出するため（楽曲内のハーモニー／メロディー類似性または類似した楽曲のプレイリストを生成するための楽曲のコレクションにわたるハーモニー／メロディー類似性）、楽曲を特定するためおよび／または楽曲のさびを抽出するために使われてもよい。

よって、クロマ・ベクトルは、オーディオ信号の短期スペクトルの単一のオクターブへのスペクトル的折り畳みおよび折り畳まれたスペクトルのその後の12次元ベクトルへの分解によって得ることができる。この操作は、オーディオ信号の適切な時間‐周波数表現に依拠する。適切な時間‐周波数表現は好ましくは周波数領域において高い分解能をもつ。オーディオ信号のそのような時間‐周波数表現の計算は計算集約的であり、既知のクロマトグラム計算方式では多くの計算パワーを費消する。

以下では、クロマ・ベクトルを決定するための基本的な方式について述べる。表１（第四オクターブにおける西洋音楽の諸半音についてのHz単位での周波数）で見て取れるように、基準ピッチ、一般にはA4音についての440Hzがわかっているときには、音の周波数への直接的なマッピングが可能である。

二つの半音の周波数の間の倍数は¹²√2であり、よって二つのオクターブの間の倍数は2＝(¹²√2)¹²である。周波数を倍にすることは音を１オクターブ上げることと等価なので、この体系は周期的と見ることができ、円筒状の座標系１０２で表示することができる。ここで、動径軸が12音の一つまたはクロマ値の一つを表わし（cと称する）、長手方向位置が音高を表わす（hと称する）。結果として、知覚されるピッチまたは周波数fはf＝2^c+h、c∈[0,1)、h∈Z として書くことができる。

オーディオ信号（たとえば楽曲）をそのメロディーおよびハーモニーに関して解析するとき、時間を追ってそのハーモニー情報を示す視覚的表示が望ましい。一つの方法はいわゆるクロマグラムである。クロマグラムでは、一フレームのスペクトル内容がクロマ・ベクトルと呼ばれる半音の12次元のベクトルにマッピングされ、時間に対してプロットされる。クロマ値cは上述した式を

と倒置することによって所与の周波数fから得ることができる。ここで、

は、複数のオクターブの単一のオクターブへのスペクトル的な折り畳み（螺旋表現１０２によって描かれる）に対応する床演算である。あるいはまた、クロマ・ベクトルは、オクターブ毎の12個の帯域通過フィルタのセットを使うことによって決定されてもよい。ここで、各帯域通過は、特定の時点におけるオーディオ信号の振幅スペクトルから特定のクロマのスペクトル・エネルギーを抽出するよう適応される。よって、各クロマ（または音程クラス）に対応するスペクトル・エネルギーが振幅スペクトルから単離され、その後、その特定のクロマについてのクロマ値cを与えるよう合計されることができる。A音のクラスについての例示的な帯域通過フィルタ２００が図２に示されている。クロマ・ベクトルおよびクロマグラムを決定するためのそのようなフィルタ・ベースの方法は非特許文献１に記載されている。さらなるクロマ抽出方法は非特許文献２に記載されている。両文献は参照によって組み込まれる。

上記で概説したように、クロマ・ベクトルおよびクロマグラムの決定は、オーディオ信号の適切な時間‐周波数表現の決定を必要とする。これは典型的には高い計算上の複雑さに結びついている。本稿では、MIRプロセスを、すでに同様の時間‐周波数変換を利用している既存のオーディオ処理方式に統合することによって計算努力を軽減することが提案される。そのような既存のオーディオ処理方式の望ましい品質は、高い周波数分解能をもつ時間‐周波数表現、時間‐周波数変換の効率的な実装および結果として得られるクロマグラムの信頼性および品質を潜在的に改善するために使用できる追加的なモジュールの可用性であろう。

オーディオ信号（特に音楽信号）は典型的にはエンコードされた（すなわち圧縮された）フォーマットで記憶および／または伝送される。これは、MIRプロセスがエンコードされたオーディオ信号との関連ではたらくべきであるということを意味する。したがって、時間‐周波数変換を利用するオーディオ・エンコーダとの関連でオーディオ信号のクロマ・ベクトルおよび／またはクロマグラムを決定することが提案される。特に、高効率（HE）エンコーダ／デコーダ、スペクトル帯域複製（SBR）を利用するエンコーダ／デコーダを利用することが提案される。そのようなSBRベースのエンコーダ／デコーダの例はHE-AAC（先進オーディオ符号化）エンコーダ／デコーダである。HE-AACコーデックは、非常に低いビットレートでリッチな聴取経験を実現するために設計されており、放送、モバイル・ストリーミングおよびダウンロード・サービスにおいて広く使われている。代替的なSBRベースのコーデックはたとえば、AACコア・エンコーダの代わりにmp3コア・エンコーダを利用するmp3PROコーデックである。以下では、HE-AACコーデックを参照するが、提案される方法およびシステムは他のオーディオ・コーデック、特に他のSBRベースのコーデックにも適用可能であることを注意しておくべきである。

よって、本稿では、オーディオ信号のクロマ・ベクトル／クロマグラムを決定するために、HE-AACにおいて利用可能な時間‐周波数変換を利用することが提案される。よって、クロマ・ベクトル決定のための計算上の複雑さが有意に軽減される。クロマグラムを得るためにオーディオ・エンコーダを使うことの、計算コストの節約以外のもう一つの利点は、典型的なオーディオ・コーデックが人間の知覚に焦点を当てているという事実である。これは、典型的なオーディオ・コーデック（HE-AACコーデックなど）が、さらなるクロマグラム向上のために好適でありうる良好な音響心理学的ツールを提供するということを意味する。換言すれば、クロマグラムの信頼性を高めるために、オーディオ・エンコーダ内で利用可能な音響心理学的ツールを利用することが提案される。

さらに、オーディオ・エンコーダ自身も追加的なクロマグラム計算モジュールの存在から裨益することを注意しておくべきである。クロマグラム計算モジュールが助けになるメタデータ、たとえば和音情報を計算することを許容し、そうした情報がオーディオ・エンコーダによって生成されるビットストリームのメタデータ中に含められてもよいからである。この追加的なメタデータは、デコーダ側での向上した消費者経験を提供するために使われることができる。特に、追加的なメタデータはさらなるMIR応用のために使用されてもよい。

図３は、オーディオ・エンコーダ（たとえばHE-AACエンコーダ）３００およびクロマグラム決定モジュール３１０の例示的なブロック図を示している。オーディオ・エンコーダ３００は、時間‐周波数変換３０２を使ってオーディオ信号３０１を時間‐周波数領域に変換することによってオーディオ信号３０１をエンコードする。そのような時間‐周波数変換３０２の典型的な例は、たとえばAACエンコーダのコンテキストにおいて使われる離散コサイン変換（MDCT）である。典型的には、オーディオ信号３０１の諸サンプルx[k]のフレームは周波数変換（たとえばMDCT）を使って周波数領域に変換され、それにより周波数係数X[k]の組を与える。周波数係数X[k]の組は、量子化・符号化ユニット３０３において量子化され、エンコードされる。ここで、量子化および符号化は典型的には知覚モデル３０６を考慮に入れる。その後、符号化されたオーディオ信号は、エンコード・ユニットまたはマルチプレクサ・ユニット３０４において特定のビットストリーム・フォーマット（たとえばMP4フォーマット、3GPフォーマット、3G2フォーマットまたはLATMフォーマット）にエンコードされる。特定のビットストリーム・フォーマットへのエンコードは典型的には、エンコードされたオーディオ信号へのメタデータの追加を含む。結果として、特定のフォーマットのビットストリーム３０５（たとえば、MP4フォーマットでのHE-AACビットストリーム）が得られる。このビットストリーム３０５は典型的にはオーディオ・コア・エンコーダからのエンコードされたデータならびにSBRエンコーダ・データおよび追加的なメタデータを含む。

クロマグラム決定モジュール３１０は、オーディオ信号３０１の短期振幅スペクトル１０１を決定するために時間‐周波数変換３１１を利用する。その後、クロマ・ベクトルのシーケンス（すなわちクロマグラム３１３）がユニット３１２において、短期振幅スペクトル１０１のシーケンスから決定される。

図３は、統合されたクロマグラム決定モジュールを有するエンコーダ３５０をさらに示している。組み合わされたエンコーダ３５０の処理ユニットのいくつかは別個のエンコーダ３００のユニットに対応する。しかしながら、上記のように、エンコードされたビットストリーム３５５は、クロマグラム３５３から導出される追加的なメタデータを用いて、ビットストリーム・エンコード・ユニット３５４において向上させられてもよい。他方、クロマグラム決定モジュールは、エンコーダ３５０の時間‐周波数変換３０２および／またはエンコーダ３５０の知覚的モデル３０６を利用してもよい。換言すれば、クロマグラム計算３５２（可能性としては音響心理学的処理３５６を使う）は、クロマ・ベクトル１００が決定されるもとになる振幅スペクトル１０１を決定するために変換３０２によって与えられる周波数係数X[k]の組を利用してもよい。さらに、知覚的に顕著なクロマ・ベクトル１００を決定するために、知覚的モデル３０６が考慮に入れられてもよい。

図４は、HE-AACバージョン１およびHE-AACバージョン２（すなわち、ステレオ信号のパラメトリック・ステレオ（PS: parametric stereo）エンコード／デコードを含むHE-AAC）において使用される例示的なSBRベースのオーディオ・コーデック４００を示している。特に、図４は、いわゆるデュアル・レート・モード、すなわちエンコーダ４１０中のコア・エンコーダ４１２がSBRエンコーダ４１４の半分のサンプリング・レートで機能するモードで動作するHE-AACコーデック４００のブロック図を示している。エンコーダ４１０の入力において、入力サンプリング・レートfs＝fs_inでのオーディオ信号３０１が与えられる。該オーディオ信号３０１は、オーディオ信号３０１の低周波数成分を与えるために、ダウンサンプリング・ユニット４１１において因子2だけダウンサンプリングされる。典型的には、ダウンサンプリング・ユニット４１１は、ダウンサンプリングに先立って高周波成分を除去する（それによりエイリアシングを避ける）ために低域通過フィルタを有する。ダウンサンプリング・ユニット４１１は、低下したサンプリング・レートfs/2＝fs_in/2の低周波成分を与える。低周波成分はコア・エンコーダ４１２（たとえばAACエンコーダ）によってエンコードされて、低周波成分のエンコードされたビットストリームを与える。

オーディオ信号の高周波成分はSBRパラメータを使ってエンコードされる。この目的のため、オーディオ信号３０１は分解フィルタバンク４１３（たとえば、64個などの周波数帯を有する直交ミラー・フィルタバンク（QMF））を使って分解される。結果として、オーディオ信号の複数のサブバンド信号が得られる。ここで、各時点tにおいて（または各サンプルkにおいて）、前記複数のサブバンド信号は、この時点tにおけるオーディオ信号３０１のスペクトルの指標を与える。前記複数のサブバンド信号はSBRエンコーダ４１４に与えられる。SBRエンコーダ４１４は、複数のSBRパラメータを決定する。ここで、前記複数のSBRパラメータは、対応するデコーダ４３０において（再構成された）低周波成分からオーディオ信号の高周波成分を再構成することを可能にする。SBRエンコーダ４１４は典型的には、前記複数のSBRパラメータおよび（再構成された）低周波成分に基づいて決定される再構成された高周波成分がもとの高周波成分を近似するよう、前記複数のSBRパラメータを決定する。この目的のために、SBRエンコーダ４１４は、もとの高周波成分と再構成された高周波成分に基づく誤差最小化基準（たとえば平均二乗誤差基準）を利用してもよい。

前記複数のSBRパラメータおよび前記低周波成分のエンコードされたビットストリームはマルチプレクサ４１５（たとえばエンコーダ・ユニット３０４）内で結合され、全体的なビットストリーム、たとえばHE-AACビットストリーム３０５を与え、これが記憶されたり伝送されたりしてもよい。全体的なビットストリーム３０５は、前記複数のSBRパラメータを決定するためにSBRエンコーダ４１４によって使用されたSBRエンコーダ設定に関する情報をも含む。さらに、本稿では、オーディオ信号３０１のクロマグラム３１３、３５３から導出されたメタデータを全体的なビットストリーム３０５に加えることが提案される。

対応するデコーダ４３０は、前記全体的なビットストリーム３０５から、サンプリング・レートfs_out＝fs_inの圧縮されていないオーディオ信号を生成してもよい。コア・デコーダ４３１はSBRパラメータを、低周波成分のエンコードされたビットストリームから分離する。さらに、コア・デコーダ４３１（たとえばAACデコーダ）は、低周波成分のエンコードされたビットストリームをデコードして、デコーダ４３０の内部サンプリング・レートfsでの再構成された低周波成分の時間領域信号を与える。再構成された低周波成分は分解フィルタバンク４３２を使って分解される。デュアル・レート・モードでは、内部サンプリング・レートfsはデコーダ４３０においては、入力サンプリング・レートfs_inおよび出力サンプリング・レートfs_outとは異なることを注意しておくべきである。これは、AACデコーダ４３１はダウンサンプリングされた領域で、すなわち入力サンプリング・レートfs_inの半分でありオーディオ信号３０１の出力サンプリング・レートfs_outの半分である内部サンプリング・レートfsで機能するという事実のためである。

分解フィルタバンク４３２（たとえば32個などの周波数帯域を有する直交ミラー・フィルタバンク）は典型的には、エンコーダ４１０において使われる分解フィルタバンク４１３に比べ半分の数の周波数帯しかもたない。これは、オーディオ信号全体ではなく、再構成された低周波成分のみが分解される必要があるという事実のためである。再構成された低周波成分の結果として得られる複数のサブバンド信号は、受領されるSBRパラメータとの関連でSBRデコーダ４３３において、再構成された高周波成分の複数のサブバンド信号を生成するために使用される。その後、合成フィルタバンク４３４（たとえば64個などの周波数帯の直交ミラー・フィルタバンク）が、時間領域での再構成されたオーディオ信号を与えるために使われる。典型的には、合成フィルタバンク４３４は、分解フィルタバンク４３２の周波数帯の数の二倍の数の周波数帯をもつ。再構成された低周波成分の前記複数のサブバンド信号は、合成フィルタバンク４３４の下半分の諸周波数帯に入力されてもよく、再構成された高周波成分の前記複数のサブバンド信号は、合成フィルタバンク４３４の上半分の諸周波数帯に入力されてもよい。合成フィルタバンク４３４の出力における再構成されたオーディオ信号は、信号サンプリング・レートfs_out＝fs_inに対応する内部サンプリング・レート2fsをもつ。

よって、HE-AACコーデック４００は、SBRパラメータの決定のために時間‐周波数変換４１３を提供する。しかしながら、この時間‐周波数変換４１３は典型的には、非常に低い周波数分解能をもち、よってクロマグラム決定のために好適ではない。他方、コア・エンコーダ４１２、特にAACコード・エンコーダも、より高い周波数分解能で時間‐周波数変換（典型的にはMDCT）を利用する。

AACコア・エンコーダはオーディオ信号をブロックまたはフレームと呼ばれる一連のセグメントに分解する。窓〔ウィンドー〕と呼ばれる時間領域フィルタは、これらのブロックにおいてデータを修正することによって、ブロックからブロックへのなめらかな遷移を提供する。AACコア・エンコーダは、それぞれ長ブロックおよび短ブロックと称されるM＝1028サンプルおよびM＝128サンプルという二つのブロック長の間で動的に切り換えるよう適応される。よって、AACコア・エンコーダは、トーン様（定常状態の、ハーモニー的にリッチな複雑なスペクトル信号）（長ブロックを使う）とインパルス様（過渡的な信号）（8個の短ブロックのシーケンスを使う）との間で揺れ動くオーディオ信号をエンコードするよう適応される。

サンプルからなる各ブロックは、修正離散コサイン変換（MDCT）を使って周波数領域に変換される。ブロック・ベース（フレーム・ベースとも称される）の時間周波数変換のコンテキストにおいて典型的に生じるスペクトル漏れの問題を回避するために、MDCTは重複窓を利用する。すなわち、MDCTはいわゆる重複変換の例である。このことは図５に示されている。図５は、フレームまたはブロック５０１のシーケンスを含むオーディオ信号３０１を示している。図示した例では、各ブロック５０１はオーディオ信号３０１のM個のサンプルを含む（長ブロックについてはM＝1024、短ブロックについてはM＝128）。上記変換を単一のブロックだけに適用するのではなく、重複変換であるMDCT変換は、シーケンス５０２によって示されるように、二つの隣り合うブロックを重複的に変換する。逐次のブロック間の遷移をさらになめらかにするために、長さ2Mの窓関数w[k]がさらに適用される。この窓は、エンコーダにおける変換とデコーダにおける逆変換で、二回適用されるので、窓関数w[k]はプリンセン・ブラッドリー（Princen-Bradley）条件を満たすべきである。結果として得られるMDCT変換は次のように書ける。

これは、M個の周波数係数X[k]が2M個の信号サンプルx[l]から決定されることを意味する。

その後、M個の周波数係数X[k]のブロックのシーケンスが音響心理学的モデルに基づいて量子化される。さまざまな規格で記述されるようなオーディオ符号化において使われるさまざまな音響心理学的モデルがある。規格は、ISO13818-7:2005、動画およびオーディオ符号化、2005またはISO14496-3:2009、情報技術――オーディオ・ビジュアル・オブジェクトの符号化――パート３：オーディオ、2009、または3GPP、一般オーディオ・コーデック（General Audio Codec）オーディオ処理機能；向上aac-Plus一般オーディオ・コーデック；エンコーダ仕様AACパート、2004などであり、これらは参照によって組み込まれる。音響心理学的モデルは典型的には、人間の耳が異なる周波数について異なる感度をもつという事実を考慮に入れる。換言すれば、特定の周波数においてオーディオ信号を知覚するために必要とされる音圧レベル（SPL: sound pressure level）は周波数の関数として変化する。これは、図６のａに示されている。ここでは、人間の耳の聴力曲線（hearing curve）６０１の閾値が周波数の関数として示されている。これは、周波数係数X[k]は、図６のａに示される聴力曲線６０１の閾値の考慮のもとに量子化されることができることを意味する。

さらに、人間の耳の聴力はマスキングを受けることを注意しておくべきである。用語マスキングは、スペクトル・マスキングおよび時間的マスキングに細分されうる。スペクトル・マスキングは、ある周波数区間にある、あるエネルギー・レベルのマスク音が、該マスク音の周波数区間の直接的なスペクトル近傍にある他の音をマスクしうることを示す。このことは図６のｂに示されている。この図では、聴力の閾値６０２が、それぞれ中心周波数0.25kHz、1kHzおよび4kHzのまわりの60dBのレベルの狭帯域ノイズのスペクトル近傍において増大することが観察できる。高まった聴覚閾値６０２はマスキング閾値Thrと称される。これは、周波数係数X[k]は、図６のｂに示されるマスキング閾値６０２の考慮のもとに量子化できることを意味する。時間的マスキングは、先行するマスク信号がその後の信号をマスクしうること（ポストマスキングまたは前方マスキングと称される）および／または後続のマスク信号が先行する信号をマスクしうること（プレマスキングまたは後方マスキングと称される）を示す。

例として、3GPP規格からの音響心理学モデルが使用されうる。このモデルは、複数のスペクトル・エネルギーX_enを計算することによって、対応する複数の周波数帯bについて、適切な音響心理学的マスキング閾値を決定する。サブバンドb（本稿では周波数帯域bとも称され、HE-AACのコンテキストではスケール因子帯域とも称される）についての複数のスペクトル・エネルギーX_en[b]は、MDCT周波数係数X[k]から、二乗されたMDCT係数を合計することによって、すなわち次式のように決定されてもよい。

一定のオフセットを使うことは、最悪ケースのシナリオ、つまり可聴周波数帯全体についてのトーン様信号をシミュレートする。換言すれば、音響心理学的モデルはトーン様成分と非トーン様成分の間の区別をしない。すべての信号フレームはトーン様であると想定され、これは「最悪ケース」シナリオを含意する。結果として、トーン様と非トーン様の成分の区別はなされず、よってこの音響心理学的モデルは計算効率がよい。

使用されるオフセット値はSNR（信号対雑音比）値に対応する。これは、高いオーディオ品質を保証するために適切に選ばれるべきである。標準的なAACについては、対数SNR値29dBが定義され、サブバンドbにおける閾値は次式のように決定される。

3GPPモデルは、サブバンドbにおける閾値Thr_sc[b]を隣接するサブバンドb−1、b＋1の閾値Thr_sc[b−1]またはThr_sc[b＋1]の重み付けされたバージョンと比較し、最大を選択することによって人間の聴覚系をシミュレートする。比較は、非対称的なマスキング曲線６０２の異なる傾きをシミュレートするために、下隣についてと上隣についてでそれぞれ異なる周波数依存の重み付け係数s_h[b]およびs_l[b]を使ってなされる。結果として、最低のサブバンドから始まって15dB/Barkの傾きを近似する第一のフィルタリング動作は
Thr'_spr[b]＝max(Thr_sc[b],s_h[b]・Thr_sc[b−1])
によって与えられ、最高のサブバンドから始まって30dB/Barkの傾きを近似する第二のフィルタリング動作は
Thr_spr[b]＝max(Thr'_spr[b],s_l[b]・Thr'_spr[b＋1])
によって与えられる。

計算されたマスキング閾値Thr_spr[b]からサブバンドbについての全体的な閾値Thr[b]を得るために、静穏閾値６０１（Thr_quiet[b]とも称される）も考慮に入れられるべきである。これは、各サブバンドbについて二つのマスキング閾値の高いほうの値をそれぞれ選択して、二つの曲線のうちのより優勢な部分が考慮に入れられるようにすることによってなされうる。これは、全体的なマスキング閾値が
Thr'[b]＝max(Thr_spr[b],Thr_quiet[b])
として決定されうることを意味する。

さらに、全体的なマスキング閾値Thr'[b]にプレエコーの問題に対してより耐性をもたせるために、以下の追加的な修正が適用されてもよい。過渡的信号が発生するとき、いくつかのサブバンドbにおいてはあるブロックから別のブロックにかけてエネルギーの急増または急減がある可能性が高い。エネルギーのそのようなジャンプは、マスキング閾値Thr'[b]の急増につながりうる。これは量子化品質の突然の低下につながる。これは、プレエコー・アーチファクトの形でのエンコードされたオーディオ信号における可聴エラーにつながりうる。よって、マスキング閾値は、現在ブロックについてのマスキング閾値Thr[b]を前のブロックのマスキング閾値Thr_last[b]の関数として選択することによって、時間軸に沿って平滑化されてもよい。具体的には、現在ブロックについてのマスキング閾値Thr[b]は
Thr[b]＝max(rpmn・Thr_spr[b],min(Thr'[b],rpelev・Thr_last[b]))
として決定されてもよい。ここで、rpmn、rpelvは適切な平滑化パラメータである。過渡信号についてのマスキング閾値のこの還元はより高いSMR（Signal to Masking Ratio［信号対マスキング比］）値を引き起こし、よりよい量子化に、ひいてはプレエコー・アーチファクトの形の可聴エラーの減少につながる。

マスキング閾値Thr[b]は、ブロック５０１のMDCT係数を量子化するための量子化および符号化ユニット３０３内で使われる。マスキング閾値Thr[b]より下にあるMDCT係数は相対的に低精度で量子化され、符号化される。すなわち、より少数のビットが投入される。マスキング閾値Thr[b]はまた、本稿でのちに概説するクロマグラム計算３５２の前の知覚的処理３５６のコンテキストにおいて（またはクロマグラム計算３５２のコンテキストにおいて）使用されることもできる。

全体として、コア・エンコーダ４１２は：
・（長ブロックおよび短ブロックについての）MDCT係数のシーケンスの形で時間‐周波数領域におけるオーディオ信号３０１の表現；および
・（長ブロックおよび短ブロックについての）周波数（サブバンド）依存のマスキング閾値Thr[b]の形での信号依存の知覚的モデル、
を提供すると要約されうる。

このデータは、オーディオ信号３０１のクロマグラム３５３の決定のために使われることができる。長ブロック（M＝1024サンプル）については、ブロックのMDCT係数は典型的には、クロマ・ベクトルを決定するために十分高い周波数分解能をもつ。HE-AACエンコーダ４１０におけるAACコア・コーデック４１２はサンプリング周波数の半分で動作するので、HE-AACにおいて使われるMDCT変換領域表現は、SBRエンコードなしのAACの場合より、長ブロックについて一層よい周波数分解能をもつ。例として、サンプリング・レート44.1kHzのオーディオ信号３０１について、長ブロックについてのMDCT係数の周波数分解能はΔf＝10.77Hz/ビンである。これは、たいていの西洋ポピュラー音楽についてクロマ・ベクトルを決定するために十分高い。換言すれば、HE-AACエンコーダのコア・エンコーダの長ブロックの周波数分解能は、クロマ・ベクトルの種々の音程クラスにスペクトル・エネルギーを信頼できる仕方で割り当てる（図１および表１参照）ために十分高い。

他方、短ブロック（M＝128）については、周波数分解能はΔf＝86.13Hz/ビンである。基本周波数（F0）は第六オクターブまでは86.13Hzより多く離間しないので、短ブロックによって与えられる周波数分解能は、典型的には、クロマ・ベクトルの決定のために十分ではない。それにもかかわらず、典型的には短ブロックのシーケンスに関連付けられる過渡オーディオ信号はトーン様情報（たとえば木琴または鉄琴またはテクノ音楽ジャンルからのもの）を含みうるので、短ブロックについてのクロマ・ベクトルを決定することも可能であることが望ましいことがありうる。そのようなトーン様情報は、信頼できるMIRアプリケーションのために重要でありうる。

以下では、短ブロックのシーケンスの周波数分解能を増すためのさまざまな例示的な方式が記述される。これらの例示的な方式は、もとの時間領域オーディオ信号ブロックの周波数領域への変換に比べて、低下した計算量をもつ。これは、これらの例示的な方式は、（時間領域信号からの直接決定に比べ）低下した計算量で短ブロックのシーケンスからのクロマ・ベクトルの決定を許容することを意味する。

上記で概説したように、AACエンコーダは典型的には、過渡オーディオ信号をエンコードするために単一の長ブロックの代わりに八つの短ブロックのシーケンスを選択する。よって、AACの場合N＝8として、八つのMDCT係数ブロックX_l[k]、l＝0,…,N−1のシーケンスが与えられる。短ブロック・スペクトルの周波数分解能を増すための第一の方式は、長さM_short（＝128）のN個の周波数係数ブロックX₁ないしX_Nを連結して、周波数係数をインターリーブすることである。この短ブロック・インターリーブ方式（SIS: short-block interleaving scheme）は、周波数係数をその時間インデックスに従って配列し直して長さM_long＝NM_short（＝1024）の新たなブロックX_SISにする。これは、
X_SIS[kN＋1]＝X_l[k]、k∈[0,…,M_short−1]、l∈[0,…,N−1]
に従ってなされる。周波数係数のこのインターリーブは周波数係数の数を増し、よって分解能を増す。だが、異なる時点における同じ周波数のN個の低分解能係数が同じ時点の異なる周波数のN個の高分解能係数にマッピングされるので、±N/2ビンの分散をもつ誤差が導入される。それにもかかわらず、HE-AACまたはAACの場合、この方法は、M_short＝128の長さをもつN＝8個の短ブロックの係数をインターリーブすることによって、M_long＝1024個の係数をもつスペクトルを推定することを許容する。

N個の短ブロックのシーケンスの周波数分解能を増すためのさらなる方式は、適応ハイブリッド変換（AHT: adaptive hybrid transform）に基づく。AHTは、時間信号が比較的一定のままであればそのスペクトルは典型的には急速に変化しないという事実を活用する。そのようなスペクトル信号の脱相関は、低周波数の諸ビンでのコンパクトな表現につながる。信号を脱相関させるための変換は、カルーネン・レーベ変換（KLT: Karhunen-Loeve Transform）を近似するDCT-II（離散コサイン変換）であってもよい。KLTは、脱相関の意味で最適である。しかしながら、KLTは信号依存であり、よって高い複雑さなしには適用可能ではない。AHTの次の公式は、上述したSISと、対応する短ブロック周波数ビンの周波数係数を脱相関させるためのDCT-II核との組み合わせと見ることができる。

周波数係数X_AHTのブロックは、SISに比べ、低下した誤差分散とともに、増大した周波数分解能をもつ。同時に、AHT方式の計算量は、オーディオ信号サンプルの長ブロックの完全なMDCTに比べて低い。

よって、AHTは、高分解能の長ブロック・スペクトルを推定するためにフレーム（これは長ブロックと等価）のN＝8個の短ブロックにわたって適用されてもよい。それにより、結果として得られるクロマグラムの品質は、短ブロック・スペクトルのシーケンスを使う代わりの、長ブロック・スペクトルの近似から裨益する。DCT-IIが非重複変換なので、一般に、AHT方式は、任意の数のブロックに適用できることを注意しておくべきである。したがって、AHT方式を短ブロックのシーケンスの部分集合に適用することが可能である。これは、AHT方式を、当該オーディオの特定の条件に適応させるために有益でありうる。例として、スペクトル類似性指標を計算し、短ブロックのシーケンスを異なる複数の部分集合にセグメント分割することによって、短ブロックのシーケンス内の複数の異なる静的エンティティを区別することができる。これらの部分集合は、次いで、それらの部分集合の周波数分解能を増すために、AHTを用いて処理されることができる。

MDCT係数ブロックX_l[k]、l＝0,…,N−1のシーケンスの周波数分解能を増すためのさらなる方式は、短ブロックのシーケンスの根底にあるMDCT変換および長ブロックのMDCT変換のポリフェーズ記述を使うことである。これをすることにより、MDCT係数ブロックX_l[k]、l＝0,…,N−1のシーケンス（すなわち、短ブロックのシーケンス）の長ブロックについてのMDCT係数ブロックへの厳密な変換を実行する変換行列Yが決定されることができる。すなわち、

ここで、X_PPCは長ブロックのMDCT係数を表わす[3,MN]行列であり、二つの先行フレームの影響Yは[MN,MN,3]変換行列であり（ここで、行列Yの第三の次元は行列Yの係数が三次多項式であるという事実を表わす。つまり、行列の要素はaz^-2＋bz^-1＋cz^-0によって記述される式であり、ここで、zは１フレームの遅延を表わす）、[X₀,…,X_N-1]はN個の短ブロックのMDCT係数から形成される[1,MN]ベクトルである。Nは長さN×Mをもつ長ブロックを形成する短ブロックの数であり、Mは短ブロック内のサンプルの数である。

変換行列Yは、N個の短ブロックをもとの時間領域に変換するための合成行列Gおよび長ブロックの時間領域サンプルを周波数領域に変換する分解行列Hから決定される。すなわち、Y＝G・Hである。変換行列YはN組の短ブロックMDCT係数から長ブロックのMDCT係数の完璧な再構成を許容する。変換行列Yが疎であることを示すことができる。これは、変換精度に著しく影響することなく、変換行列Yの行列係数のかなりの割合が0と置くことができることを意味する。これは、行列GおよびHがいずれも重み付けされたDCT-IV変換係数を有するという事実のためである。DCTは直交変換なので、結果として得られる変換行列Y＝G・Hは疎な行列である。したがって、変換行列Yの係数の多くは、ほぼ0なので、計算において無視できる。典型的には、主対角線のまわりのq個の係数の帯を考えることが十分である。qは1からM×Nまで選ぶことができるので、このアプローチは、短ブロックから長ブロックへの変換の複雑さおよび精度をスケーラブルにする。変換の複雑さが、O(q・M・N・3)であることを示すことができる。これは、再帰的実装におけるO((MN)²)またはO(M・N・log(M・N))の長ブロックMDCTの複雑さと比較される。これは、ポリフェーズ変換行列Yを使う変換が、長ブロックのMDCT再計算よりも低い計算量で実装されうることを意味する。

ポリフェーズ変換に関する詳細は、参照によって組み込まれる非特許文献３に記載されている。

ポリフェーズ変換の結果として、長ブロックMDCT係数X_PPCの推定が得られ、これは短ブロックMDCT係数[X₀,…,X_N-1]よりN倍高い周波数分解能を与える。これは、推定された長ブロックMDCT係数X_PPCが典型的には、クロマ・ベクトルの決定のための十分高い周波数分解能をもつことを意味する。

図７ａないし図７ｅは、長ブロックMDCTに基づくスペクトログラム７００から見て取れる相異なる周波数成分を含むオーディオ信号の例示的なスペクトログラムを示している。図７ｂに示されるスペクトログラム７０１から見て取れるように、スペクトログラム７００は、推定された長ブロックMDCT係数X_PPCによってよく近似される。図示した例では、q＝32である。すなわち、変換行列Yの係数の3%のみが考慮に入れられる。これは、長ブロックMDCT係数X_PPCの推定が、かなり低減した計算上の複雑さで決定できることを意味する。

図７ｃは、推定された長ブロックMDCT係数X_AHTに基づくスペクトログラム７０２を示している。周波数分解能が、スペクトログラム７００に示される正しい長ブロックMDCT係数の周波数分解能より低いことが観察できる。同時に、推定された長ブロックMDCT係数X_AHTが図７ｄのスペクトログラム７０３に示される推定された長ブロックMDCT係数X_SISよりも高い周波数分解能を与えることが見て取れる。図７ｄのスペクトログラム７０３も図７ｅのスペクトログラム７０４によって示される短ブロックMDCT係数[X₀,…,X_N-1]より高い周波数分解能を与える。

上記で概説したさまざまな短ブロックから長ブロックへの変換方式によって与えられる異なる周波数分解能は、長ブロックMDCT係数のさまざまな推定値から決定されるクロマ・ベクトルの品質にも反映される。このことは、いくつかの試験ファイルについて平均クロマ類似性を示す図８に示されている。クロマ類似性は、たとえば、推定された長ブロックMDCT係数から得られるクロマ・ベクトルに比べた、長ブロックMDCT係数から得られたクロマ・ベクトルの平均平方偏差を示しうる。参照符号８０１は、クロマ類似性の基準を示す。ポリフェーズ変換に基づいて決定された推定が比較的高い類似性の度合い８０２を有することが見て取れる。ポリフェーズ変換はq＝32、すなわち、完全な変換複雑さの3%で実行された。さらに、適応ハイブリッド変換をもって達成される類似度８０３、短ブロック・インターリーブ方式をもって達成される類似度８０４および短ブロックに基づいて達成される類似度８０５が示されている。

このように、SBRベースのコア・エンコーダ（たとえばAACコア・エンコーダ）によって提供されるMDCT係数に基づくクロマグラムの決定を許容する方法を記述してきた。対応する長ブロックMDCT係数を近似することによって、短ブロックMDCT係数のシーケンスの分解能がいかにして高められるかを概説してきた。長ブロックMDCT係数は、時間領域からの長ブロックMDCT係数の再計算に比較して低下した計算量で決定できる。よって、低下した計算量で、過渡オーディオ信号についてクロマ・ベクトルを決定することも可能である。

以下では、クロマグラムを知覚的に向上させる方法が記述される。特に、オーディオ・エンコーダによって提供される知覚的モデルを利用する方法が記述される。

すでに上記で概説したように、知覚的かつ不可逆なオーディオ・エンコーダにおける音響心理学的モデルの目的は、典型的には、所与のビットレートに依存して、スペクトルのある種の部分がどのくらい細かく量子化されるべきかを決定することである。換言すれば、エンコーダの音響心理学的モデルは、すべての周波数帯bについて知覚的な重要度について格付けを提供する。知覚的に重要な部分は主としてハーモニックな内容を有しているとの前提のもとに、マスキング閾値の適用は、クロマグラムの品質を高めるはずである。オーディオ信号のノイズ様の部分は無視されるか少なくとも減衰されるので、ポリフォニー信号についてのクロマグラムは特に裨益するはずである。

フレームごとの（すなわちブロックごとの）マスキング閾値Thr[b]がいかにして周波数帯bについて決定されうるかはすでに概説した。エンコーダは、すべての周波数係数X[k]についてのマスキング閾値Thr[b]を、周波数インデックスkを有する周波数帯b（これはHE-AACの場合、スケール因子帯とも称される）におけるオーディオ信号のエネルギーX_en[b]と比較することによって、このマスキング閾値を使う。エネルギー値X_en[b]がマスキング値を下回るときは常に、X[k]は無視される。すなわち、X[k]＝0 ∀X_en[b]＜Thr[b]。典型的には、周波数係数（すなわちエネルギー値）X[k]の対応する周波数帯bのマスキング閾値Thr[b]との係数ごとの比較は、本稿に記載される方法に基づいて決定されるクロマグラムに基づく和音認識アプリケーション内の帯域ごとの比較に対して、軽微な品質上の恩恵しか提供しない。他方、係数ごとの比較は増大した計算量につながる。よって、周波数帯b当たりの平均エネルギー値X_en[b]を使うブロックごとの比較が好ましいことがありうる。

典型的には、ハーモニック寄与者（harmonic contributor）を有する周波数帯bのエネルギー（スケール因子帯エネルギーとも称される）は、知覚的なマスキング閾値Thr[b]より高いべきである。他方、主としてノイズを有する周波数帯bのエネルギーはマスキング閾値Thr[b]より小さいべきである。よって、エンコーダは、周波数係数X[k]の知覚的に動機付けられた、ノイズ低減されたバージョンを提供し、これは所与のフレームについてのクロマ・ベクトル（そしてフレームのシーケンスについてのクロマグラム）を決定するために使用できる。

あるいはまた、修正されたマスキング閾値がオーディオ・エンコーダにおいて利用可能なデータから決定されてもよい。ある特定のブロック（またはフレーム）についてスケール因子帯エネルギー分布X_en[b]を与えられるとき、すべてのスケール因子帯bについて一定のSMR（信号対マスク比）を使って修正されたマスキング閾値Thr_constSMR、すなわちThr_constSMR[b]＝X_en[b]−SMRが決定されてもよい。この修正されたマスキング閾値は、減算しか必要としないので、低い計算コストで計算できる。さらに、修正されたマスキング閾値はスペクトルのエネルギーに厳密に従い、よって、無視されるスペクトル・データの量が、エンコーダのSMR値を調整することによって簡単に調整できる。

トーンのSMRがトーン振幅およびトーン周波数に依存しうることを注意しておくべきである。よって、上述した一定のSMRの代わりに、スケール因子帯エネルギーX_en[b]および／または帯域インデックスbに基づいてSMRが調整／修正されてもよい。

さらに、ある特定のブロック（フレーム）についてスケール因子帯域エネルギー分布X_en[b]がオーディオ・エンコーダから直接受領されることができることを注意しておくべきである。オーディオ・エンコーダは典型的には、（音響心理学的）量子化のコンテキストにおいてこのスケール因子帯域エネルギー分布X_en[b]を決定する。フレームのクロマ・ベクトルを決定する方法は、上述したマスキング閾値を決定するために、（エネルギー値を計算するのではなく）オーディオ・エンコーダから計算済みのスケール因子帯域エネルギー分布X_en[b]を受領し、それによりクロマ・ベクトル決定の計算量を軽減してもよい。

修正されたマスキング閾値は、X[k]＝0 ∀X[k]＜Thr[b]と置くことによって適用されてもよい。スケール因子帯b当たり一つのハーモニック寄与者しかないと想定されるならば、この帯域b内のエネルギーX_en[b]とエネルギー・スペクトルの係数X[k]は同様の値をもつはずである。したがって、一定のSMR値によるX_en[b]の低減は、修正されたマスキング閾値を与えるはずで、それはスペクトルのハーモニック部分のみを捕捉する。スペクトルの非ハーモニック部分は0と置かれるべきである。フレームのクロマ・ベクトル（およびフレームのシーケンスのクロマグラム）は、修正された（すなわち知覚的に処理された）周波数係数から決定されうる。

図９は、オーディオ信号のブロックのシーケンスからクロマ・ベクトルのシーケンスを決定する例示的な方法９００のフローチャートを示している。ステップ９０１では、周波数係数（たとえばMDCT係数）のブロックが受領される。この周波数係数のブロックは、オーディオ信号のサンプルの対応するブロックからこの周波数係数のブロックを導出したオーディオ・エンコーダから受領される。特に、周波数係数のブロックは、オーディオ信号の（ダウンサンプリングされた）低周波数成分からSBRベースのオーディオ・エンコーダによって導出されたものであってもよい。周波数係数のブロックが短ブロックのシーケンスに対応する場合、方法９００は、本稿で概説される短ブロックから長ブロックへの変換方式（たとえば、SIS、AHTまたはPPC方式）を実行する（段階９０２）。結果として、周波数係数の長ブロックについての推定値が得られる。任意的に、方法９００は、上記で概説したように、（推定された）周波数係数のブロックを、音響心理学的な周波数依存の閾値に提出してもよい（段階９０３）。その後、結果として得られる周波数係数の長ブロックからクロマ・ベクトルが決定される（段階９０４）。この方法がブロックのシーケンスについて繰り返されれば、オーディオ信号のクロマグラムが得られる（段階９０５）。

本稿では、低下した計算量でクロマ・ベクトルおよび／またはクロマグラムを決定するためのさまざまな方法およびシステムが記述される。特に、オーディオ・コーデック（HE-AACコーデックなど）によって与えられるオーディオ信号の時間‐周波数表現を利用することが提案される。（望ましくまたは望ましくなくエンコーダが短ブロックに切り替わったオーディオ信号の過渡部分についても）連続的なクロマグラムを提供するために、短ブロック時間‐周波数表現の周波数分解能を増大させる方法が記述される。さらに、クロマグラムの知覚的顕著性を改善するために、オーディオ・コーデックによって提供される音響心理学的モデルを利用することが提案される。

本記載および図面は単に提案される方法およびシステムの原理を例解するものであることを注意しておくべきである。よって、当業者は、本稿で明示的に記載されたり示されたりしていなくても、本発明の原理を具現し、その精神および範囲内に含まれるさまざまな構成を考案できるであろうことは理解されるであろう。さらに、本稿に記載したあらゆる例は、主として、読者が提案される方法およびシステムの原理および当該技術の進歩への発明者によって貢献される概念を理解するのを助ける教育目的のために明確に意図されたものであり、そのような特定的に記載された例および条件への限定なしに解釈されるものである。さらに、本発明の原理、側面および実施形態ならびにその具体例を記載する本稿のあらゆる陳述は、その等価物をも包含することが意図されている。

本稿において記述された方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアによって実装されてもよい。ある種のコンポーネントは、たとえばデジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアおよびまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体上に記憶されていてもよい。該信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットのようなネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、ポータブル電子装置またはオーディオ信号を記憶および／または再生するために使われる他の消費者設備である。

Claims

オーディオ信号のサンプルのブロックについてクロマ・ベクトルを決定する方法であって：
・スペクトル帯域複製ベースのオーディオ・エンコーダ（４１０）のコア・エンコーダ（４１２）から、前記オーディオ信号のサンプルのブロックから導出された周波数係数の対応するブロックを受領する段階であって、前記オーディオ・エンコーダは、周波数係数の前記ブロックから前記オーディオ信号のエンコードされたビットストリーム（３０５）を生成するよう適応されている、段階と；
・周波数係数の受領されたブロックに基づいて前記オーディオ信号のサンプルのブロックについてのクロマ・ベクトルを決定する段階とを含む、
方法。
前記スペクトル帯域複製ベースのオーディオ・エンコーダが：高効率先進オーディオ符号化、mp3PROおよびMPEG-D USACのいずれか一つを適用する、請求項１記載の方法。
周波数係数の前記ブロックが：
・MDCTと称される修正離散コサイン変換の係数のブロック；
・MDSTと称される修正離散サイン変換の係数のブロック；
・DFTと称される離散フーリエ変換の係数のブロック；および
・MCLTと称される修正複素重複変換の係数のブロック、
のうちいずれか一つである、請求項１または２記載の方法。
・前記サンプルの各ブロックが、それぞれM個のサンプルからなるN個の相続く短ブロックを含んでおり；
・前記周波数係数の各ブロックが、それぞれM個の周波数係数からなるN個の対応する短ブロックを含んでいる、
請求項１ないし３のうちいずれか一項記載の方法。
・M個の周波数係数の前記N個の短ブロックからの前記サンプルのブロックに対応する周波数係数の長ブロックを推定する段階であって、周波数係数の推定される長ブロックが周波数係数の前記N個の短ブロックに比べ増大した周波数分解能をもつ、段階と；
・前記オーディオ信号の前記サンプルのブロックについての前記クロマ・ベクトルを、周波数係数の推定された長ブロックに基づいて決定する段階とをさらに含む、
請求項４記載の方法。
周波数係数の長ブロックを推定する前記段階は、周波数係数の前記N個の短ブロックの対応する周波数係数をインターリーブし、それにより周波数係数のインターリーブされた長ブロックを与えることを含む、請求項５記載の方法。
周波数係数の長ブロックを推定する前記段階は、エネルギー圧縮属性をもつ変換、たとえばDCT-II変換を周波数係数のインターリーブされた長ブロックに適用することによって、周波数係数の前記N個の短ブロックのN個の対応する周波数係数を脱相関することを含む、請求項６記載の方法。
周波数係数の長ブロックを推定する前記段階は：
・周波数係数の前記N個の短ブロックの複数の部分集合を形成する段階であって、部分集合当たりの短ブロックの数Lは前記オーディオ信号に基づいて選択される、段階と；
・各部分集合について、周波数係数の前記短ブロックの対応する周波数係数をインターリーブし、それによりその部分集合の周波数係数のインターリーブされた中間ブロックを与える段階と；
・各部分集合について、エネルギー圧縮属性をもつ変換、たとえばDCT-II変換を、その部分集合の周波数係数の前記インターリーブされた中間ブロックに適用し、それにより前記複数の部分集合についての周波数係数の複数の推定された中間ブロックを与える段階とを含む、
請求項５記載の方法。
周波数係数の長ブロックを推定する前記段階は、M個の周波数係数のN個の短ブロックにポリフェーズ変換を適用することを含む、請求項５記載の方法。
・前記ポリフェーズ変換は、M個の周波数係数の前記N個の短ブロックをN×M個の周波数係数の正確な長ブロックに数学的に変換するための変換行列に基づき；
・前記ポリフェーズ変換は、変換行列係数のある割合を0と置いた前記変換行列の近似を利用する、
請求項９記載の方法。
前記変換行列係数の90%以上の割合が0と置かれる、請求項１０記載の方法。
周波数係数の長ブロックを推定する前記段階は：
・周波数係数の前記N個の短ブロックの複数の部分集合を形成する段階であって、部分集合当たりの短ブロックの数Lは前記オーディオ信号に基づいて選択され、L＜Nである、段階と；
・前記複数の部分集合に中間ポリフェーズ変換を適用して、周波数係数の複数の推定された中間ブロックを与える段階とを含み、
前記中間ポリフェーズ変換は、M個の周波数係数のL個の短ブロックをL×M個の周波数係数の正確な中間ブロックに数学的に変換するための中間変換行列に基づき；
前記中間ポリフェーズ変換は、中間変換行列係数のある割合を0と置いた前記中間変換行列の近似を利用する、
請求項５記載の方法。
前記割合が可変であり、それにより周波数係数の推定されるブロックの品質を変える、請求項１０ないし１２のうちいずれか一項記載の方法。
M＝128かつN＝8である、請求項４ないし１３のうちいずれか一項記載の方法。
請求項５ないし１４のうちいずれか一項記載の方法であって、さらに：
・サンプルの複数のブロックに対応する周波数係数の超長ブロックを、周波数係数の対応する複数の長ブロックから推定する段階をさらに含み、周波数係数の推定される超長ブロックは、周波数係数の前記複数の長ブロックに比べ増大した周波数分解能をもつ、方法。
前記クロマ・ベクトルを決定する段階が、周波数係数の受領されたブロックから導出される周波数係数の第二のブロックに対して周波数依存の音響心理学的処理を適用する段階を含む、請求項１ないし１５のうちいずれか一項記載の方法。
周波数係数の前記第二のブロックが、周波数係数の前記推定された長ブロックである、請求項５ないし７および９ないし１１のうちいずれか一項を引用する場合の請求項１６記載の方法。
周波数係数の前記第二のブロックが、周波数係数の前記受領されたブロックである、請求項１ないし４のうちいずれか一項を引用する場合の請求項１６記載の方法。
周波数係数の前記第二のブロックが、周波数係数の前記複数の推定された中間ブロックの一つである、請求項８または１２を引用する場合の請求項１６記載の方法。
周波数係数の前記第二のブロックが、周波数係数の前記推定された超長ブロックである、請求項１５を引用する場合の請求項１６記載の方法。
周波数依存の音響心理学的処理を適用する前記段階が：
・周波数係数の前記第二のブロックの少なくとも一つの周波数係数から導出された値を、周波数依存のエネルギー閾値と比較する段階と；
・前記周波数係数が前記エネルギー閾値より小さければ、前記周波数係数を0と置く段階とを含む、
請求項１６ないし２０のうちいずれか一項記載の方法。
前記少なくとも一つの周波数係数から導出された前記値が、対応する複数の周波数についての複数の周波数係数から導出される平均エネルギーに対応する、請求項２１記載の方法。
前記エネルギー閾値は、前記コア・エンコーダによって適用される音響心理学的モデルから導出される、請求項２１または２２記載の方法。
前記エネルギー閾値は、周波数係数のブロックを量子化するために前記コア・エンコーダによって使用される周波数依存のマスキング閾値から導出される、請求項２３記載の方法。
前記クロマ・ベクトルを決定する段階が：
・前記第二のブロックの周波数係数の一部または全部を前記クロマ・ベクトルの諸音程クラスに分類する段階と；
・前記クロマ・ベクトルの諸音程クラスについての累積されたエネルギーを、分類された周波数係数に基づいて決定する段階とを含む、
請求項１６ないし２４のうちいずれか一項記載の方法。
前記周波数係数は、前記クロマ・ベクトルの諸音程クラスに関連付けられた諸帯域通過フィルタを使って分類される、請求項２５記載の方法。
・前記オーディオ信号のサンプルのブロックのシーケンスからクロマ・ベクトルのシーケンスを決定し、それにより前記オーディオ信号のクロマグラムを与える段階をさらに含む、請求項１ないし２６のうちいずれか一項記載の方法。
オーディオ信号をエンコードするよう適応されたオーディオ・エンコーダであって：
・前記オーディオ信号のダウンサンプリングされた低周波数成分をエンコードするよう適応されたコア・エンコーダであって、前記コア・エンコーダは、サンプルのブロックを周波数領域に変換してそれにより周波数係数の対応するブロックを与えることによって、低周波数成分のサンプルのブロックをエンコードするよう適応されている、コア・エンコーダと；
・周波数係数のブロックに基づいて前記オーディオ信号の低周波数成分のサンプルのブロックのクロマ・ベクトルを決定するよう適応されたクロマ決定ユニットとを有する、
エンコーダ。
前記オーディオ信号の対応する高周波数成分をエンコードするよう適応されたスペクトル帯域複製エンコーダをさらに有する、請求項２８記載のエンコーダ。
・前記コア・エンコーダおよび前記スペクトル帯域複製エンコーダによって与えられるデータから、エンコードされたビットストリームを生成するよう適応されたマルチプレクサをさらに有しており、前記マルチプレクサは、前記クロマ・ベクトルから導出された情報を、メタデータとして、エンコードされたビットストリームに加えるよう適応されている、請求項２９記載のエンコーダ。
前記エンコードされたビットストリームは、MP4フォーマット、3GPフォーマット、3G2フォーマット、LATMフォーマットのうちのいずれか一つでエンコードされる、請求項３０記載のエンコーダ。
オーディオ信号をデコードするよう適応されたオーディオ・デコーダであって：
・エンコードされたビットストリームを受領するよう適応されており、前記エンコードされたビットストリームから周波数係数のブロックを抽出するよう適応されている多重分離およびデコード・ユニットであって、周波数係数の前記ブロックは、前記オーディオ信号のダウンサンプリングされた低周波数成分のサンプルの対応するブロックと関連付けられている、多重分離およびデコード・ユニットと；
・周波数係数の前記ブロックに基づいて前記オーディオ信号のサンプルの前記ブロックのクロマ・ベクトルを決定するよう適応されたクロマ決定ユニットとを有する、
デコーダ。
プロセッサ上で実行され、該プロセッサ装置上で実行されたときに請求項１ないし２７のうちいずれか一項記載の方法を実行するよう適応されたソフトウェア・プログラム。
プロセッサ上で実行され、コンピューティング装置上で実行されたときに請求項１ないし２７のうちいずれか一項記載の方法を実行するよう適応されたソフトウェア・プログラムを有する記憶媒体。
コンピュータ上で実行されたときに請求項１ないし２７のうちいずれか一項記載の方法を実行するための実行可能命令を有するコンピュータ・プログラム・プロダクト。