JP5295433B2

JP5295433B2 - 複雑さがスケーラブルな知覚的テンポ推定

Info

Publication number: JP5295433B2
Application number: JP2012534723A
Authority: JP
Inventors: ビスワス，アリジット; ホロジ，ダニロ; シューク，ミヒャエル
Original assignee: ドルビーインターナショナルアーベー
Priority date: 2009-10-30
Filing date: 2010-10-26
Publication date: 2013-09-18
Anticipated expiration: 2030-10-26
Also published as: BR112012011452A2; US20120215546A1; EP2494544A1; WO2011051279A1; CN102754147A; RU2012117702A; RU2507606C2; TWI484473B; KR20140012773A; CN104157280A; RU2013146355A; KR101370515B1; JP2013508767A; TW201142818A; CN102754147B; JP2013225142A; KR101612768B1; EP2988297A1; US9466275B2; HK1168460A1

Description

本稿は、オーディオまたは複合ビデオ／オーディオ信号のようなメディア信号のテンポを推定する方法およびシステムに関する。特に、本稿は人間の聴取者によって知覚されるテンポの推定ならびにスケーラブルな計算複雑さでのテンポ推定のための方法およびシステムに関する。

ポータブル・ハンドヘルド・デバイス、たとえばPDA、スマートフォン、携帯電話および携帯メディアプレーヤーは典型的にはオーディオおよび／またはビデオのレンダリング機能を有し、重要な娯楽プラットフォームとなっている。この展開は、無線または有線の送信機能がますますそのようなデバイスに浸透することによって推し進められている。HE-AACフォーマットのようなメディア伝送および／または記憶プロトコルのサポートのため、メディア・コンテンツはポータブル・ハンドヘルド・デバイスに連続的にダウンロードおよび記憶されることができ、それにより実質的に無制限の量のメディア・コンテンツを提供できる。

しかしながら、モバイル／ハンドヘルド・デバイスにとっては、限られた計算能力およびエネルギー消費が決定的な制約条件となるので、低計算量アルゴリズムが決定的である。これらの制約条件は、新興市場でのローエンドのポータブル・デバイスにとっては一層決定的である。典型的なポータブル電子装置上で利用可能なメディア・ファイルの多さに鑑み、メディア・ファイルをクラスター化または分類し、それによりポータブル電子装置のユーザーが適切なメディア・ファイル、たとえばオーディオ、音楽および／またはビデオ・ファイルを同定できるようにするためには、MIR（Music Information Retrieval［音楽情報検索］）アプリケーションが望ましいツールである。そのようなMIRアプリケーションについては複雑さの低い計算方式が望ましい。さもなければ、限られた計算および電力資源をもつポータブル電子装置上でのその有用性が損なわれるからである。

音楽類似性などを使ったジャンルおよびムード分類、音楽要約、オーディオ・サムネイル化、自動プレイリスト生成および音楽推薦システムのようなさまざまなMIRアプリケーションのための重要な音楽的特徴は、音楽のテンポである。よって、計算上の複雑さが低いテンポ決定手順があれば、モバイル・デバイス用の上述したMIRアプリケーションの分散型の実装の発展に貢献するであろう。

さらに、楽譜または音楽スコア上のBPM（Beats Per Minute［拍毎分］）で記されたテンポによって音楽テンポを特徴付けることは普通であるが、この値はしばしば知覚的なテンポには対応しない。たとえば、一群の聴取者（技量のある音楽家を含めて）が音楽の抜粋のテンポを注釈付けするよう求められれば、典型的には異なる答えを与える。すなわち、典型的には異なる拍子レベル（metrical level）でタップする〔トントンと拍子を取る〕のである。一部の音楽専門家にとっては、知覚されるテンポはそれほど曖昧ではなく、すべての聴取者が典型的には同じ拍子レベルでタップするが、他の音楽専門家にとっては、テンポは曖昧であることがあり、異なる聴取者は異なるテンポを同定する。換言すれば、知覚的な実験は、知覚されるテンポが記されたテンポとは異なることがありうることを示している。音楽は、優勢な知覚されるパルスが記されるテンポより高いまたは低い拍子レベルであることがありうるという点で、記されるテンポより速く感じられたり、遅く感じられたりすることがありうる。MIRアプリケーションはユーザーによって知覚される可能性が最も高いテンポを取り入れることが好ましいはずであるという事実に鑑み、自動テンポ抽出器は、オーディオ信号の最も知覚的に顕著なテンポを予測するべきである。

既知のテンポ推定方法およびシステムにはさまざまな欠点がある。多くの場合、それらは特定のオーディオ・コーデック、たとえばMP3に限定されており、他のコーデックでエンコードされたオーディオ・トラックには適用できない。さらに、そのようなテンポ推定方法は典型的には、単純で明瞭なリズム構造をもつ西洋ポピュラー音楽に適用される場合にのみ適正に機能する。さらに、既知のテンポ推定方法は知覚的な側面を考慮に入れない。すなわち、聴取者によって知覚される可能性が最も高いテンポを推定することに向けられるものではない。最後に、既知のテンポ推定方式は典型的には、圧縮されないPCM領域、変換領域または圧縮された領域のうちの一つのみにおいて機能する。

既知のテンポ推定方式の上述した欠点を克服するテンポ推定方法およびシステムを提供することが望ましい。特に、コーデックを問わないおよび／または任意の種類の音楽ジャンルに適用可能であるテンポ推定を提供することが望ましい。さらに、オーディオ信号の知覚的に最も顕著なテンポを推定するテンポ推定方式を提供することが望ましい。さらに、上述した領域の任意のもの、すなわち圧縮されないPCM領域、変換領域および圧縮領域のオーディオ信号に適用可能であるテンポ推定方式が望ましい。また、計算複雑さの低いテンポ推定方式を提供することも望ましい。

テンポ推定方式はさまざまなアプリケーションで使用されうる。テンポは音楽における根本的な、意味のある情報であるので、そのようなテンポの信頼できる推定は、自動的なコンテンツ・ベースのジャンル分類、ムード分類、音楽類似性、オーディオ・サムネイル化および音楽要約といった他のMIRアプリケーションの性能を向上させるであろう。さらに、知覚的なテンポについての信頼される推定値は、音楽選択、比較、混合〔ミキシング〕およびプレイリスト作成のための有用な統計量である。特に、自動プレイリスト生成器または音楽ナビゲーターまたはDJ装置のためには、知覚的なテンポまたは感じは典型的には記されるテンポまたは物理的なテンポよりも重要である。さらに、知覚的なテンポについての信頼できる推定値はゲーム用途にも有用でありうる。例として、サウンドトラック・テンポを、ゲームのスピードのような重要なゲーム・パラメータを制御するために使うことができ、逆に、ゲーム・パラメータをサウンドトラック・テンポを制御するために使うことができる。これは、オーディオを使うゲーム・コンテンツをパーソナル化するためおよび向上された経験をユーザーに提供するために使われることができる。さらなる応用分野は、コンテンツ・ベースのオーディオ／ビデオ同期でありうる。ここでは、音楽の拍またはテンポが、イベントのタイミングを取るためのアンカーとして使われる主要情報源となる。

本稿において、用語「テンポ」は、タクトゥス（tactus）パルスのレートであると理解されることを注意しておくべきである。このタクトゥスは、足でトントンと拍子を取るレート（foot tapping rate）、すなわち聴取者がオーディオ信号、たとえば音楽信号を聴いているときに足をトントンとたたく速さとも称される。これは、音楽信号の階層構造を定義する音楽拍子（musical meter）とは異なる。
WO2006/037366A1は、音楽作品の時間領域PCM表現に基づいてエンコードされたリズム・パターンを生成する装置および方法を記載している。US7518053B1は、二つのオーディオ・ストリームからビート（beat）を抽出し、それら二つのオーディオ・ストリームのビートを整列させる方法を記載している。

ある側面によれば、オーディオ信号のエンコードされたビットストリームからオーディオ信号のテンポ情報を抽出する方法であって、エンコードされたビット情報はスペクトル帯域複製データ（spectral band replication data）を含むものが記載される。エンコードされたビットストリームはHE-AACビットストリームまたはmp3PROビットストリームであってもよい。オーディオ信号は音楽信号を含んでいてもよく、テンポ情報の抽出は音楽信号のテンポを推定することを含んでいてもよい。

本方法は、オーディオ信号のある時間区間について、エンコードされたビットストリーム中に含まれるスペクトル帯域複製データの量に関連付けられたペイロード量を決定する段階を含んでいてもよい。特に、エンコードされたビットストリームがHE-AACビットストリームである場合、この段階は、前記時間区間におけるエンコードされたビットストリームの一つまたは複数の充填要素フィールド（fill-element field）に含まれるデータの量を決定し、前記時間区間におけるエンコードされたビットストリームの一つまたは複数の充填要素フィールドに含まれるデータの量に基づいてペイロード量を決定することを含んでいてもよい。

スペクトル帯域複製データが固定されたヘッダを使ってエンコードされうるという事実のため、テンポ情報を抽出するのに先立ってそのようなヘッダを除去することが有益でありうる。特に、本方法は、前記時間区間におけるエンコードされたビットストリームの一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製ヘッダ・データの量を決定する段階を含んでいてもよい。さらに、前記時間区間におけるエンコードされたビットストリームの一つまたは複数の充填要素フィールドに含まれる正味のデータ量が、前記時間区間におけるエンコードされたビットストリームの一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製ヘッダ・データの量を控除または減算することによって決定されてもよい。結果として、ヘッダ・ビットは除去され、ペイロード量は正味のデータ量に基づいて決定されうる。スペクトル帯域複製ヘッダが固定長であるとすれば、本方法は、ある時間区間内のスペクトル帯域複製ヘッダの数Xを数え、前記時間区間におけるエンコードされたビットストリームの一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製ヘッダ・データの量から、該ヘッダの長さのX倍を控除または減算することを含んでいてもよい。

ある実施形態では、ペイロード量は、前記時間区間におけるエンコードされたビットストリームの一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製データの量または正味の量に対応する。代替的または追加的に、実際のスペクトル帯域複製データを決定するために、さらなるオーバーヘッド・データが、一つまたは複数の充填要素フィールドから除去されてもよい。

エンコードされたビットストリームは複数のフレームを含んでいてもよく、各フレームは、前記オーディオ信号の、所定の長さの時間の抜粋に対応する。例として、フレームは、数ミリ秒の音楽信号の抜粋を含んでいてもよい。前記時間区間は、エンコードされたビットストリームの一フレームによってカバーされる時間の長さに対応してもよい。例として、AACフレームは典型的には1024個のスペクトル値、すなわちMDCT係数を含む。スペクトル値は、オーディオ信号の特定の時間インスタンスまたは時間区間の周波数表現である。時間と周波数の間の関係は次のように表すことができる。

f_S＝2・f_MAX および t＝1/f_S
ここで、f_MAXはカバーされる周波数範囲、f_Sはサンプリング周波数、tは時間分解能、すなわち１フレームによってカバーされるオーディオ信号の時間区間である。f_S＝44100Hzのサンプリング周波数について、これは、AACフレームについての時間分解能t＝1024/44100Hz＝23,219msに対応する。HE-AACが、そのコア・エンコーダ（AAC）がサンプリング周波数の半分で機能する「デュアル・レート・システム」として定義される実施形態では、t＝1024/22050Hz＝46,4399msの最大時間分解能が達成できる。

本方法は、上記の決定する段階を、オーディオ信号のエンコードされたビットストリームの一連の時間区間について繰り返し、それによりペイロード量のシーケンスを決定するさらなる段階を含んでいてもよい。エンコードされたビットストリームが一連のフレームを含む場合、この繰り返す段階は、エンコードされたビットストリームのある一組のフレームについて、すなわちエンコードされたビットストリームのすべてのフレームについて実行されてもよい。

あるさらなる段階では、本方法は、ペイロード量のシーケンスにおける周期性を同定してもよい。これは、ペイロード量のシーケンスにおけるピークまたは再帰的なパターンを同定することによって行ってもよい。周期性の同定は、ペイロード量のシーケンスに対してスペクトル解析を実行し、一組のパワー値および対応する周波数を与えることによって行ってもよい。周期性は、前記一組のパワー値における相対的な最大を決定し、対応する周波数として周期性を選択することによって、前記ペイロード量のシーケンスにおいて同定されてもよい。ある実施形態では、絶対的な最大が決定される。

スペクトル解析は典型的には、ペイロード量のシーケンスの時間軸に沿って実行される。さらに、スペクトル解析は典型的には、ペイロード量のシーケンスの複数のサブシーケンスに対して実行され、それにより複数組のパワー値を与える。例として、前記サブシーケンスはオーディオ信号のある長さ、たとえば6秒をカバーしてもよい。さらに、前記サブシーケンスは互いに、たとえば50%、重なり合ってもよい。よって、複数組のパワー値が得られてもよく、パワー値の各組はオーディオ信号のある抜粋に対応してもよい。前記複数組のパワー値を平均することによって、完全なオーディオ信号についてのパワー値の全体的な組が得られてもよい。「平均する」という用語は、平均値を計算するまたは中央値を決定するといったさまざまな型の数学的操作をカバーすることを理解しておくべきである。すなわち、パワー値の全体的な組は、前記複数組のパワー値の平均パワー値の組または中央パワー値の組を計算することによって得られてもよい。ある実施形態では、スペクトル解析の実行は、フーリエ変換またはFFTのような周波数変換を実行することを含む。

前記複数組のパワー値はさらなる処理にかけられてもよい。ある実施形態では、パワー値の組は、その対応する周波数の人間の知覚上の選好に関連付けられた重みを乗算される。例として、そのような知覚的な重みは、人間によってより頻繁に検出されるテンポに対応する周波数を強調してもよい。一方、人間によってそれほど頻繁に検出されないテンポに対応する周波数は減衰させられる。

本方法は、同定された周期性から、オーディオ信号のテンポ情報を抽出するさらなる段階を含んでいてもよい。これは、前記一組のパワー値の絶対的な最大値に対応する周波数を決定することを含んでいてもよい。そのような周波数は、オーディオ信号の物理的に顕著なテンポと称されてもよい。

あるさらなる側面によれば、オーディオ信号の知覚的に顕著なテンポを推定する方法が記述される。知覚的に顕著なテンポは、オーディオ信号、たとえば音楽信号を聴くときに一群のユーザーによって最も頻繁に知覚されるテンポであってもよい。それは典型的には、オーディオ信号、たとえば音楽信号の物理的または音響学的に最も卓越したテンポとして定義されうるオーディオ信号の物理的に顕著なテンポとは異なるものである。

本方法は、オーディオ信号から変調スペクトルを決定する段階を含んでいてもよい。ここで、変調スペクトル（modulation spectrum）は典型的には複数の生起周波数および対応する複数の重要性値を含み、前記重要性値はオーディオ信号における対応する生起周波数の相対的な重要性を示す。換言すれば、生起周波数はオーディオ信号におけるある種の周期性を示し、一方対応する重要性値はオーディオ信号におけるそのような周期性の有意性を示す。例として、周期性は、繰り返し諸時点に生起する、オーディオ信号における過渡音、たとえば音楽信号におけるバス・ドラムの音であってもよい。この過渡音が際立っていれば、その周期性に対応する重要性値は典型的には高くなる。

ある実施形態では、オーディオ信号は時間軸に沿ったPCMサンプルのシーケンスによって表現される。そのような場合、変調スペクトルを決定する段階は、PCMサンプルのシーケンスから、複数の相続く、部分的に重なり合うサブシーケンスを選択する段階と；前記複数の相続くサブシーケンスについての、あるスペクトル分解能を有する複数の相続くパワー・スペクトルを決定する段階と；メル（Mel）周波数変換または他の任意の知覚的に動機付けられた非線形周波数変換を使って前記複数の相続くパワー・スペクトルのスペクトル分解能を凝縮（condense）する段階と；および／または前記複数の相続く凝縮されたパワー・スペクトルに対して時間軸に沿ったスペクトル解析を実行し、それにより前記複数の重要性値およびその対応する生起周波数を与える段階とを含む。

ある実施形態では、前記オーディオ信号は、時間軸に沿った、相続くサブバンド係数ブロックのシーケンスによって表現される。そのようなサブバンド係数は、たとえば、MP3、AAC、HE-AAC、ドルビー・デジタルおよびドルビー・デジタル・プラス・コーデックの場合のように、MDCT係数であってもよい。そのような場合、変調スペクトルを決定する段階は、メル周波数変換を使ってブロック中のサブバンド係数の数を凝縮すること；および／または相続く凝縮されたサブバンド係数ブロックのシーケンスに対して時間軸に沿ったスペクトル解析を実行し、それにより前記複数の重要性値およびその対応する生起周波数を与えることを含んでいてもよい。

ある実施形態では、オーディオ信号は、スペクトル帯域複製データおよび時間軸に沿った複数の相続くフレームを含むエンコードされたビットストリームによって表現される。例として、エンコードされたビットストリームはHE-AACまたはmp3PROビットストリームであってもよい。そのような場合、変調スペクトルを決定する段階は、エンコードされたビットストリームのフレームのシーケンスにおけるスペクトル帯域複製データの量に関連付けられたペイロード量のシーケンスを決定すること；ペイロード量のシーケンスから、複数の相続く、部分的に重なり合うサブシーケンスを選択すること；および／または前記複数の相続くサブシーケンスに対して時間軸に沿ったスペクトル解析を実行し、それにより前記複数の重要性値およびその対応する生起周波数を与えることを含んでいてもよい。換言すれば、変調スペクトルは上で概説した方法に従って決定されてもよい。

さらに、変調スペクトルを決定する段階は、変調スペクトルを向上させる処理を含んでいてもよい。そのような処理は、前記複数の重要性値に、その対応する生起周波数の人間の知覚上の優先に関連付けられた重みを乗算することを含んでいてもよい。

本方法は、物理的に顕著なテンポを、前記複数の重要性値の最大値に対応する生起周波数として決定するさらなる段階を含んでいてもよい。この最大値は、前記複数の重要性値の絶対的な最大値であってもよい。

本方法は、変調スペクトルからオーディオ信号の拍メトリック（beat metric）を決定するさらなる段階を含んでいてもよい。ある実施形態では、拍メトリックは、物理的に顕著なテンポと、前記複数の重要性値のうち比較的高い値、たとえば前記複数の重要性値の二番目に高い値に対応する少なくとも一つの他の生起周波数との間の関係を示す。拍メトリックは：たとえば３／４拍子の場合の3、あるいは４／４拍子の場合の2のうちの一つであってもよい。拍メトリックは、オーディオ信号の物理的に顕著なテンポと少なくとも一つの他の顕著なテンポ、すなわち前記複数の重要性値のうち比較的高い値に対応する生起周波数との間の比に関連付けられる因子であってもよい。一般的な用語では、拍メトリックは、オーディオ信号の複数の物理的に顕著なテンポの間の、たとえばオーディオ信号の二つの物理的に最も顕著なテンポの間の関係を表してもよい。

ある実施形態では、拍メトリックの決定は、複数の0でない周波数遅延について、変調スペクトルの自己相関を決定する段階；自己相関の最大および対応する周波数遅延を同定する段階；および／または対応する周波数遅延および物理的に顕著なテンポに基づいて拍メトリックを決定する段階を含む。拍メトリックの決定はまた、変調スペクトルと複数の拍メトリックにそれぞれ対応する複数の合成されたタッピング関数との間の相互相関を決定する段階；および／または最大相互相関を与える拍メトリックを選択する段階をも含む。

本方法は、変調スペクトルから知覚的テンポ指標を決定する段階を含む。第一の知覚的テンポ指標は、前記複数の重要性値の最大値によって規格化された、前記複数の重要性値の平均値として決定されてもよい。第二の知覚的テンポ指標は、前記複数の重要性値のうち最大重要性値として決定されてもよい。第三の知覚的テンポ指標は、前記変調スペクトルの重心生起周波数として決定されてもよい。

本方法は、知覚的に顕著なテンポを、物理的に顕著なテンポを前記拍メトリックに基づいて修正することによって決定する段階を含んでいてもよい。ここで、前記修正する段階は、知覚的テンポ指標と物理的に顕著なテンポとの間の関係を考慮に入れる。ある実施形態では、知覚的に顕著なテンポを決定する段階は、第一の知覚的テンポ指標が第一の閾値を超えるかどうかを判定し；第一の閾値を超える場合にのみ物理的に顕著なテンポを修正することを含む。ある実施形態では、知覚的に顕著なテンポを決定する段階は、第二の知覚的テンポ指標が第二の閾値を下回るかどうかを判定し；第二の知覚的テンポ指標が第二の閾値を下回る場合にのみ物理的に顕著なテンポを修正することを含む。

代替的または追加的に、知覚的に顕著なテンポを決定する段階は、第三の知覚的テンポ指標と物理的に顕著なテンポとの間のミスマッチを判別し；ミスマッチが判別される場合に、物理的に顕著なテンポを修正することを含んでいてもよい。ミスマッチの判別は、たとえば、第三の知覚的テンポ指標が第三の閾値を下回り、物理的に顕著なテンポが第四の閾値を上回ることを判別することによって、および／または、第三の知覚的テンポ指標が第五の閾値を上回り、物理的に顕著なテンポが第六の閾値を下回ることを判別することによって行われてもよい。そのような知覚的テンポ優先は、第三の知覚的テンポ指標と一群のユーザーによって知覚されるオーディオ信号のスピードの主観的な知覚との間の相関を示しうる。

拍メトリック（beat metric）に基づいて物理的に顕著なテンポを修正する段階は、拍レベル（beat level）を、根底にある拍子の、次の、より高い拍レベルに上げること、および／または拍レベルを、根底にある拍子の、次の、より低い拍レベルに下げることを含んでいてもよい。例として、根底にある拍子が４／４拍子である場合、拍レベルを上げることは、物理的に顕著なテンポ、たとえば四分音符に対応するテンポを２倍増大させ、それにより、次の、より高いテンポ、たとえば八分音符に対応するテンポを与えることを含んでいてもよい。同様の仕方で、拍レベルを下げることは、2で割り、それにより１／８ベースのテンポから１／４ベースのテンポに移行することを含んでいてもよい。

ある実施形態では、拍レベルを上げるまたは下げることは、３／４拍子の場合、物理的に顕著なテンポに3をかけるまたは物理的に顕著なテンポを3で割ること；および／または４／４拍子の場合、物理的に顕著なテンポに2をかけるまたは物理的に顕著なテンポを2で割ることを含んでいてもよい。

あるさらなる側面によれば、プロセッサ上での実行のために適応され、コンピューティング・デバイス上で実行されるときに本稿で概説される方法ステップを実行するよう適応されたソフトウェア・プログラムが記載される。

もう一つの側面によれば、プロセッサ上での実行のために適応され、コンピューティング・デバイス上で実行されるときに本稿で概説される方法ステップを実行するよう適応されたソフトウェア・プログラムを有する記憶媒体が記載される。

もう一つの側面によれば、コンピュータ上で実行されるときに本稿で概説される方法を実行するための実行可能命令を含むコンピュータ・プログラム・プロダクトが記載される。

あるさらなる側面によれば、ポータブル電子装置が記載される。本装置は、オーディオ信号を記憶するよう構成された記憶ユニット；オーディオ信号をレンダリングするよう構成されたオーディオ・レンダリング・ユニット；オーディオ信号についてのテンポ情報を求めるユーザーの要求を受け取るよう構成されたユーザー・インターフェース；および／またはオーディオ信号に対して本稿で概説される方法ステップを実行することによってテンポ情報を決定するよう構成されたプロセッサとを有していてもよい。

もう一つの側面によれば、オーディオ信号のスペクトル帯域複製データを含むエンコードされたビットストリームから、オーディオ信号、たとえばHE-AAC信号のテンポ情報を抽出するよう構成されたシステムが記載される。本システムは、オーディオ信号のある時間区間のエンコードされたビットストリーム中に含まれるスペクトル帯域複製データの量に関連付けられたペイロード量を決定する手段；上記の決定する段階を、オーディオ信号のエンコードされたビットストリームの一連の時間区間について繰り返し、それによりペイロード量のシーケンスを決定する手段；ペイロード量のシーケンスにおける周期性を同定する手段；および／または同定された周期性からオーディオ信号のテンポ情報を抽出する手段を有していてもよい。

あるさらなる側面によれば、オーディオ信号の知覚的に顕著なテンポを推定するよう構成されたシステムが記述される。本システムは、オーディオ信号から変調スペクトルを決定する手段であって、変調スペクトルは複数の生起周波数および対応する複数の重要性値を含み、前記重要性値はオーディオ信号における対応する生起周波数の相対的な重要性を示す、手段；物理的に顕著なテンポを、前記複数の重要性値の最大値に対応する生起周波数として決定する手段；変調スペクトルを解析することによってオーディオ信号の拍メトリックを決定する手段；変調スペクトルから知覚的テンポ指標を決定する手段；および／または拍メトリックに基づいて物理的に顕著なテンポを修正することによって知覚的に顕著なテンポを決定する手段を有していてもよく、前記修正する段階は、知覚的テンポ指標と物理的に顕著なテンポとの間の関係を考慮に入れる。

もう一つの側面によれば、オーディオ信号のメタデータを含むエンコードされたビットストリームを生成する方法が記載される。本方法は、オーディオ信号をエンコードしてペイロード・データのシーケンスにし、それによりエンコードされたビットストリームを与える段階を含んでいてもよい。例として、オーディオ信号は、HE-AAC、MP3、AAC、ドルビー・デジタルまたはドルビー・デジタル・プラスのビットストリームにエンコードされてもよい。代替的または追加的に、本方法は、すでにエンコードされたビットストリームに依拠してもよい。たとえば、本方法は、エンコードされたビットストリームを受け取る段階を含んでいてもよい。

本方法は、オーディオ信号のテンポに関連付けられたメタデータを決定する段階と、該メタデータをエンコードされたビットストリーム中に挿入する段階とを含んでいてもよい。メタデータは、オーディオ信号の物理的に顕著なテンポおよび／または知覚的に顕著なテンポを表すデータであってもよい。メタデータは、オーディオ信号からの変調スペクトルを表すデータであってもよく、ここで、変調スペクトルは、複数の生起周波数および対応する複数の重要性値を含み、前記重要性値はオーディオ信号における対応する生起周波数の相対的な重要性を示す。オーディオ信号のテンポに関連付けられたメタデータは、本稿に概説される方法のいずれに従って決定されてもよいことを注意しておくべきである。すなわち、テンポおよび変調スペクトルは、本稿において概説される方法に従って決定されてもよい。

あるさらなる側面によれば、メタデータを含むオーディオ信号のエンコードされたビットストリームが記載される。エンコードされたビットストリームはHE-AAC、MP3、AAC、ドルビー・デジタルまたはドルビー・デジタル・プラスのビットストリームであってもよい。メタデータは：オーディオ信号の物理的に顕著なテンポおよび／または知覚的に顕著なテンポ；またはオーディオ信号からの変調スペクトルの少なくとも一つを表すデータを含んでいてもよい。ここで、変調スペクトルは、複数の生起周波数および対応する複数の重要性値を含み、前記重要性値はオーディオ信号における対応する生起周波数の相対的な重要性を示す。特に、メタデータは、本稿に概説される方法によって生成されるテンポ・データまたは変調スペクトル・データを含んでいてもよい。

もう一つの側面によれば、オーディオ信号のメタデータを含むエンコードされたビットストリームを生成するよう構成されたオーディオ・エンコーダが記載される。エンコーダは、オーディオ信号をエンコードしてペイロード・データのシーケンスにし、それによりエンコードされたビットストリームを与える手段と；オーディオ信号のテンポに関連付けられたメタデータを決定する手段と；該メタデータをエンコードされたビットストリーム中に挿入する手段とを有していてもよい。上で概説した方法と同様に、本エンコーダは、すでにエンコードされたビットストリームに依拠してもよく、本エンコーダは、エンコードされたビットストリームを受け取る手段を有していてもよい。

あるさらなる側面によれば、オーディオ信号のエンコードされたビットストリームをデコードするための対応する方法およびオーディオ信号のエンコードされたビットストリームをデコードするよう構成された対応するデコーダが記載されることを注意しておくべきである。本方法および本デコーダは、エンコードされたビットストリームから、それぞれのメタデータを、特にテンポ情報に関連するメタデータを抽出するよう構成される。

本稿に記載される実施形態および側面は任意に組み合わせてもよいことを注意しておくべきである。特に、システムのコンテキストにおいて概説された側面および特徴は対応する方法のコンテキストにおいても適用可能であり、逆に、方法のコンテキストにおいて概説された側面および特徴は対応するシステムのコンテキストにおいても適用可能である。さらに、本稿の開示は、従属請求項における先行する請求項の引用により明示的に与えられる請求項の組み合わせ以外の請求項の組み合わせをもカバーすることを注意しておくべきである。すなわち、請求項およびその技術的特徴は任意の順序および任意の形成において組み合わせることができる。

これから本発明について、本発明の範囲や精神を限定するのではなく、例解する例として、付属の図面を参照しつつ述べる。
大規模な音楽コレクションについての例示的な共鳴モデルを、単一の音楽抜粋のタップで拍子を取られるテンポに対して示す図である。短いブロックについてのMDCT係数の例示的なインターリーブを示す図である。例示的なメル・スケールおよび例示的なメル・スケール・フィルタ・バンクを示す図である。例示的な圧伸（companding）機能を示す図である。例示的な重み付け機能を示す図である。例示的なパワーおよび変調スペクトルを示す図である。例示的なSBRデータ要素を示す図である。 SBRペイロード・サイズの例示的なシーケンスを示す図である。 SBRペイロード・サイズの例示的なシーケンスの結果として得られる変調スペクトルを示す図である。 SBRペイロード・サイズの例示的なシーケンスの結果として得られる変調スペクトルを示す図である。 SBRペイロード・サイズの例示的なシーケンスの結果として得られる変調スペクトルを示す図である。提案されるテンポ推定方式の例示的な概観を示す図である。提案されるテンポ推定方式の例示的な比較を示す図である。異なるメトリックを有するオーディオ・トラックについての例示的な変調スペクトルを示す図である。知覚的テンポ分類についての例示的な実験結果を示す図である。知覚的テンポ分類についての例示的な実験結果を示す図である。知覚的テンポ分類についての例示的な実験結果を示す図である。テンポ推定システムの例示的なブロック図である。

下記の実施形態は単にテンポ推定のための方法およびシステムの原理を例解するものである。本稿に記載される構成および詳細の修正および変形が当業者には明白となるであろうことが理解される。したがって、本稿における実施形態の記述および説明によって提示される個別的な詳細によってではなく、付属の特許請求項の範囲によってのみ限定されることが意図である。

導入部で示されたように、既知のテンポ推定方式は信号表現のある種の領域、たとえばPCM領域、変換領域または圧縮領域に制約される。特に、エントロピー復号を実行することなく圧縮されたHE-AACビットストリームから直接特徴が計算されるテンポ推定のための既存の解決策はない。さらに、既存のシステムは主として西洋のポピュラー音楽に制約される。

さらに、既存の方式は、人間の聴取者によって知覚されるテンポを考慮に入れず、結果として、オクターブ誤り、すなわち二倍／半分時間の混乱がある。この混乱は、音楽では、異なる楽器が互いに整数倍の関係にある周期性をもつリズムで演奏しているという事実から生じうる。下記で概説するように、テンポの知覚が反復レートや周期性に依存するばかりでなく、他の知覚的因子によっても影響され、そのためこうした混乱は追加的な知覚的特徴を利用することによって克服されるということが本発明者らの洞察である。こうした追加的知覚的特徴に基づいて、知覚的に動機付けられた仕方で、抽出されたテンポの補正が実行される。すなわち、上述したテンポの混乱が軽減または除去される。

すでに強調したように、「テンポ」について語るとき、記されるテンポ、物理的に測定されるテンポと、知覚的なテンポの間の区別をする必要がある。物理的に測定されるテンポは、サンプリングされたオーディオ信号に対する実際の測定から得られる。一方、知覚的なテンポは主観的な特性であり、典型的には知覚的な聴取実験から決定される。さらに、テンポはきわめてコンテンツ依存な音楽特徴であり、時に自動的に検出することは非常に難しい。ある種のオーディオまたは音楽トラックにおいては、音楽抜粋のテンポを担うパートが明確でないからである。また、聴取者の音楽的経験およびフォーカスがテンポ推定結果に対して有意な影響をもつ。これは、記されるテンポ、物理的に測定されたテンポおよび知覚されるテンポを比較するときに、使用されるテンポ・メトリック内での差につながりうる。それでも、物理的なテンポ推定アプローチと知覚的なテンポ推定アプローチは、互いを補正するために組み合わせて使用されてもよい。これは、たとえば毎分何拍（BPM）という拍子の値およびその倍数に対応するたとえば全音符および倍全音符が、オーディオ信号に対する物理的な測定によって検出されたが、知覚的なテンポは遅いとランク付けされる場合に見ることができる。結果として、物理的な測定は信頼できるとして、正しいテンポは検出されたより遅いテンポである。換言すれば、記されたテンポの推定に焦点を当てる推定方式は、全音符および倍全音符に対応する曖昧な推定結果を与えるであろう。知覚的なテンポ推定方法と組み合わされれば、正しい（知覚的な）テンポが決定できる。

人間のテンポ知覚に対する大規模実験によれば、人は、100から140BPMの間の範囲にある音楽テンポを、120BPMにピークをもつものと知覚する傾向があることが示されている。これは、図１に示される破線の共鳴曲線１０１でモデル化できる。このモデルは、大規模なデータセットについてテンポ分布を予測するために使用できる。しかしながら、単一の音楽ファイルまたはトラックについてタップで拍子を取る実験の結果（参照符号１０２および１０３参照）を共鳴曲線１０１と比較すると、個々のオーディオ・トラックの知覚されるテンポ１０２、１０３は必ずしもモデル１０１にフィットしないことが見て取れる。見て取れるように、被験者は異なる拍子レベル１０２または１０３においてトントンと拍子を取ることがあり、これは時にモデル１０１とは全く異なる曲線を与える結果となる。これは、異なる種類のジャンルおよび異なる種類のリズムについて特に当てはまる。そのような拍子の曖昧さは、テンポ決定のための高度の混乱につながり、非知覚的に駆動されるテンポ推定アルゴリズムの全体的な「満足いかない」性能に対する可能な説明となる。

この混乱を克服するため、知覚的に動機付けられた新しいテンポ補正方式が提案される。ここでは、いくつかの音響手がかり、すなわち音楽パラメータまたは特徴の抽出に基づいて異なる拍子レベルに重みが割り当てられる。これらの重みは、抽出された、物理的に計算されたテンポを補正するために使うことができる。特に、そのような補正は、知覚的に顕著なテンポを決定するために使われてもよい。

以下では、PCM領域および変換領域からテンポ情報を抽出する方法が記載される。変調スペクトル解析がこの目的のために使用される。一般に、変調スペクトル解析は、時間を追っての音楽的特徴の反復性を捕らえるために使用されうる。変調スペクトル解析は、音楽トラックの長期的な統計を評価するために使用でき、および／または定量的なテンポ推定のために使用できる。メル・パワー・スペクトルに基づく変調スペクトルが、非圧縮PCM（Pulse Code Modulation［パルス符号変調］）領域のオーディオ・トラックにについて、および／または変換領域、たとえばHE-AAC（High Efficiency Advanced Audio Coding）変換領域のオーディオ・トラックについて決定されてもよい。

PCM領域で表現された信号について、変調スペクトルはオーディオ信号のPCMサンプルから直接決定される。他方、変換領域、たとえばHE-AAC変換領域で表現されたオーディオ信号については、変調スペクトルの決定のために、信号のサブバンド係数が使用されうる。HE-AAC変換領域については、変調スペクトルは、デコード中またはエンコード中にHE-AACデコーダから直接取られたある数、たとえば1024個のMDCT（Modified Discrete Cosine Transform［修正離散コサイン変換］）係数のフレーム毎に決定されてもよい。

HE-AAC変換領域で作業する場合、短いブロックと長いブロックの存在を考慮に入れることが有益でありうる。短いブロックは、そのより低い周波数分解能のため、MFCC（Mel-frequency cepstral coefficients［メル周波数ケプストラム係数］）の計算について、あるいは非線形周波数スケール上で計算されるケプストラムの計算についてはスキップされるまたは脱落させられる一方、短いブロックは、オーディオ信号のテンポを決定するときには考慮に入れられるべきである。これは、数多くの鋭いオンセット〔開始〕を、よって高品質の表現のための多数の短いブロックを含むオーディオおよびスピーチ信号について、特に有意である。

単一フレームについて、８個の短いブロックを有する場合、長いブロックへのMDCT係数のインターリーブが実行されることが提案される。典型的には、長いブロックと短いブロックという二つの型のブロックが区別されうる。ある実施形態では、長いブロックはフレームのサイズに等しい（すなわち、特定の時間分解能に対応する1024個のスペクトル係数）。短いブロックは、オーディオ信号特性の適正な表現のために８倍高い時間分解能（1024/128）を達成するため、またプリエコー（pre-echo）アーチファクトを回避するため、128個のスペクトル値を含む。結果として、フレームは、８個の短いブロックによって形成され、それは同じ因子８倍の低下した周波数分解能を代償とする。この方式は通例、「AACブロック切り換え方式（AAC Block-Switching Scheme）」と称される。

これは図２に示されている。ここで、８個の短いブロック２０１ないし２０８のMDCT係数がインターリーブされて、８個の短いブロックのそれぞれの係数がグループ化し直されている。すなわち、８個のブロック２０１ないし２０８の最初のMDCT係数が再グループ化され、続いて８個のブロック２０１ないし２０８の２番目のMDCT係数が再グループ化される、などとなる。これを行うことにより、対応するMDCT係数、すなわち同じ周波数に対応するMDCT係数が一緒にグループ化される。フレーム内での短いブロックのインターリーブは、フレーム内の周波数分解能を「人工的に」増大させる操作と理解されてもよい。周波数分解能を増大させる他の手段も考えられうることは注意しておくべきである。

図示した例では、８個の短いブロックの組について、1024個のMDCT係数を含むブロック２１０が得られる。長いブロックも1024個のMDCT係数を含むという事実のため、オーディオ信号について、1024個のMDCT係数を含むブロックの完全なシーケンスが得られる。すなわち、相続く８個の短いブロック２０１ないし２０８から長いブロック２１０を形成することによって、長いブロックのシーケンスが得られる。

インターリーブされたMDCT係数のブロック２１０に基づいて（短いブロックの場合）、また長いブロックについてのMDCT係数のブロックに基づいて、MDCT係数の毎ブロックについて、パワー・スペクトルが計算される。例示的なパワー・スペクトルが図６のａに示されている。

一般に、人間の聴覚がラウドネスおよび周波数の（典型的には非線形な）関数であり、すべての周波数が等しいラウドネスで知覚されるわけではないことを注意しておくべきである。他方、MDCT係数は、振幅／エネルギーおよび周波数の両方について線形スケール上で表現される。これは、両方の場合について非線形である人間の聴覚システムに反する。人間の知覚により近い信号表現を得るために、線形スケールから非線形スケールへの変換が使用されてもよい。ある実施形態では、人間のラウドネス知覚をモデル化するために、MDCT係数についての、dBでの対数スケール上のパワー・スペクトル変換が使用される。そのようなパワー・スペクトル変換は次式
MDCT_dB[i]＝10log₁₀(MDCT[i]²)
のように計算されてもよい。

同様に、パワー・スペクトログラムまたはパワー・スペクトルは、非圧縮PCM領域のオーディオ信号についても計算されうる。この目的のため、時間に沿ってある長さのSTFT（Short Term Fourier Transform［短時間フーリエ変換］）がオーディオ信号に適用される。その後、パワー変換が実行される。人間のラウドネス知覚をモデル化するため、非線形スケール上の変換、たとえば上記の対数スケール変換が実行されてもよい。STFTのサイズは、結果として得られる時間分解能が変換されたHE-AACフレームの時間分解能に等しくなるよう選ばれてもよい。しかしながら、STFTのサイズは、所望される精度および計算量に依存して、より大きな値またはより小さな値に設定されてもよい。

次のステップでは、人間の周波数敏感性の非線形性をモデル化するために、メル・フィルタバンクを用いたフィルタ処理が適用されてもよい。この目的のために、図３のａに示される非線形周波数スケール（メル・スケール）が適用される。スケール３００は、低周波数（＜500Hz）についてはほぼ線形であり、より高い周波数については対数的である。線形周波数スケールへの基準点３０１は1000Hzのトーンであり、これが1000メル（Mel）と定義される。その２倍の高さに知覚されるピッチをもつトーンが2000メルと定義され、その半分の高さに知覚されるピッチをもつトーンが500メルと定義される、などとなる。数学的には、メル・スケールは
m_Mel＝1127.01048ln(1＋f_Hz/700)
によって与えられる。ここで、f_HzはHzで表した周波数であり、m_Melはメルで表した周波数である。メル・スケール変換は、人間の非線形な周波数知覚をモデル化するために行われてもよく、さらに、人間の非線形な周波数敏感さをモデル化するために周波数に重みが割り当てられてもよい。これは、メル周波数スケール上で（または他の任意の非線形な知覚的に動機付けされた周波数スケール上で）50%重なる三角フィルタを使うことによって行われてもよい。ここで、フィルタのフィルタ重みはフィルタの帯域幅の逆数である（非線形な敏感さ）。これは、図３のｂに示されている。この図は例示的なメル・スケール・フィルタバンクを示している。フィルタ３０２はフィルタ３０３より大きな帯域幅をもつことが見て取れる。結果として、フィルタ３０２のフィルタ重みは、フィルタ３０３のフィルタ重みより小さい。

これを行うことにより、若干数の係数だけで可聴周波数範囲を表現するメル・パワー・スペクトルが得られる。例示的なメル・パワー・スペクトルが図６のｂに示されている。メル・スケール・フィルタ処理の結果として、パワー・スペクトルはならされており、特に、より高い周波数における詳細が失われている。例示的なケースでは、メル・パワー・スペクトルの周波数軸は、HE-AAC変換領域についてのフレーム当たり1024個のMDCT係数や、非圧縮PCM領域についての潜在的により多数のスペクトル係数の代わりに、たった40個の係数によって表現されうる。

周波数に沿ったデータ数を意味のある最小値までさらに減らすため、圧伸関数（CP: companding function）が導入されてもよい。これは、より高い諸メル帯域を諸単一係数にマッピングする。この背後にある動機は、典型的には情報および信号パワーの大半がより低い周波数領域に位置しているということである。実験的に評価された圧伸関数が表１に示されており、対応する曲線４００が図４に示されている。ある例示的なケースでは、この圧伸関数は、メル・パワー係数の数を12個まで減らす。例示的な圧伸されたメル・パワー・スペクトルが図６のｃに示されている。

異なる周波数範囲を強調するために圧伸関数が重み付けされてもよいことを注意しておくべきである。ある実施形態では、重み付けは、圧伸された周波数帯域が、特定の圧伸された周波数帯域に含まれる諸メル周波数帯域の平均パワーを反映することを保証してもよい。これは、圧伸された周波数帯域が特定の圧伸された周波数帯域に含まれる諸メル周波数帯域の全パワーを反映する、重み付けのない圧伸関数とは異なる。例として、重み付けは、圧伸された周波数帯域によってカバーされるメル周波数帯域の数を考慮に入れてもよい。ある実施形態では、重み付けは、特定の圧伸された周波数帯域に含まれるメル周波数帯域の数に反比例してもよい。

変調スペクトルを決定するために、圧伸されたメル・パワー・スペクトルまたは先に決定されたパワー・スペクトルの他の任意のものが、オーディオ信号長の所定の長さを表すブロックにセグメント分割されてもよい。さらに、諸ブロックの部分的な重なりを定義することが有益でありうる。ある実施形態では、時間軸上で50%の重なりをもつオーディオ信号の６秒分の長さに対応するブロックが選択される。これらのブロックの長さは、オーディオ信号の長時間特性をカバーする能力と、計算量との間のトレードオフとして選ばれてもよい。圧伸されたメル・パワー・スペクトルから決定される例示的な変調スペクトルが図６のｄに示されている。傍注として、変調スペクトルを決定するアプローチは、メル・フィルタ処理されたスペクトル・データに限定されず、基本的にいかなる音楽特徴またはスペクトル表現の長時間統計を得るためにも使用できることを述べておくべきである。

そのような各セグメントまたはブロックについて、時間および周波数軸に沿ってFFTが計算され、ラウドネスの振幅変調された周波数が得られる。典型的には、テンポ推定のコンテキストでは、0〜10Hzの範囲の変調周波数が考慮され、この範囲から外れる変調周波数は典型的には重要でない。時間またはフレーム軸に沿ったパワー・スペクトル・データについて決定されるFFT解析の結果として、パワー・スペクトルのピークおよび対応するFFT周波数ビンが決定されてもよい。そのようなピークの周波数または周波数ビンは、オーディオまたは音楽トラックにおけるパワー集約的なイベントの周波数に対応し、よってオーディオまたは音楽トラックのテンポの指標である。

圧伸されたメル・パワー・スペクトルの有意なピークの決定を改善するために、データが、知覚的重み付けおよびぼかしといったさらなる処理にかけられてもよい。人間のテンポ選好が変調周波数とともに変化し、非常に高い変調周波数および非常に低い変調周波数はあまり生起しないという事実に鑑み、生起する可能性の高いテンポを強調し、生起しそうもないテンポを抑制するために、知覚的なテンポ重み付け関数が導入されてもよい。実験的に評価された重み付け関数５００が図５に示されている。この重み付け関数５００は、オーディオ信号の各セグメントまたはブロックの変調周波数軸に沿った圧伸されたメル・パワー・スペクトル帯域毎に適用されてもよい。すなわち、それぞれの圧伸されたメル帯域のパワー値が重み付け関数５００を乗算されてもよい。例示的な重み付けされた変調スペクトルが図６のｅに示されている。音楽のジャンルが知られている場合には、重み付けフィルタまたは重み付け関数が適応されることができることを注意しておくべきである。たとえば、電子音楽が解析されていることがわかっていれば、重み付け関数は2Hzのまわりピークをもち、かなり狭い範囲の外側で制約的であることができる。換言すれば、重み付け関数は音楽ジャンルに依存してもよい。

信号変動をさらに強調し、変調スペクトルのリズム内容を表明する（pronounce）ために、変調周波数軸に沿った絶対的な差の計算（absolute difference calculation）が実行されてもよい。結果として、変調スペクトルにおけるピーク線が向上されうる。例示的な微分された（differentiated）変調スペクトルが図６のｆに示されている。

さらに、メル周波数帯域またはメル周波数軸に沿った知覚的なぼかし（blurring）が実行されてもよい。典型的には、このステップは、データをならし、隣り合う変調周波数線がより広い、振幅依存エリア（amplitude depending area）に組み合わされるようにする。さらに、ぼかしは、データ中のノイズ様パターンの影響を低下させることがあり、よってよりよい視覚的な判読性につながりうる。さらに、ぼかしは、変調スペクトルを、（図１の１０２、１０３に示されるような）個々の音楽項目タッピング実験から得られるタッピング・ヒストグラムの形に適応させうる。例示的なぼかされた変調スペクトルが図６のｇに示されている。

最終的に、オーディオ信号のセグメントまたはブロックの組の統合周波数表現が平均されて、非常にコンパクトな、オーディオ・ファイル長に独立な、メル周波数変調スペクトルを与えうる。すでに上で概説したように、「平均」という用語は、平均値の計算および中央値の決定を含む種々音数学的演算を指しうる。例示的な平均された変調スペクトルが図６のｈに示されている。

オーディオ・トラックのそのような変調スペクトル表現の利点は、複数の拍子レベルでテンポを指示できるということであることを注意しておくべきである。さらに、変調スペクトルは、知覚されるテンポを決定するために使われるタッピング実験と両立するフォーマットで前記複数の拍子レベルの相対的な物理的顕著性を示すことができる。換言すれば、この表現は、実験的な「タッピング」〔トントンと拍子を取ること〕表現１０２とよく整合し、よって、オーディオ・トラックのテンポの推定に対する知覚的に動機付けられた決定の基礎となりうる。

すでに上述したように、処理された圧伸されたメル・パワー・スペクトルのピークに対応する周波数は、解析されたオーディオ信号のテンポの指標を与える。さらに、変調スペクトル表現は、歌と歌の間のリズム類似性を比較するために使われてもよいことを注意しておくべきである。さらに、個々のセグメントまたはブロックについての変調スペクトル表現は、オーディオ・サムネイル化またはセグメント分割用途のために歌と歌の間の類似性を比較するために使われてもよい。

全体として、変換領域、たとえばHE-AAC変換領域およびPCM領域のオーディオ信号からいかにしてテンポ情報を得るかの方法を述べてきた。しかしながら、圧縮領域から直接、オーディオ信号からテンポ情報を抽出することが望ましいことがありうる。以下では、圧縮されたまたはビットストリーム領域で表現されているオーディオ信号に対していかにしてテンポ推定値を決定するかの方法を述べる。特に、HE-AACエンコードされたオーディオ信号に焦点を当てる。

HE-AACエンコードは、高周波数再構成（HFR: High Frequency Reconstruction）またはスペクトル帯域複製（SBR: Spectral Band Replication）技法を利用する。SBRエンコード・プロセスは、過渡成分検出段、適正な表現のための適応T/F（Time/Frequency［時間／周波数］）グリッド選択、包絡線推定段および信号の低周波数と高周波数部分の間の信号特性の不一致を是正するための追加的な諸方法を含む。

SBRエンコーダによって生成されるペイロードの大半が包絡線のパラメータ表現から生じることが観察されている。信号特性に依存して、エンコーダは、オーディオ・セグメントの適正な表現のためおよびプリエコー・アーチファクトの回避のために好適な時間‐周波数分解能を決定する。典型的には、時間的に準静的なセグメントについてはより高い周波数分解能が選択され、動的なパッセージについてはより高い時間分解能が選択される。

結果として、時間‐周波数分解能の選択は、SBRビットレートに対して有意な影響をもつ。これは、より長い時間セグメントが、より短い時間セグメントより効率的にエンコードできるという事実のためである。同時に、速く変化するコンテンツについては、すなわち典型的にはより速いテンポをもつオーディオ・コンテンツについては、オーディオ信号の適正な表現のために伝送されるべき包絡線の数、よって包絡線係数の数は、ゆっくり変化するコンテンツよりも多い。選択された時間分解能の影響に加え、この効果がSBRデータのサイズにさらに影響する。実のところ、SBRデータ・レートの、根底にあるオーディオ信号のテンポ変動に対する敏感さが、mp3コーデックのコンテキストにおいて使われるハフマン符号長のサイズの敏感さより高いことが観察されている。したがって、SBRデータのビットレートの変動は、エンコードされたビットストリームから直接リズム成分を決定するために使うことのできる、貴重な情報として特定されたことになる。

図７は、fill_element〔充填要素〕フィールド７０２を有する例示的なAACの生データ・ブロック７０１を示している。ビットストリーム中のfill_elementフィールド７０２は、SBRデータのような追加的なパラメータ副情報を格納するために使われる。SBRに加えてパラメトリック・ステレオ（PS: Parametric Stereo）を使うとき、fill_elementフィールド７０２はPS副情報をも含む。以下の説明はモノの場合に基づくが、記載される方法は何個のチャンネルを伝達するビットストリームにも、たとえばステレオの場合にも当てはまることを注意しておくべきである。

fill_elementフィールド７０２のサイズは、伝送されるパラメータ副情報の量とともに変化する。結果として、fill_elementフィールド７０２のサイズは、圧縮されたHE-AACストリームから直接テンポ情報を抽出するために使用されてもよい。図７に示されるように、fill_elementフィールド７０２はSBRヘッダ７０３およびSBRペイロード・データ７０４を含む。

SBRヘッダ７０３は、個別オーディオ・ファイルについて一定サイズであり、fill_elementフィールド７０２の一部として繰り返し伝送される。SBRヘッダ７０３のこの再送信は、ペイロード・データにおける、ある周波数での反復されるピークにつながり、よって変調周波数領域での、1/x Hzにおけるある振幅をもつピークにつながる（xはSBRヘッダ７０３の送信の反復レート）。しかしながら、この繰り返し送信されるSBRヘッダ７０３はいかなるリズム情報も含まず、よって除去されるべきである。

これは、ビットストリーム・パースの直後にSBRヘッダ７０３の生起の長さおよび時間期間を決定することによってできる。SBRヘッダ７０３の周期性のため、この決定ステップは典型的には一回行うだけでよい。長さおよび生起情報が利用可能であれば、全SBRデータ７０５が簡単に補正できる。それは、SBRヘッダ７０３の生起時点において、すなわちSBRヘッダ７０３の送信時において、SBRデータ７０５からSBRヘッダ７０３の長さを引くことによる。これは、テンポ決定に使うことのできるSBRペイロード７０４のサイズを与える。同様の仕方で、SBRヘッダ７０３の長さを引くことによって補正されたfill_elementフィールド７０２の長さをテンポ決定のために使ってもよいことを注意しておくべきである。この長さのSBRペイロード７０４のサイズとの違いは一定オーバーヘッドだけだからである。

SBRペイロード・データ７０４サイズまたは補正されたfill_elementフィールド７０２サイズの組についての例が図８ａに与えられている。横軸はフレーム番号を示し、縦軸は対応するフレームについてのSBRペイロード・データ７０４のサイズまたは補正されたfill_elementフィールド７０２のサイズを示す。SBRペイロード・データ７０４のサイズはフレームによって変化することが見て取れる。以下では、これは単にSBRペイロード・データ７０４サイズと称される。テンポ情報は、SBRペイロード・データ７０４のサイズにおける周期性を識別することによって、SBRペイロード・データ７０４のサイズのシーケンス８０１から抽出されうる。具体的には、SBRペイロード・データ７０４のサイズにおけるピークの周期性または反復パターンが識別されてもよい。これは、たとえば、SBRペイロード・データ７０４のサイズの重なり合うサブシーケンスに対してFFTを適用することによってできる。これらのサブシーケンスはある信号長さ、たとえば６秒に対応してもよい。相続くサブシーケンスの重なりは50%の重なりであってもよい。その後、それらのサブシーケンスについてのFFT係数が、完全なオーディオ・トラックの長さにわたって平均されてもよい。これは、完全なオーディオ・トラックについての平均されたFFT係数を与え、これが図８ｂに示される変調スペクトル８１１として表現されてもよい。SBRペイロード・データ７０４のサイズの周期性を識別する他の方法も考えられうることを注意しておくべきである。

変調スペクトル８１１におけるピーク８１２、８１３、８１４は、ある生起周波数をもった反復的な、すなわちリズミカルなパターンを示す。生起周波数（frequency of occurrence）は、変調周波数（modulation frequency）と称されてもよい。可能な最大の変調周波数は、基礎になるコア・オーディオ・コーデックの時間分解能によって制約されることを注意しておくべきである。HE-AACは、AACコア・コーデックがサンプリング周波数の半分で動作するデュアル・レート・システムと定義されているため、６秒の長さ（128フレーム）のシーケンスおよびサンプリング周波数F_s＝44100Hzについて約21.74Hz/2〜11Hzの可能な最大変調周波数が得られる。この可能な最大変調周波数は約660BPMに対応し、これはほとんどあらゆる音楽作品のテンポをカバーする。正しい処理を保証しつつ便利のため、最大変調周波数は10Hzに制限されてもよい。これは600BPMに対応する。

図８ｂの変調スペクトルはさらに、オーディオ信号の変調領域またはPCM領域表現から決定された変調スペクトルのコンテキストで概説したのと同様の仕方で向上されてもよい。たとえば、人間のテンポ選好をモデル化するために、SBRペイロード・データ変調スペクトル８１１に、図５に示される重み付け曲線５００を使った知覚的重み付けが適用されてもよい。結果として得られる知覚的に重み付けされたSBRペイロード・データ変調スペクトル８２１が図８ｃに示されている。非常に低いテンポと非常に高いテンポが抑制されていることが見て取れる。具体的には、低周波数ピーク８２２および高周波数ピーク８２４が、それぞれ初期のピーク８１２および８１４に比べて低下させられていることが見て取れる。他方、中央周波数ピーク８２３は維持されている。

SBRペイロード・データ変調スペクトルから変調スペクトルの最大値およびその対応する変調周波数を決定することによって、物理的に最も顕著なテンポを得ることができる。図８ｃに示したケースでは、その結果は178,659BPMである。しかしながら、今の例では、この物理的に最も顕著なテンポは、89BPM付近にある知覚的に最も顕著なテンポには対応しない。結果として、二倍の混乱、すなわち拍子レベルにおける混乱があり、これは是正する必要がある。この目的のため、知覚的なテンポ補正方式について以下で述べる。

SBRペイロード・データに基づくテンポ推定のための提案されるアプローチは、音楽入力信号のビットレートとは独立であることを注意しておくべきである。HE-AACエンコードされたビットストリームのビットレートを変えるとき、エンコーダは、SBR開始および終了周波数を、この特定のビットレートで達成可能な最高の出力品質に従って自動的に設定する。すなわち、SBRクロスオーバー周波数が変化する。にもかかわらず、SBRペイロードは相変わらず、オーディオ・トラック中の反復的な過渡成分に関する情報を含んでいる。これは、図８ｄにおいて見て取れる。この図では異なるビットレート（16kbit/sから64kbit/sまで）についてSBRペイロード変調スペクトルが示されている。オーディオ信号の反復的な部分（すなわち、ピーク８３３のような変調スペクトルにおけるピーク）がすべてのビットレートにわたって優勢なままであることが見て取れる。ビットレートを下げるとき、エンコーダがSBR部分におけるビットを節約しようとするので、異なる変調スペクトルにおいてゆらぎが存在することも観察されうる。

上記をまとめるため、図９を参照する。オーディオ信号の三つの異なる表現が考慮される。圧縮領域では、オーディオ信号はそのエンコードされたビットストリームによって、たとえばHE-AACビットストリーム９０１によって表現される。変換領域では、オーディオ信号はサブバンドまたは変換係数、たとえばMDCT係数９０２として表現される。PCM領域では、オーディオ信号はそのPCMサンプル９０３によって表現される。上記の記述では、これらの三つの信号領域の任意のものにおける変調スペクトルを決定するための方法が概説された。HE-AACビットストリーム９０１のSBRペイロードに基づく変調スペクトル９１１を決定する方法を述べた。さらに、オーディオ信号の変換表現９０２に基づく、たとえばMDCT係数に基づく変調スペクトル９１２を決定する方法を述べた。加えて、オーディオ信号のPCM表現９０３に基づく変調スペクトル９１３を決定する方法を述べた。

推定される変調スペクトル９１１、９１２、９１３のいずれも物理的テンポ推定の基礎として使用されうる。この目的のため、向上処理のさまざまな段階が、たとえば重み付け曲線５００を使った知覚的重み付け、知覚的ぼかしおよび／または絶対的な差分の計算が、実行されてもよい。最終的には、（向上された）変調スペクトル９１１、９１２、９１３の最大および対応する変調周波数が決定される。変調スペクトル９１１、９１２、９１３の絶対的な最大は、解析されたオーディオ信号の物理的に最も顕著なテンポについての推定となる。他の極大は典型的にはこの物理的に最も顕著なテンポの他の拍子レベルに対応する。

図１０は、上述した方法を使って得られた変調スペクトル９１１、９１２、９１３の比較を与えている。それぞれの変調スペクトルの絶対的な最大に対応する周波数が非常に似通っていることが見て取れる。左側では、ジャズ音楽のオーディオ・トラックの抜粋が解析されている。変調スペクトル９１１、９１２、９１３はそれぞれオーディオ信号のHE-AAC表現、MDCT表現およびPCM表現から決定されたものである。三つの変調スペクトルすべてが、それぞれ変調スペクトル９１１、９１２、９１３の最大ピークに対応する同じような変調周波数１００１、１００２、１００３を与えることが見て取れる。同様の結果が、変調周波数１０１１、１０１２、１０１３をもつクラシック音楽の抜粋（中央）および変調周波数１０２１、１０２２、１０２３をもつハードロック音楽（右）について得られる。

このように、種々の形の信号表現から導出される変調スペクトルによる物理的に顕著なテンポの推定を許容する方法および対応するシステムを記述してきた。これらの方法は、さまざまな型の音楽に適用可能であり、西洋のポピュラー音楽だけに制約されるものではない。さらに、これら種々の方法は種々の形の信号表現に適用可能であり、それぞれの信号表現について低計算量で実行されうる。

図６、図８および図１０から見て取れるように、変調スペクトルは典型的には複数のピークをもち、それらのピークは通例オーディオ信号のテンポの異なる拍子レベルに対応する。これはたとえば図８ｂにおいて見て取れる。ここでは、三つのピーク８１２、８１３、８１４が有意な強さをもち、よってオーディオ信号の根底にあるテンポの候補となりうる。最大ピーク８１３を選択することは、物理的に最も顕著なテンポを与える。上記で概説したように、この物理的に最も顕著なテンポは、知覚的に最も顕著なテンポに対応しないことがある。この知覚的に最も顕著なテンポを自動的に推定するために、以下では、知覚的なテンポ補正方式について概説する。

ある実施形態では、知覚的テンポ補正方式は、変調スペクトルからの物理的に最も著なテンポの判別を含む。図８ｂの変調スペクトル８１１の場合、ピーク８１３および対応する変調周波数が決定される。加えて、テンポ補正を支援するために、さらなるパラメータが変調スペクトルから抽出されてもよい。第一のパラメータはMMS_Centroid〔MMS_重心〕（Mel Modulation Spectrum［メル変調スペクトル］）であってもよい。これは、式(1)に基づく変調スペクトルの重心である。重心パラメータMMS_Centroidは、オーディオ信号の速度の指標として使用されうる。

上式において、Dは変調周波数ビンの数であり、d＝1,…,Dはそれぞれの変調周波数ビンを指定する。Nはメル周波数軸に沿った周波数ビンの総数であり、n＝1,…,Nはメル周波数軸上でのそれぞれの周波数ビンを指定する。MMS(n,d)はオーディオ信号の特定のセグメントについての変調スペクトルを示す。バー（￣）付きのMMS(n,d)は、オーディオ信号全体を特徴付ける要約された変調スペクトルを示す。

テンポ補正を支援する第二のパラメータはMMS_BEATSTRENGTH〔MMS_{ビート強さ}〕であってもよい。これは式(2)に基づく変調スペクトルの最大値である。典型的には、この値は電子音楽について大きく、クラシック音楽については小さい。

さらなるパラメータはMMS_CONFUSION〔MMS_混乱〕である。これは公式(3)に基づく、1に規格化したのちの変調スペクトルの平均である。このパラメータが小さければ、それは変調スペクトル上の強いピークの指標である（たとえば図６におけるように）。このパラメータが大きければ、変調スペクトルは広く拡散しており、有意なピークがなく、高度の混乱がある。

これらのパラメータ、すなわち変調スペクトル・セントロイドまたは重心MMS_Centroid、変調ビート強さMMS_BEATSTRENGTHおよび変調テンポ混乱MMS_CONFUSIONのほか、MIR用途に使用できる他の知覚的に意味のあるパラメータが導出されてもよい。

本稿における式はメル周波数変調スペクトルについて、すなわちPCM領域および変換領域で表現されたオーディオ信号から決定された変調スペクトル９１２、９１３について定式化されていることを注意しておくべきである。圧縮領域で表現されたオーディオ信号から決定された変調スペクトル９１１が使われる場合には、本稿で与えられる式において、MMS(n,d)およびΣMMS(n,d)〔和はn＝1からNまで〕の項は、項MS_SBR(d)（SBRペイロード・データに基づく変調スペクトル）で置き換える必要がある。

上記のパラメータの選択に基づいて、知覚的テンポ補正方式が提供されうる。この知覚的テンポ補正方式は、変調表現から得られる物理的に最も顕著なテンポから、人間が知覚するであろう知覚的に最も顕著なテンポを決定するために使用されうる。本方法は、変調スペクトルから得られた知覚的に動機付けられたパラメータを、つまり変調スペクトル・重心MMS_Centroidによって与えられる音楽の速さ、変調スペクトルにおける最大値MMS_BEATSTRENGTHによって与えられるビート強さよび規格化後の変調表現の平均によって与えられる変調混乱因子MMS_CONFUSIONを利用する。本方法は、次のステップのどれを含んでいてもよい。
１．音楽トラックの根底にある拍子、たとえば４／４拍子または３／４拍子を判別する。
２．パラメータMMS_BEATSTRENGTHに基づく関心範囲へのテンポの折り畳み。
３．知覚的な速さ測定値MMS_Centroidに基づくテンポ補正。

任意的に、変調混乱因子MMS_CONFUSIONの決定は、知覚的テンポ推定の信頼性に対する指標を与えてもよい。

第一のステップでは、物理的に測定されたテンポを補正するための可能な因子を決定するために、音楽トラックの根底にある拍子が判別されうる。例として、３／４拍子の音楽トラックの変調スペクトルにおけるピークは、基本リズムの周波数の三倍に現れる。したがって、テンポ補正は3に基づいて調整されるべきである。４／４拍子の音楽トラックの場合には、テンポ補正は因子2によって調整されるべきである。これは図１１に示されている。この図では、３／４拍子をもつジャズ音楽トラック（図１１のａ）および４／４拍子のメタル音楽トラック（図１１のｂ）のSBRペイロード変調スペクトルが示されている。テンポ・メトリックは、SBRペイロード変調スペクトルにおけるピークの分布から決定されうる。４／４拍子の場合、有意なピークは互いの2を基数とする倍数である。一方、３／４拍子については、有意なピークは3を基数とする倍数である。

この潜在的なテンポ推定誤差の源を克服するため、相互相関方法が適用されてもよい。ある実施形態では、種々の周波数遅延Δdについて変調スペクトルの自己相関が決定されることができる。自己相関は次式によって与えられてもよい。

最大創刊Corr(Δd)を与える周波数遅延Δdが、根底にある拍子の指標を与える。より精密には、d_maxが物理的に最も顕著な変調周波数であるとすると、式

が根底にある拍子の指標を与える。

ある実施形態では、合成された、平均された変調スペクトル内での物理的に最も顕著なテンポの倍数を知覚的に修正したものの間の相互相関が、根底にある拍子を決定するために使われてもよい。二倍（式(5)）および三倍混乱（式(6)）の倍数の集合は次のように計算される。

次のステップでは、種々の拍子におけるタッピング関数の合成が実行される。ここで、タッピング関数は、変調スペクトル表現と等しい長さである、すなわち、変調周波数軸と等しい長さである（式(7)）。

合成されたタッピング関数SynthTab_{double,triple}(d)は、根底にあるテンポの種々の拍子レベルでの人のタッピングのモデルを表す。すなわち、３／４拍子とすると、テンポはそのビートの１／６、そのビートの１／３、そのビート、そのビートの３倍およびそのビートの６倍でタップされてもよい。同様にして、４／４拍子とすると、テンポはそのビートの１／４、そのビートの１／２、そのビート、そのビートの２倍およびそのビートの４倍でタップされてもよい。

変調スペクトルの知覚的に修正されたバージョンが考慮される場合、共通の表現を与えるために、合成されたタッピング関数も修正される必要があることがある。知覚的ぼかしが知覚的テンポ抽出方式において無視される場合、このステップはスキップできる。それ以外の場合には、合成されたタッピング関数を人間のテンポ・タッピング・ヒストグラムの形に適応させるために、合成されるタッピング関数は、式(8)に概説されるよう知覚的ぼかしを受けるべきである。

ここで、Bはぼかし核〔カーネル〕（blurring kernel）であり、*は畳み込み演算である。ぼかし核Bは、タッピング・ヒストグラムのピークの形、たとえば三角形または細いガウシアン・パルスの形をもつ固定長のベクトルである。ぼかし核Bのこの形は好ましくは、タッピング・ヒストグラムのピーク、たとえば図１の１０２、１０３の形を反映する。ぼかし核Bの幅、すなわち核Bの係数の数、よって核Bによってカバーされる変調周波数範囲は、典型的には、完全な変調周波数範囲Dを通じて同じである。ある実施形態では、ぼかし核Bは最大振幅1をもつ狭いガウシアン様パルスである。ぼかし核Bは0.265Hz（〜16BPM）の変調周波数範囲をカバーしてもよい。すなわち、パルス中心から±8BPMの幅を有していてもよい。

ひとたび合成されたタッピング関数の知覚的修正が（もし必要なら）実行されたら、タッピング関数ともとの変調スペクトルの間で、遅延0での相互相関が計算される。これは式(9)に示される。

最後に、「二倍」拍子についての合成されたタッピング関数および「三倍」拍子についての合成されたタッピング関数から得られる補正結果を比較することによって、補正因子が得られる。二倍混乱についてのタッピング関数を用いて得られたその相関が、三倍混乱についてのタッピング関数を用いて得られた相関以上であれば、補正因子は2に設定され、逆の場合には補正因子は3に設定される（式(10)）。

一般的に、補正因子は、変調スペクトルに対する相関技法を使って決定されることを注意しておくべきである。補正因子は、音楽信号の根底にある拍子、すなわち４／４、３／４またはその他の拍子に関連付けられる。根底にある拍メトリックは、音楽信号の変調スペクトルに対して相関技法を適用することによって決定されうる。そのいくつかは上述した。

補正因子を使って、実際の知覚的テンポ補正が実行されうる。ある実施形態では、これは段階的に行われる。例示的な実施形態の擬似コードを表２に与えておく。

第一段階では、表２でTempoと表される物理的に最も顕著なテンポが、前に計算されたMMS_BEATSTRENGTHパラメータおよび補正因子を利用して関心範囲の中にマッピングされる。MMS_BEATSTRENGTHパラメータ値がある閾値（threshold）（これは信号領域、オーディオ・コーデック、ビットレートおよびサンプリング周波数に依存する）未満であり、かつ物理的に決定されたテンポ、すなわちパラメータTempoが比較的高いまたは比較的低い場合には、物理的に最も顕著なテンポが、決定された補正因子（correction factor）または拍メトリック（beat metric）を用いて補正される。

第二段階では、テンポはさらに音楽スピードに基づいて、すなわち変調スペクトル重心MMS_Centroidに基づいて補正される。補正のための個々の閾値は、ユーザーに種々のジャンルおよびテンポの音楽コンテンツをたとえば４つのカテゴリー：遅い、ほとんど遅い、ほとんど速い、速いにランク付けするよう依頼する知覚実験から決定されてもよい。加えて、同じオーディオ試験項目について変調スペクトル重心MMS_Centroidが計算され、主観的カテゴリー分類と突き合わせてマッピングされる。例示的なランク付けの結果が図１２に示されている。横軸は４つの主観的なカテゴリー：遅い、ほとんど遅い、ほとんど速いおよび速いを示す。縦軸は計算された重心、すなわち変調スペクトル重心を示す。圧縮領域での変調スペクトル９１１を使った場合（図１２ａ）、変換領域での変調スペクトル９１２を使った場合（図１２ｂ）およびPCM領域での変調スペクトル９１３を使った場合（図１２ｃ）の実験結果が示されている。各カテゴリーについて、ランク付けの平均１２０１、50%信頼区間１２０２、１２０３および上下の格子（upper and lower quadrille）１２０４、１２０５が示されている。カテゴリー間の高度の重なりは、主観的なテンポのランク付けに関する高いレベルの混乱を示唆している。にもかかわらず、そのような実験結果から、音楽トラックを主観的カテゴリーの遅い、ほとんど遅い、ほとんど速い、速いに割り当てることを許容するMMS_Centroidについての閾値を抽出することが可能である。種々の信号表現（PCM領域、HE-AAC変換領域、SBRペイロードをもつ圧縮領域）についてのMMS_Centroidパラメータについての例示的な閾値を表３に与えておく。

パラメータMMS_Centroidについてのこれらの閾値は、表２に概観される第二のテンポ補正段階において使われる。第二のテンポ補正段階において、テンポ推定値とパラメータMMS_Centroidとの間の大きな食い違いが同定され、最終的には補正される。例として、推定されたテンポが比較的高く、パラメータMMS_Centroidが知覚される速度がどちらかといえば低いはずであることを示す場合、推定されたテンポは補正因子によって低下させられる。同様に、推定されたテンポが比較的低い一方、パラメータMMS_Centroidが知覚される速度がどちらかといえば高いはずであることを示す場合、推定されたテンポは補正因子によって高められる。

知覚的テンポ補正方式のもう一つの実施形態が表４に概観される。補正因子2についての擬似コードを示しているが、この例は他の補正因子にも等しく適用可能である。表４の知覚的テンポ補正方式では、第一段階において、混乱（confusion）、すなわちMMS_CONFUSIONがある閾値（threshold）を超えるかどうかが検証される。もし超えなければ、物理的に顕著なテンポt₁が知覚的に顕著なテンポに対応すると想定される。しかしながら、混乱のレベルが前記閾値を超える場合、物理的に顕著なテンポt₁は、パラメータMMS_Centroidから引き出される音楽信号の知覚される速度についての情報を考慮に入れることによって補正される。

音楽トラックを分類するためにも代替的な諸方式が使用できることを注意しておくべきである。例として、分類器は、速度を分類し、次いでこれらの種類の知覚的補正をするよう設計されることができる。ある実施形態では、テンポ補正のために使われるパラメータ、特にMMS_CONFUSION、MMS_CentroidおよびMMS_BEATSTRENGTHは、未知の音楽信号の混乱、速度およびビート強さを自動的に分類するためにトレーニングされ、モデル化されることができる。分類器は、上述したのと同様の知覚的補正を実行するために使われることができる。これを行うことにより、表３および表４に呈示される固定された閾値の使用が軽減され、システムはより柔軟になりうる。

すでに上述したように、提案される混乱パラメータMMS_CONFUSIONは、推定されるテンポの信頼性に対する指標を提供する。このパラメータは、ムードおよびジャンル分類のためのMIR（Music Information Retrieval［音楽情報検索］）機能として使われることもできる。

上記の知覚的テンポ補正方式が、さまざまな物理的テンポ推定方式の上で適用されうることを注意しておくべきである。これは図９に示されている。この図では、知覚的テンポ補正方式が、圧縮領域から得られた物理的テンポ推定値に適用されてもよく（参照符号９２１）、変換領域から得られた物理的テンポ推定値に適用されてもよく（参照符号９２２）、PCM領域から得られた物理的テンポ推定値に適用されてもよい（参照符号９２３）ことが示されている。

テンポ推定システム１３００の例示的なブロック図が図１３に示されている。要求に依存して、そのようなテンポ推定システム１３００の種々のコンポーネントが別個に使われることができることを注意しておくべきである。システム１３００は、システム制御ユニット１３１０、領域パーサ１３０１、統一された信号表現を得るための前処理段１３０２、１３０３、１３０４、１３０５、１３０６、１３０７、顕著なテンポを決定するアルゴリズム１３１１および知覚的な仕方で抽出されたテンポを補正する後処理ユニット１３０８、１３０９を有している。

信号フローは次のようになりうる。はじめに、任意の領域の入力信号が領域パーサ１３０１に入力される。領域パーサは、入力オーディオ・ファイルから、テンポ決定および補正のためのすべての必要な情報、たとえばサンプリング・レートおよびチャネル・モードを抽出する。これらの値は次いで、入力領域に従って計算経路を設定するシステム制御ユニット１３１０に記憶される。

入力データの抽出および前処理が次の段階で実行される。圧縮領域で表現された入力信号の場合、そのような前処理１３０２はSBRペイロードの抽出、SBRヘッダ情報の抽出およびヘッダ情報誤り訂正方式を含む。変換領域では、前処理１３０３はMDCT係数の抽出、短いブロックのインターリーブおよびMDCT係数ブロックのシーケンスのパワー変換を含む。非圧縮領域では、前処理１３０４はPCMサンプルのパワー・スペクトログラム計算を含む。その後、変換されたデータは、入力信号の長期的特性を捕らえるために、半分重なり合う６秒のかたまりのブロックK個にセグメント分割される（セグメント分割ユニット１３０５）。この目的のために、システム制御ユニット１３１０に記憶された制御情報が使われてもよい。ブロックKの数は典型的には入力信号の長さに依存する。ある実施形態では、ブロック、たとえばオーディオ・トラックの最終ブロックは、そのブロックが６秒より短い場合には0をパディングされる。

前処理されたMDCTまたはPCMデータを含むセグメントは、メル・スケール変換および／または圧伸関数を使った寸法縮小（dimension reduction）処理段階にかけられる（メル・スケール処理ユニット１３０６）。SBRペイロード・データを含むセグメントは直接、次の処理ブロック１３０７、つまり変調スペクトル決定ユニットに入力される。ここで、時間軸に沿ってN点FFTが計算される。この段階が所望される変調スペクトルにつながる。変調周波数ビンの数Nは基礎になる領域の時間分解能に依存し、システム制御ユニット１３１０によって前記アルゴリズムに入力されてもよい。ある実施形態では、スペクトルは、感覚テンポ範囲内に留まるよう10Hzに制限され、スペクトルは人間のテンポ選好曲線５００に従って知覚的に重み付けられる。

非圧縮領域および変換領域に基づくスペクトルにおける変調ピークを向上させるために、（変調スペクトル決定ユニット１３０７内において）次の段階で、変調周波数軸に沿った絶対的な差分が計算されてもよく、それに続いて、タッピング・ヒストグラムの形を適応させるためにメル・スケール周波数および変調周波数軸の両方に沿って知覚的ぼかしが行われてもよい。この計算段階は、非圧縮領域および変換領域については任意的である。というのも、新しいデータが生成されるわけではなく、典型的には変調スペクトルの改善された視覚的表現につながるものだからである。

最後に、ユニット１３０７において処理されたセグメントが平均演算によって組み合わされてもよい。すでに上述したように、平均は平均値の計算または中央値の決定を含んでいてもよい。これは、非圧縮のPCMデータまたは変換領域のMDCTデータからの知覚的に動機付けられたメル・スケール変調スペクトル（MMS：Mel-scale modulation spectrum）の最終的な表現につながるか、あるいは圧縮領域のビットストリーム片の知覚的に動機付けられたSBRペイロード変調スペクトル（MS_SBR）の最終的な表現につながる。

変調スペクトルから、変調スペクトル重心、変調スペクトル・ビート強さおよび変調スペクトル・テンポ混乱といったパラメータが計算できる。これらのパラメータのいずれを知覚的テンポ補正ユニット１３０９に入力して利用してもよい。知覚的テンポ補正ユニット１３０９は、最大計算１３１１から得られる物理的に最も顕著なテンポを補正する。システム１３００の出力は、実際の音楽入力ファイルの知覚的に最も顕著なテンポである。

本稿においてテンポ推定について概説した方法は、オーディオ・エンコーダのほかオーディオ・デコーダにおいて適用されてもよいことを注意しておくべきである。圧縮領域、変換領域およびPCM領域におけるオーディオ信号からのテンポ推定方法は、エンコードされたファイルをデコードしながら適用されてもよい。これらの方法は、オーディオ信号をエンコードしながらも等しく適用可能である。記載される方法の複雑さのスケーラブル性の考えは、オーディオ信号をデコードするときもエンコードするときも有効である。

本稿で概説した方法は完全な音楽信号に対するテンポ推定および方正のコンテキストで概説されていることがありうるが、これらの方法はオーディオ信号のサブセクション、たとえばMMSセグメントに対して適用されてもよく、それによりオーディオ信号のサブセクションについてのテンポ情報を提供しうることも注意しておくべきである。

さらなる側面として、オーディオ信号の物理的なテンポおよび／または知覚的なテンポの情報はエンコードされたビットストリームにメタデータの形で書き込まれてもよいことを注意しておくべきである。そのようなメタデータは、メディアプレーヤーによって、あるいはMIRアプリケーションによって抽出され、使用されてもよい。

さらに、変調スペクトル表現（たとえば、図１０の変調スペクトル１００１、また特に１００２および１００３）を修正および圧縮し、可能性としては修正および／または圧縮された変調スペクトルをメタデータとしてオーディオ／ビデオ・ファイルまたはビットストリーム内に格納することも考えられている。この情報は、オーディオ信号の音響イメージ・サムネイル（acoustic image thumbnail）として使用されることができる。これは、オーディオ信号におけるリズム内容に関する詳細をユーザーに与えるために有用となりうる。

本稿では、物理的および知覚的テンポの信頼できる推定のための、複雑さがスケーラブルな変調周波数方法およびシステムが記載されてきた。推定は、非圧縮PCM領域、MDCTベースのHE-AAC変換領域およびHE-AAC SBRペイロード・ベースの圧縮領域のオーディオ信号に対して実行されうる。これは、たとえオーディオ信号が圧縮領域にある場合でも、非常に低い複雑さでのテンポ推定値の決定を許容する。SBRペイロード・データを使って、テンポ推定値は、エントロピー復号を実行することなく、圧縮されたHE-AACビットストリームから直接抽出されうる。提案される方法はビットレートおよびSBRクロスオーバー周波数の変化に対して堅牢であり、モノおよび多チャネルのエンコードされたオーディオ信号に適用できる。mp3PROのような他のSBR向上されたオーディオ符号化器にも適用でき、コーデックを問わないと見なすことができる。テンポ推定の目的のために、テンポ推定を実行する装置がSBRデータをデコードできることは要求されない。これは、テンポ抽出がエンコードされたSBRデータに対して直接実行されるという事実のためである。

加えて、提案される方法およびシステムは、人間のテンポ知覚および大規模な音楽データセットにおける音楽テンポ分布の知識を利用する。テンポ推定のためのオーディオ信号の好適な表現の評価のほかに、知覚的テンポ重み付け関数および知覚的テンポ補正方式が記載されている。さらに、オーディオ信号の知覚的に顕著なテンポの信頼できる推定値を与える知覚的テンポ補正方式が記載されている。

提案される方法およびシステムは、MIRアプリケーションのコンテキストにおいて、たとえばジャンル分類のために使用されてもよい。低い計算上の複雑さのため、テンポ推定方式、特にSBRペイロードに基づく推定方法は、典型的には限られた処理および記憶資源をもつポータブル電子装置上で直接実装されうる。

さらに、知覚的に顕著なテンポの決定は、音楽選択、比較、混合〔ミキシング〕およびプレイリスト作成のために使用されてもよい。例として、隣り合う音楽トラック間のなめらかなリズム的遷移をもつプレイリストを生成するとき、音楽トラックの知覚的に顕著なテンポに関する情報は、物理的に顕著なテンポに関する情報より適切となりうる。

本稿で記載されたテンポ推定方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されてもよい。ある種のコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアおよび／または特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて出てくる信号は、ランダム・アクセス・メモリまたは光学式記憶媒体といった媒体上に記憶されてもよい。これらは電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットといったネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および／またはレンダリングするために使用されるポータブル電子装置または他の消費者設備である。これらの方法およびシステムは、オーディオ信号、たとえば音楽信号をダウンロードのために記憶し、提供するコンピュータ・システム、たとえばインターネット・ウェブ・サーバー上で使用されてもよい。
いくつかの態様を記載しておく。
〔態様１〕
スペクトル帯域複製データを含むオーディオ信号のエンコードされたビットストリームから前記オーディオ信号のテンポ情報を抽出する方法であって：
・前記オーディオ信号のある時間区間について、前記エンコードされたビットストリーム中に含まれるスペクトル帯域複製データの量に関連付けられたペイロード量を決定する段階と；
・前記決定する段階を、前記オーディオ信号の前記エンコードされたビットストリームの一連の時間区間について繰り返し、それによりペイロード量のシーケンスを決定する段階と；
・ペイロード量の前記シーケンスにおける周期性を同定する段階と；
・同定された周期性から、前記オーディオ信号のテンポ情報を抽出する段階とを含む、
方法。
〔態様２〕
態様１記載の方法であって、ペイロード量を決定する段階が：
・前記時間区間における前記エンコードされたビットストリームの一つまたは複数の充填要素フィールドに含まれるデータの量を決定する段階と；
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるデータの量に基づいて前記ペイロード量を決定する段階とを含む、
方法。
〔態様３〕
態様２記載の方法であって、ペイロード量を決定する段階が：
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製ヘッダ・データの量を決定する段階と；
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれる正味のデータ量を、前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製ヘッダ・データの量を控除することによって決定する段階と；
・前記ペイロード量を前記正味のデータ量に基づいて決定する段階とを含む、
方法。
〔態様４〕
前記ペイロード量が前記正味のデータ量に対応する、態様３記載の方法。
〔態様５〕
態様１ないし４のうちいずれか一項記載の方法であって、
・前記エンコードされたビットストリームが複数のフレームを含み、各フレームは、前記オーディオ信号の、所定の長さの時間の抜粋に対応し、
・前記時間区間が、前記エンコードされたビットストリームの一フレームに対応する、
方法。
〔態様６〕
態様１ないし５のうちいずれか一項記載の方法であって、前記繰り返しが前記エンコードされたビットストリームのすべてのフレームについて実行される、方法。
〔態様７〕
態様１ないし６のうちいずれか一項記載の方法であって、周期性を同定することが：
・ペイロード量の前記シーケンスにおけるピークの周期性を同定することを含む、
方法。
〔態様８〕
態様１ないし７のうちいずれか一項記載の方法であって、周期性を同定することが：
・ペイロード量の前記シーケンスに対してスペクトル解析を実行し、一組のパワー値および対応する周波数を与える段階と；
・ペイロード量の前記シーケンスにおける周期性を、前記一組のパワー値における相対的な最大を判別し、対応する周波数として周期性を選択することによって、同定する段階とを含む、
方法。
〔態様９〕
態様８記載の方法であって、スペクトル解析の実行が：
・ペイロード量の前記シーケンスの複数のサブシーケンスに対してスペクトル解析を実行し、複数組のパワー値を与える段階と；
・前記複数組のパワー値を平均する段階とを含む、
方法。
〔態様１０〕
前記複数のサブシーケンスが部分的に重なり合う、態様９記載の方法。
〔態様１１〕
スペクトル解析の実行が、フーリエ変換を実行することを含む、態様８ないし１０のうちいずれか一項記載の方法。
〔態様１２〕
態様８ないし１１のうちいずれか一項記載の方法であって、さらに：
・前記複数組のパワー値に、対応する周波数の人間の知覚上の選好に関連した重みを乗算する段階を含む、
方法。
〔態様１３〕
態様８ないし１２のうちいずれか一項記載の方法であって、テンポ情報を抽出する段階が：
・前記一組のパワー値の絶対的な最大値に対応する周波数を決定することを含み、前記周波数が前記オーディオ信号の物理的に顕著なテンポに対応する、
方法。
〔態様１４〕
態様１ないし１３のうちいずれか一項記載の方法であって、前記オーディオ信号が音楽信号を含み、テンポ情報を抽出する段階が、前記音楽信号のテンポを推定することを含む、方法。
〔態様１５〕
オーディオ信号の知覚的に顕著なテンポを推定する方法であって：
・前記オーディオ信号から変調スペクトルを決定する段階であって、前記変調スペクトルは複数の生起周波数および対応する複数の重要性値を含み、前記重要性値は前記オーディオ信号における前記対応する生起周波数の相対的な重要性を示す、段階と；
・物理的に顕著なテンポを、前記複数の重要性値のうちの最大値に対応する生起周波数として決定する段階と；
・前記変調スペクトルから前記オーディオ信号の拍メトリックを決定する段階と；
・前記変調スペクトルから知覚的テンポ指標を決定する段階と；
・知覚的に顕著なテンポを、前記物理的に顕著なテンポを前記拍メトリックに基づいて修正することによって決定する段階とを含み、前記修正する段階は、前記知覚的テンポ指標と前記物理的に顕著なテンポとの間の関係を考慮に入れる、
方法。
〔態様１６〕
態様１５記載の方法であって、前記オーディオ信号が時間軸に沿ったPCMサンプルのシーケンスによって表現され、変調スペクトルを決定する段階が：
・PCMサンプルの前記シーケンスから、複数の相続く、部分的に重なり合うサブシーケンスを選択する段階と；
・前記複数の相続くサブシーケンスについての、あるスペクトル分解能を有する複数の相続くパワー・スペクトルを決定する段階と；
・知覚的な非線形変換を使って前記複数の相続くパワー・スペクトルのスペクトル分解能を凝縮する段階と；
・前記複数の相続く凝縮されたパワー・スペクトルに対して時間軸に沿ったスペクトル解析を実行し、それにより前記複数の重要性値およびその対応する生起周波数を与える段階とを含む、
方法。
〔態様１７〕
態様１５記載の方法であって、前記オーディオ信号が時間軸に沿った、相続くMDCT係数ブロックのシーケンスによって表現され、変調スペクトルを決定する段階が：
・知覚的な非線形変換を使ってブロック中のMDCT係数の数を凝縮すること；および
・相続く凝縮されたMDCT係数ブロックのシーケンスに対して時間軸に沿ったスペクトル解析を実行し、それにより前記複数の重要性値およびその対応する生起周波数を与えることを含む、
方法。
〔態様１８〕
態様１５記載の方法であって、前記オーディオ信号が、スペクトル帯域複製データおよび時間軸に沿った複数の相続くフレームを含むエンコードされたビットストリームによって表現され、変調スペクトルを決定する段階が：
・前記エンコードされたビットストリームのフレームのシーケンスにおけるスペクトル帯域複製データの量に関連付けられたペイロード量のシーケンスを決定する段階と；
・ペイロード量の前記シーケンスから、複数の相続く、部分的に重なり合うサブシーケンスを選択する段階と；
・前記複数の相続くサブシーケンスに対して時間軸に沿ったスペクトル解析を実行し、それにより前記複数の重要性値およびその対応する生起周波数を与える段階とを含む、
方法。
〔態様１９〕
態様１５ないし１８のうちいずれか一項記載の方法であって、変調スペクトルを決定する段階が：
・前記複数の重要性値に、対応する生起周波数の人間の知覚上の選好に関連する重みを乗算する段階を含む、
方法。
〔態様２０〕
態様１５ないし１９のうちいずれか一項記載の方法であって、物理的に顕著なテンポを決定する段階が：
・前記物理的に顕著なテンポを、前記複数の重要性値のうちの絶対的な最大値に対応する生起周波数として決定することを含む、
方法。
〔態様２１〕
態様１５ないし２０のうちいずれか一項記載の方法であって、拍メトリックを決定する段階が：
・複数の0でない周波数遅延について、前記変調スペクトルの自己相関を決定する段階と；
・自己相関の最大および対応する周波数遅延を同定する段階と；
・前記対応する周波数遅延および前記物理的に顕著なテンポに基づいて前記拍メトリックを決定する段階とを含む、
方法。
〔態様２２〕
態様１５ないし２０のうちいずれか一項記載の方法であって、泊メトリックを決定する段階が：
・前記変調スペクトルと複数の拍メトリックにそれぞれ対応する複数の合成されたタッピング関数との間の相互相関を決定する段階と；
・最大の相互相関を与える拍メトリックを選択する段階とを含む、
方法。
〔態様２３〕
態様１５ないし２２のうちいずれか一項記載の方法であって、前記拍メトリックが：
・３／４拍子の場合の3；または
・４／４拍子の場合の2
のうちの一つである、方法。
〔態様２４〕
態様１５ないし２３のうちいずれか一項記載の方法であって、知覚的テンポ指標を決定する段階が：
・前記複数の重要性値の平均値を、前記複数の重要性値のうちの最大値によって規格化したものとして第一の知覚的テンポ指標を決定することを含む、
方法。
〔態様２５〕
態様２４記載の方法であって、知覚的に顕著なテンポを決定する段階が：
・前記第一の知覚的テンポ指標が第一の閾値を超えるかどうかを判定し；
・前記第一の閾値を超える場合にのみ前記物理的に顕著なテンポを修正することを含む、
方法。
〔態様２６〕
態様１５ないし２５のうちいずれか一項記載の方法であって、知覚的テンポ指標を決定する段階が：
・前記複数の重要性値のうちの最大値として第二の知覚的テンポ指標を決定することを含む、
方法。
〔態様２７〕
態様２６記載の方法であって、知覚的に顕著なテンポを決定する段階が：
・前記第二の知覚的テンポ指標が第二の閾値を下回るかどうかを判定し；
・前記第二の知覚的テンポ指標が前記第二の閾値を下回る場合に前記物理的に顕著なテンポを修正することを含む、
方法。
〔態様２８〕
態様１５ないし２７のうちいずれか一項記載の方法であって、知覚的テンポ指標を決定する段階が：
・前記変調スペクトルの重心生起周波数として、第三の知覚的テンポ指標を決定することを含む、
方法。
〔態様２９〕
態様２８記載の方法であって、知覚的に顕著なテンポを決定する段階が：
・前記第三の知覚的テンポ指標と前記物理的に顕著なテンポとの間のミスマッチを判別し；
・ミスマッチが判別される場合に、前記物理的に顕著なテンポを修正することを含む、
方法。
〔態様３０〕
態様２９記載の方法であって、ミスマッチの判別が：
・前記第三の知覚的テンポ指標が第三の閾値を下回り、前記物理的に顕著なテンポが第四の閾値を上回ることを判別する、または
・前記第三の知覚的テンポ指標が第五の閾値を上回り、前記物理的に顕著なテンポが第六の閾値を下回ることを判別することを含む、
方法。
〔態様３１〕
態様１５ないし３０のうちいずれか一項記載の方法であって、前記物理的に顕著なテンポを前記拍メトリックに基づいて修正することが：
・拍レベルを、根底にある拍子の、次の、より高い拍レベルに上げること、または
・拍レベルを、根底にある拍子の、次の、より低い拍レベルに下げることを含む、
方法。
〔態様３２〕
態様３１記載の方法であって、前記拍レベルを上げることまたは下げることが：
・３／４拍子の場合、前記物理的に顕著なテンポに3をかけるまたは前記物理的に顕著なテンポを3で割ること；および
・４／４拍子の場合、前記物理的に顕著なテンポに2をかけるまたは前記物理的に顕著なテンポを2で割ることを含む、
方法。
〔態様３３〕
プロセッサ上での実行のために適応され、コンピューティング・デバイス上で実行されるときに態様１ないし３２のうちいずれか一項記載の方法の段階を実行するよう適応されたソフトウェア・プログラム。
〔態様３４〕
プロセッサ上での実行のために適応され、コンピューティング・デバイス上で実行されるときに態様１ないし３２のうちいずれか一項記載の方法の段階を実行するよう適応されたソフトウェア・プログラムを有する記憶媒体。
〔態様３５〕
コンピュータ上で実行されるときに態様１ないし３２のうちいずれか一項記載の方法を実行するための実行可能命令を含むコンピュータ・プログラム・プロダクト。
〔態様３６〕
・オーディオ信号を記憶するよう構成された記憶ユニットと；
・前記オーディオ信号をレンダリングするよう構成されたオーディオ・レンダリング・ユニットと；
・前記オーディオ信号についてのテンポ情報を求めるユーザーの要求を受け取るよう構成されたユーザー・インターフェースと；
・前記オーディオ信号に対して態様１ないし３２のうちいずれか一項記載の方法の段階を実行することによってテンポ情報を決定するよう構成されたプロセッサとを有する、
ポータブル電子装置。
〔態様３７〕
オーディオ信号のスペクトル帯域複製データを含むエンコードされたビットストリームから、前記オーディオ信号のテンポ情報を抽出するよう構成されたシステムであって：
・前記オーディオ信号のある時間区間の前記エンコードされたビットストリーム中に含まれるスペクトル帯域複製データの量に関連付けられたペイロード量を決定する手段と；
・上記の決定する段階を、前記オーディオ信号の前記エンコードされたビットストリームの一連の時間区間について繰り返し、それによりペイロード量のシーケンスを決定する手段と；
・ペイロード量の前記シーケンスにおける周期性を同定する手段と；
・同定された周期性から前記オーディオ信号のテンポ情報を抽出する手段とを有する、
システム。
〔態様３８〕
オーディオ信号の知覚的に顕著なテンポを推定するよう構成されたシステムであって：
・前記オーディオ信号から変調スペクトルを決定する手段であって、前記変調スペクトルは複数の生起周波数および対応する複数の重要性値を含み、前記重要性値は前記オーディオ信号における対応する生起周波数の相対的な重要性を示す、手段と；
・物理的に顕著なテンポを、前記複数の重要性値の最大値に対応する生起周波数として決定する手段と；
・前記変調スペクトルを解析することによって前記オーディオ信号の拍メトリックを決定する手段と；
・前記変調スペクトルから知覚的テンポ指標を決定する手段と；
・前記拍メトリックに基づいて前記物理的に顕著なテンポを修正することによって知覚的に顕著なテンポを決定する手段とを有しており、前記修正する段階は、前記知覚的テンポ指標と前記物理的に顕著なテンポとの間の関係を考慮に入れる、
システム。
〔態様３９〕
オーディオ信号のメタデータを含むエンコードされたビットストリームを生成する方法であって：
・前記オーディオ信号のテンポに関連付けられたメタデータを決定する段階と；
・前記メタデータをエンコードされたビットストリーム中に挿入する段階とを含む、
方法。
〔態様４０〕
前記メタデータが、前記オーディオ信号の物理的に顕著なテンポおよび／または知覚的に顕著なテンポを表すデータを含む、態様３９記載の方法。
〔態様４１〕
態様３９または４０記載の方法であって、前記メタデータが、前記オーディオ信号からの変調スペクトルを表すデータを含み、前記変調スペクトルは、複数の生起周波数および対応する複数の重要性値を含み、前記重要性値は前記オーディオ信号における対応する生起周波数の相対的な重要性を示す、方法。
〔態様４２〕
態様３９ないし４１のうちいずれか一項記載の方法であって、さらに：
・HE-AAC、MP3、AAC、ドルビー・デジタルまたはドルビー・デジタル・プラスのエンコーダのうちの一つを使って、前記オーディオ信号を、前記エンコードされたビットストリームのペイロード・データのシーケンスにエンコードする段階を含む、
方法。
〔態様４３〕
オーディオ信号のメタデータを含むエンコードされたビットストリームから、前記オーディオ信号のテンポに関連付けられたデータを抽出する方法であって：
・前記エンコードされたビットストリームの前記メタデータを識別する段階と；
・前記エンコードされたビットストリームの前記メタデータから、前記オーディオ信号のテンポに関連付けられたデータを抽出する段階とを含む、
方法。
〔態様４４〕
メタデータを含むオーディオ信号のエンコードされたビットストリームであって、前記メタデータは：
・前記オーディオ信号の物理的に顕著なテンポおよび／または知覚的に顕著なテンポ；
・前記オーディオ信号からの変調スペクトル、
の少なくとも一つを表すデータを含み、前記変調スペクトルは、複数の生起周波数および対応する複数の重要性値を含み、前記重要性値は前記オーディオ信号における対応する生起周波数の相対的な重要性を示す、
ビットストリーム。
〔態様４５〕
オーディオ信号のメタデータを含むエンコードされたビットストリームを生成するよう構成されたオーディオ・エンコーダであって、当該エンコーダは：
・前記オーディオ信号のテンポに関連付けられたメタデータを決定する手段と；
・前記メタデータを前記エンコードされたビットストリーム中に挿入する手段とを有する、
エンコーダ。
〔態様４６〕
オーディオ信号のメタデータを含むエンコードされたビットストリームから、前記オーディオ信号のテンポに関連付けられたデータを抽出するよう構成されたオーディオ・デコーダであって、当該デコーダは：
・前記エンコードされたビットストリームの前記メタデータを識別する手段と；
・前記エンコードされたビットストリームの前記メタデータから、前記オーディオ信号のテンポに関連付けられたデータを抽出する段階とを含む、
デコーダ。

Claims

オーディオ信号の圧縮されたスペクトル帯域複製エンコードされたビットストリームから前記オーディオ信号のテンポ情報を抽出する方法であって、前記エンコードされたビットストリームはスペクトル帯域複製データを含み、当該方法は：
・前記オーディオ信号のある時間区間について、前記エンコードされたビットストリーム中に含まれるスペクトル帯域複製データの量に関連付けられたペイロード量を決定する段階と；
・前記決定する段階を、前記オーディオ信号の前記エンコードされたビットストリームの一連の時間区間について繰り返し、それによりペイロード量のシーケンスを決定する段階と；
・ペイロード量の前記シーケンスにおける周期性を同定する段階と；
・同定された周期性から、前記オーディオ信号のテンポ情報を抽出する段階とを含む、
方法。
請求項１記載の方法であって、ペイロード量を決定する段階が：
・前記時間区間における前記エンコードされたビットストリームの一つまたは複数の充填要素フィールドに含まれるデータの量を決定する段階と；
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるデータの量に基づいて前記ペイロード量を決定する段階とを含む、
方法。
請求項２記載の方法であって、ペイロード量を決定する段階が：
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製ヘッダ・データの量を決定する段階と；
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれる正味のデータ量を、前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製ヘッダ・データの量を控除することによって決定する段階と；
・前記ペイロード量を前記正味のデータ量に基づいて決定する段階とを含む、
方法。
前記ペイロード量が前記正味のデータ量に対応する、請求項３記載の方法。
請求項１ないし４のうちいずれか一項記載の方法であって、
・前記エンコードされたビットストリームが複数のフレームを含み、各フレームは、前記オーディオ信号の、所定の長さの時間の抜粋に対応し、
・前記時間区間が、前記エンコードされたビットストリームの一フレームに対応する、
方法。
請求項１ないし５のうちいずれか一項記載の方法であって、前記繰り返しが前記エンコードされたビットストリームのすべてのフレームについて実行される、方法。
請求項１ないし６のうちいずれか一項記載の方法であって、周期性を同定することが：
・ペイロード量の前記シーケンスにおけるピークの周期性を同定することを含む、
方法。
請求項１ないし７のうちいずれか一項記載の方法であって、周期性を同定することが：
・ペイロード量の前記シーケンスに対してスペクトル解析を実行し、一組のパワー値および対応する周波数を与える段階と；
・ペイロード量の前記シーケンスにおける周期性を、前記一組のパワー値における相対的な最大を判別し、対応する周波数として周期性を選択することによって、同定する段階とを含む、
方法。
請求項８記載の方法であって、スペクトル解析の実行が：
・ペイロード量の前記シーケンスの複数のサブシーケンスに対してスペクトル解析を実行し、複数組のパワー値を与える段階と；
・前記複数組のパワー値を平均する段階とを含む、
方法。
前記複数のサブシーケンスが部分的に重なり合う、請求項９記載の方法。
スペクトル解析の実行が、フーリエ変換を実行することを含む、請求項８ないし１０のうちいずれか一項記載の方法。
請求項８ないし１１のうちいずれか一項記載の方法であって、さらに：
・前記複数組のパワー値に、対応する周波数の人間の知覚上の選好に関連した重みを乗算する段階を含む、
方法。
請求項８ないし１２のうちいずれか一項記載の方法であって、テンポ情報を抽出する段階が：
・前記一組のパワー値の絶対的な最大値に対応する周波数を決定することを含み、前記周波数が前記オーディオ信号の物理的に顕著なテンポに対応する、
方法。
請求項１ないし１３のうちいずれか一項記載の方法であって、前記オーディオ信号が音楽信号を含み、テンポ情報を抽出する段階が、前記音楽信号のテンポを推定することを含む、方法。
プロセッサ上での実行のために適応され、コンピューティング・デバイス上で実行されるときに請求項１ないし１４のうちいずれか一項記載の方法の段階を実行するよう適応されたソフトウェア・プログラム。
プロセッサ上での実行のために適応され、コンピューティング・デバイス上で実行されるときに請求項１ないし１４のうちいずれか一項記載の方法の段階を実行するよう適応されたソフトウェア・プログラムを有する記憶媒体。
コンピュータ上で実行されるときに請求項１ないし１４のうちいずれか一項記載の方法を実行するための実行可能命令を含むコンピュータ・プログラム。
・オーディオ信号を記憶するよう構成された記憶ユニットと；
・前記オーディオ信号をレンダリングするよう構成されたオーディオ・レンダリング・ユニットと；
・前記オーディオ信号についてのテンポ情報を求めるユーザーの要求を受け取るよう構成されたユーザー・インターフェースと；
・前記オーディオ信号に対して請求項１ないし１４のうちいずれか一項記載の方法の段階を実行することによってテンポ情報を決定するよう構成されたプロセッサとを有する、
ポータブル電子装置。
オーディオ信号の圧縮されたスペクトル帯域複製エンコードされたビットストリームから、前記オーディオ信号のテンポ情報を抽出するよう構成されたシステムであって、前記エンコードされたビットストリームは前記オーディオ信号のスペクトル帯域複製データを含み、当該システムが：
・前記オーディオ信号のある時間区間の前記エンコードされたビットストリーム中に含まれるスペクトル帯域複製データの量に関連付けられたペイロード量を決定する手段と；
・上記の決定する段階を、前記オーディオ信号の前記エンコードされたビットストリームの一連の時間区間について繰り返し、それによりペイロード量のシーケンスを決定する手段と；
・ペイロード量の前記シーケンスにおける周期性を同定する手段と；
・同定された周期性から前記オーディオ信号のテンポ情報を抽出する手段とを有する、
システム。
オーディオ信号のメタデータを含むエンコードされたビットストリームを生成する方法であって：
・前記オーディオ信号のテンポに関連付けられたメタデータを決定する段階であって、前記テンポは請求項１ないし１４のうちいずれか一項記載の方法に基づいて決定されている、段階と；
・前記メタデータをエンコードされたビットストリーム中に挿入する段階とを含む、
方法。
前記メタデータが、前記オーディオ信号の物理的に顕著なテンポおよび／または知覚的に顕著なテンポを表すデータを含む、請求項２０記載の方法。
請求項２０または２１記載の方法であって、前記メタデータが、前記オーディオ信号からの変調スペクトルを表すデータを含み、前記変調スペクトルは、複数の生起周波数および対応する複数の重要性値を含み、前記重要性値は前記オーディオ信号における対応する生起周波数の相対的な重要性を示す、方法。
請求項２０ないし２２のうちいずれか一項記載の方法であって、さらに：
・HE-AAC、MP3、AAC、ドルビー・デジタルまたはドルビー・デジタル・プラスのエンコーダのうちの一つを使って、前記オーディオ信号を、前記エンコードされたビットストリームのペイロード・データのシーケンスにエンコードする段階を含む、
方法。
オーディオ信号のメタデータを含むエンコードされたビットストリームを生成するよう構成されたオーディオ・エンコーダであって、当該エンコーダは：
・前記オーディオ信号のテンポに関連付けられたメタデータを決定する手段であって、前記テンポは請求項１ないし１４のうちいずれか一項記載の方法の段階に基づいて決定されている、手段と；
・前記メタデータを前記エンコードされたビットストリーム中に挿入する手段とを有する、
エンコーダ。