JP2012506061A

JP2012506061A - デジタル音楽音響信号の分析方法

Info

Publication number: JP2012506061A
Application number: JP2011531363A
Authority: JP
Inventors: フェアンストラムラース; レオナルディリカルド; スカリンジェルニコラ
Original assignee: Museeka Sa
Current assignee: Museeka Sa
Priority date: 2008-10-15
Filing date: 2008-10-15
Publication date: 2012-03-08
Also published as: CA2740638A1; EA201170559A1; BRPI0823192A2; CN102187386A; WO2010043258A1; EP2342708A1; EP2342708B1

Abstract

本発明は、音楽音響信号（２）に含まれるコードファミリプロファイル（ＣＦＰ）のセットを抽出するために、音楽音響信号（２）を分析する音楽音響表現方法に関し、該方法では、ａ）音楽音響信（２）の調性を表す第１データ（５）を抽出するために、音楽音響信号（２）に第１アルゴリズム（４）を適用し、ｂ）前記第１データ（５）に含まれる調性の中心音を表す第２データ（７）を提供するために、第１データ（５）に第２アルゴリズム（６）を適用する。

Description

本発明は音楽音響信号、好ましくはデジタル音楽音響信号の自動分析に関する。

特に、本発明は、請求項１および１７の各上位概念部分に基づく、音楽音響信号の情報コンテンツを表す特徴セットを抽出するための音楽音響表現方法および音楽音響信号の分析装置に関する。

定義
詳細な説明で用いられるいくつかの用語について、以下に説明する。これら用語には通常その分野で用いられるものもあり、本発明の実施形態を明確に伝えるために作り出したものもある。

ここでは、以下の用語は次の意味を意図している。

ピッチ−音の知覚される基本周波数。ピッチは、単一の（場合により孤立した）音に関連付けられ、瞬間的なものである（おおよそ音自体と同じ長さが知覚され、音楽信号において典型的には２００〜５００ｍｓの期間である）。以下の表１では、ピアノのレジスタに亘るピッチが、対応する基本周波数（ヘルツ）に関連付けられている。ここでは標準的な調律を仮定しており、すなわち、ピッチＡ３は、４４０Ｈｚの基本周波数に相当する。

インターバル−２つの有ピッチ音の間のピッチ差
オクターブ−基本周波数を２倍にすることに相当するインターバル
ピッチクラス−オクターブの整数倍だけ離れている、全てのピッチのセット、例えば、ピッチクラスＣは、全てのオクターブにおけるＣからなる。

コード−音楽理論において、コードとは、同時に発生する２つ以上の異なるピッチのことであり、本明細書では、単一のピッチもコードとして参照される（概略は、図１ａおよび１ｂを参照）。

コードルート−これを基にコードが構成されている、または、これを中心としてコードが階層化されているものとして、知覚またはラベル付けされるノートまたはピッチ（概略は、図１ａおよび１ｂを参照）。

コードファミリ−コードファミリとは、多数の特徴を共有するコードのセットであって、この特徴には以下のものが含まれる（例として、図１ａおよび１ｂを参照）。

・複数のピッチクラス。複数のピッチクラスからコードを構成するノートが取り出される（典型的には、コード当たり１〜６のピッチクラス）。

・正確なインターバルの構成。「コード品質」と呼ばれる場合もある。これはコードを構成しているピッチクラス間のインターバルを特定するものである。

調性−ピッチが階層的に（調性の中心音周辺で）体系化されている音の体系。この中でピッチは互いに関連し合っているものとして知覚される傾向がある、ここで、調性の知覚は瞬間的なものではなく、十分に長い調性コンテキストが必要であることに注意。

調性コンテキスト−特定の調性の知覚をもたらすコードの組み合わせ。

キー−ピッチクラスの順序付けされたセット、すなわち、主音とモードの組み合わせ（例として、図２ａおよび２ｂを参照）。

調性の中心音または主音−他の全てのピッチが階層的に関連付けられる特定の調性コンテキストにおける支配的なピッチクラス（例として、図２ａおよび２ｂを参照）。

モード−インターバルの順序付けされたセット（例として、図２ａおよび２ｂを参照）。

移調−一定のインターバルだけ、ピッチ集合を上下に移動させるプロセス。

転調−ある調性の中心音から他の調性の中心音へ変化するプロセス
クロマティックスケール−１２のピッチクラス全てのセット
拍子−楽曲における基本的な時間の区分であり、強拍および弱拍のメジャーとして体系化される（概略として、図３を参照）。

ビート−曲の基本的な時間単位（例として、図３を参照）。

メジャーまたはバー−強拍および弱拍の反復シーケンスとして定義される時間のセグメント。図３に、音響信号および検出された開始点の位置を示し、ここで開始点に関連する振幅が大きくなるほど、検出された拍子階層における重みも大きくなる（すなわち、音楽バーはより大きな重みを有し、バーは中間の重みを有し、拍子のない開始点はより小さな重みを有する）。

音響信号のフレームは、音響信号の短いスライスであり、典型的には音響信号の２０〜５０ｍｓのセグメントである。

発明の背景
音楽音響信号の場合、信号に現れる様々なピッチを直接観測することは不可能であり、むしろそれらは高調波の混合として観測される。従って、殆どの先行技術のアルゴリズムは、音楽音響信号モデリングの基礎としてクロマベクトルとも呼ばれるピッチクラスプロファイル（ＰＣＰ）を用いている（例えば、M.A.Bartsch and GH.Wakefield, "Audio Thumbnailing of Popular Music Using Chroma-based Representations", IEEE Transactions on Multimedia, 1996を参照）。

ＰＣＰ／クロマアプローチは、音楽音響信号におけるピッチクラスの強度を測定する一般的な低レベル特徴抽出方法である。

当該技術分野では、低レベルＰＣＰのシーケンスから楽曲のキーまたはコード進行を導くために、多くのアルゴリズムが提案されてきた。

例えば、ＰＣＰアルゴリズムの実行形式においては、調性スケールの１２個の各半音の強度が測定される。このような実行形式では、時間／周波数表現のいくつかを時間／ピッチクラス表現にマッピングすることが含まれる。言い換えれば、スペクトルピーク（または、スペクトルビン）は、クロマティックスケールの最も近接したピッチに関連付けられる。

ＰＣＰアルゴリズムの他の実施形態では、ＰＣＰビンに対してより高い分解能が用いられてきた。すなわち、このタイプのＰＣＰアルゴリズムは、量子化レベルを半音よりも低いレベルまで下げる。

さらに、ＰＣＰアルゴリズムの他の実行形式では、有ピッチの楽器は、単一の周波数周辺でエネルギーピークを示すだけではなく、いくつかのほぼ調和周波数においても大きなエネルギーを示す。

ノートや音色の数が増加するにつれて（すなわち、曲の中で同時に演奏される楽器の数が増加すると）、全ての構成ノートの部分音が無秩序に重なり合って、ＰＣＰが楽曲の実際のコンテンツの不適切な表現を抽出される。

従来、例えば、低レベルＰＣＰのシーケンスから、楽曲のキーまたはコード進行のような高レベルな音楽特徴を導くために、多数のアルゴリズムが提案されてきた（例えば、O. Izmirli, "An algorithm for Audio Key Finding", Music Information Retrieval Evaluation eXchange （MIREX）を参照）。

これらのアルゴリズムは、典型的には、音楽信号においてサーチされる音楽オブジェクトをＰＣＰ空間において符号化する「テンプレート」を使用することに依存している（コードテンプレートの例として、図１ａおよび１ｂを、キーテンプレートの例として、図２ａおよび２ｂを参照）。そのようなテンプレートを実際のＰＣＰの観測結果に関連付けることにより、テンプレートに対応する音楽のオブジェクトが実際に信号に隠れているか判別することが可能になる。すなわち、ＰＣＰと最大限に相関するテンプレートが、信号に隠れている音楽のオブジェクトに対応する。

高レベルな音楽特徴抽出に対するテンプレートベースのアプローチは、しかしながら、テンプレートの選択により制限される。例えば、キー検出の場合、最先端のアルゴリズムでは、メジャーキー用のテンプレートとマイナーキー用のテンプレートが使用される（１２個の可能なピッチクラスそれぞれについてそのようなテンプレートが１つ用いられる）。

メジャー／マイナー２分法の制限は、西洋のクラシック音楽から来ている。しかし、ロックなどのポピュラー音楽は、西洋のクラシックの考え方では適切に記述できない。実際、ロック音楽およびより一般的にはポピュラー音楽は、ユニークで多様な文化を混合、交錯したものであり、今日の音楽において構造的に容認される新しい一連の規則を生み出した。

これは、完全に異なる文化的背景から来ている、いわゆるワールドミュージックにおいてなおさらあてはまる。実際、ワールドミュージックには、メジャー/マイナー２分法よりもさらに広い、様々な音楽的色彩や形式が存在する。

発明の要約
上述の先行技術を考慮して、本発明の目的は、楽曲における音響信号のピッチコンテンツを音楽学的に有効に記述できるよう計算する特徴抽出アルゴリズムを開発することである。

さらに、本発明の目的は、音響フォーマットにおける楽曲の調性の中心音を検出するためのアルゴリズムを提供し、かつ楽曲において移調に対するピッチ分布の不変な表現を符号化する特徴のセットおよびそれらの相関を提供することである。

さらに、本発明の目的は、現実の音楽信号において観測可能である様々な音色およびピッチの組み合わせに対してロバストな、楽曲のピッチコンテンツに対する代替の低レベル表現を提案することである。この目的を達成するために、現実の音楽信号のデータ特異性から学習するように、機械学習アルゴリズムを用いることが特に提案される。

さらなる本発明の目的は、中間ノート同定ユニットを用いることなくコード空間に直接スペクトルの観察結果をマッピングすることである。

本発明の他の目的は、転調が生じた場合に、楽曲の進行に沿って調性の中心音の追跡を可能にすることである。転調よりも速いレートで生じるコード変化を追跡するのを避けるために、十分に長い時間スケールを考慮したことが、調性の中心音の追跡アルゴリズムの特徴である。

本発明の目的は、楽曲の調性の中心音を検出するプロセスにおいて、音楽的なアクセント付け、具体的には、拍子のアクセント付けを考慮することである。

本発明の他の目的は、多種多様な音楽形式を適切な記述できるようにすることである。この目的を達成するために、異なる文化的背景に基づく音楽形式のデータ特異性から学習するように機械学習アルゴリズムを用いることが特に提案される。

本発明によると、これらの目的は、請求項１の特徴部分に規定されるように、音楽音響信号の情報コンテンツを表す特徴のセットを抽出するために、音楽音響信号を分析するための方法によって実現される。

さらに、本発明によると、これらの目的は、請求項１７の特徴部分に規定されるように、音楽音響信号の情報コンテンツを表す特徴のセットを抽出するために、音楽音響信号を分析するための装置によって実現される。

本発明により、楽曲のコンパクトな記述を生成する音響特徴抽出方法を用いて、楽曲のコンテンツを特徴付けることが可能になり、このコンパクトな記述は、例えばデータベースに記憶されてもよく、または、例えばＩＤ３タグのように音響ファイルに埋め込まれてもよい。

さらに、本発明により、楽曲の調性の中心音を同定し、特にポピュラー、ワールドミュージック、および西洋クラシック音楽において聞かれる、多種多様な音楽形式を区別する特徴を用いて、同様な楽曲における移調に対して不変に選択を行うことが可能となる。

この目的のために、ピッチ分布（コードファミリプロファイル）を記述する新しい特徴のセットが提案され、多種多様な音楽形式に現れるパターンを同定するために、調性の中心音の検出および同様な調性を有する楽曲の選択の両方に対して、教師付き機械学習アプローチが用いられる。

本発明の特徴は、教師付きおよび教師なしの両方の方法で訓練される機械学習アルゴリズムを用いてコードファミリプロファイルを抽出することである。

本発明の特徴および利点は、以下の一実施形態の詳細な説明に記載されるが、詳細な説明の記載は、添付の図面によって制限されるものではない。

図１ａおよび１ｂは、コードの例を示す図図２ａおよび２ｂは、キーの例を示す図拍子レベルを示す図本発明による音楽音響分析方法のブロック図図５ａは、本発明による音楽音響分析方法の第１アルゴリズムを示すブロック図、図５ｂは、音楽音響信号に第１アルゴリズムを適用した結果の音楽音響信号および複数のベクトルを示す図図６ａは、本発明による第１アルゴリズムの訓練ステップのための第１の方法を示す他のブロック図、図６ｂは、本発明による第１アルゴリズムの訓練ステップのための第２の方法を示す他のブロック図本発明による音楽音響分析方法の第２アルゴリズムのブロック図第２アルゴリズムの動作方法を示す図第２アルゴリズムの動作方法を示す図第２アルゴリズムの動作方法を示す図第２アルゴリズムの動作方法を示す図本発明による音楽音響分析装置のブロック図図３の音響信号のパワースペクトルに適用された場合の移動平均を示す図

添付の図４〜８を参照して、コードファミリプロファイル（ＣＦＰ）を抽出するためにデジタル音楽音響信号２を分析する音楽音響分析方法が一般的に示される。

デジタル音楽音響信号２は、歌または歌の完全ヴァージョンを表す音響信号を抽出したものであってもよいことに留意されたい。

特に、方法１は以下のステップを備える。

ａ）デジタル音楽音響信号２の調性コンテキストを表す第１データ５を抽出するために、デジタル音楽音響信号２に第１アルゴリズム４を適用するステップ
ｂ）第１データ５に含まれる調性の中心音を表す第２データ７を提供するために、第１データ５に第２アルゴリズム６を適用するステップ
上記の定義に関して、調性との用語は、調性の中心音周辺で階層的に体系化された、コードルートおよびコードファミリの組み合わせを指す、すなわち、知覚されるレベルが調性の中心音に相対的に測定される、コードルートおよびコードファミリの組み合わせを指すことに留意されたい。

従って、方法１のステップａ）、すなわち第１アルゴリズム４は、デジタル音楽音響信号２において観測されるコードルートおよびコードファミリの組み合わせを表す第１データ５を抽出可能であり、つまり第１データ５は、デジタル音楽音響信号２の調性コンテキストを含む。しかし、方法１のステップａ）すなわち第１アルゴリズム４では次の点に注意されたい。すなわち、ステップａ）は、デジタル音楽音響信号２に含まれるコードルートおよびコードファミリを検出することを明示的な目的とはしていない。反対に、その目的は、デジタル音楽音響信号２で観測されるコードルートおよびコードファミリと相関する、抽象的で、可能であれば冗長な表現を得ることである。

さらに、方法１のステップｂ）、すなわち、第２アルゴリズム６は、第１データ５に含まれている調性の中心音Ｔｃを表す第２データ７を提供するため、第１データ５を構築することができる。すなわち、他の全てのピッチが階層的に参照される、特定の調性コンテキストの支配的なピッチクラス（図２ａおよび２ｂを参照）が、第２データ７には含まれる。

従って、第１アルゴリズム４および第２アルゴリズム６を適用することによって、デジタル音楽音響信号２の調性の中心音Ｔｃが一旦検出されると、デジタル音楽音響信号２の調性が、第２データ７に対する第１データ５の階層的な位置により記述される。

任意付加的に方法１は、さらに次のステップを備える。

ｃ）第１データ５の正規化されたヴァージョンである第３のデータ９を提供するために、第２データ７に依存して、第３のアルゴリズム８を第１データ５に適用する。

以下では、第１アルゴリズム４、第２アルゴリズム６、および、第３のアルゴリズム８の動作についてより詳細に記載する。

第１アルゴリズム４
ステップａ）
図５ａおよび５ｂを参照すると、音響デジタル信号２から第１データ５を抽出することに適した第１アルゴリズム４のブロック図が示されている。

特に、第１アルゴリズム４は、次のステップを備える。

ａ１）複数のピークｐ１，ｐ２，ｐ３，…，ｐｉの時間位置を特定するために、前記音楽音響信号２のノート開始点のシーケンスを同定する（１０）。ここで、「ｉ」は１＜ｉ＜Ｎの間で変化し得る添え字、Ｎはデジタル音響信号２のサンプル数であり、実際にはｉ＜＜Ｎである。

ａ２）音響音楽信号２を、複数の音響セグメント（ｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉ）に分割する。各音響セグメントは、ピークｐｉ，ｐ２，ｐ３，…，ｐｉを含む。

ａ３）音楽音響信号２のスペクトルの時間ドメインにおける変化を表す複数のスペクトルセグメントｓｐ−１，ｓｐ−２，ｓｐ−３，…，ｓｐ−ｉを得るために、周波数解析を各音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉに対して適用する。

ａ４）第１データ５を提供するために、計算ネットワーク１２により複数のスペクトルセグメントｓｐ−１，ｓｐ−２，ｓｐ−３，…，ｓｐ−ｉを処理する。

第１データ５は、複数のベクトルｖ１，ｖ２，ｖ３，…，ｖｉを有し、複数のベクトルｖ１，ｖ２，ｖ３，…，ｖｉの各ベクトルは、それぞれ音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，ｓ−ｏｎ−ｉに関連付けられている。

特に、各ベクトルｖ１，ｖ２，ｖ３，ｖｉは、１２個のピッチ（Ａ〜Ｇ＃）をコードタイプの所定数「ｎ」倍したものと等しい次元を有する。

有利には、コードタイプの所定数「ｎ」は、例えば、「ピッチ」、「メジャーコード」、「マイナーコード」、「ディミニッシュコード」、「オーグメントコード」を表すように、５に設定することもできる。

ステップａ１）
第１アルゴリズム４の上記ステップａ１）は、音響信号２の音楽イベントのアタックを検出するために、開始検出アルゴリズムにより実行される。

実際、各ピークｐｉ，ｐ２，ｐ３，…，ｐｉは、各音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉにおける音楽イベントのアタックを表す。

開始検出アルゴリズム１０は、J.P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies, M. Sandler, "A Tutorial on Onset Detection in Music Signals"，（IEEE Transactions on Speech and Audio Processing, 2005）に記載されているように、実行できる。

ステップａ２）
第１アルゴリズム４の上記ステップａ２）において、音楽音響信号２が複数の音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉに分割され、各音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉは期間「Ｔ」を有する。

第１アルゴリズム４のステップａ２）は、音楽音響信号２を音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉに分割し、各音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉは、それ独自の期間「Ｔ」を有している。

つまり、各音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，ｓ−ｏｎ−ｉの期間「Ｔ」は、それぞれ互いに異なり得る。

ステップａ３）
第１アルゴリズム４の上記ステップａ３）は、所定のサブ期間「ｔ」の間のみ、各音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉに対して、有利には周波数解析を適用する。ここで、サブ期間「ｔ」は期間「Ｔ」よりも短い。

つまり、音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉが、そのようなサブ期間「ｔ」より長い場合であっても、サブ期間「ｔ」の間のみ、さらに周波数で解析される。

所定のサブ期間「Ｔ」は、ユーザによって手動で設定可能であることに留意されたい。

所定のサブ期間「ｔ」は、２５０〜３５０ｍｓｅｃの範囲内にあることが好ましい。

従って、音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉの期間「Ｔ」が所定の期間「ｔ」よりも長い、すなわち、２５０〜３５０ｍｓｅｃより長い場合、サブ期間「ｔ」に含まれるデータのみが考慮され、一方でセグメントの残りの部分は関連性のないデータを含んでいると仮定され、従って、そのような残りのデータは無視される。

期間Ｔが、所定のサブ期間「ｔ」よりも短い（隣接するピークの間隔が、それぞれの「ｔ」より短い）場合、その長さは所定のサブ期間「ｔ」と等しくなるように、音響セグメントにゼロサンプルが加えられる。従って、周波数解析は、最も短い時間インターバル、すなわち、期間「Ｔ」に制限される。

期間Ｔが５０ｍｓｅｃに等しくかつサブ期間「ｔ」が２００ｍｓｅｃに等しい場合、従って、各音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉの周波数解析は、期間Ｔ、すなわち、最も短い期間の間生じる音楽サンプルを用いてのみ行われる。

ステップａ３）の間に適用される周波数解析は、好ましい実施形態において、ＤＦＴ（Discrete Fourier Transform、離散フーリエ変換）により行われる。

ステップａ３）の間に、音響信号２の時間−周波数表示における不確実性を低減する関数を適用するさらなるステップもまた、実行され得ることに留意されたい。

この目的のために、ハニング窓などのアポダイゼーション関数を適用することが可能である。

特に、ハニング窓が適用された場合、ハニング窓の窓長は、音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，ｓ−ｏｎ−ｉの長さ「Ｔ」に等しい。

ＤＦＴにより行われる周波数解析を適用する前に、対応するセグメントの音響データにサンプルごとに乗じることによって、アポダイゼーション関数が、音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，ｓ−ｏｎ−ｉに適用されることにも留意されたい。

アポダイゼーション関数が用いられるさらなる理由は、アポダイゼーション窓の境界周辺に音楽イベントアタックｐ１，ｐ２，ｐ３，…，ｐｉが位置するので、これらを減衰させるためである。このようにして、音楽イベントアタックｐ１，ｐ２，ｐ３，…，ｐｉの減衰されたヴァージョンを生成することが可能になる。

さらに、パワースペクトラムがＤＦＴまたは任意の高速実行、例えば、ＦＦＴ（Fast Fourier Transform、高速フーリエ変換）を用いて計算される。

ＦＦＴを用いる場合には、サブ期間「ｔ」の選択によりＦＦＴの周波数分解能を制御することができ（すなわち、期間「t」が長くなるほど、周波数分解能は高くなる）、音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉの初期の期間「Ｔ」が各セグメントと異なる場合であっても、周波数分解能が一定であるように周波数分解能が正規化される。

ｒａｄｉｘ−２ＦＦＴを実行した場合は、サブ期間「ｔ」は、結果として得られるセグメントサンプルにおける長さが２のべき乗と等しいように選択される。

ステップａ４）
図６Ａおよび６Ｂに関連して上記ステップａ４）を参照して、計算ネットワーク１２が、好ましくは、訓練された機械学習アルゴリズムを用いて実行されることに留意されたい。

特に、訓練された機械学習アルゴリズムは、多層パーセプトロン（ＭＬＰ）を有する。

多層パーセプトロン（ＭＬＰ）のタスクは、スペクトルセグメントｓｐ−１，ｓｐ−２，ｓｐ−３，ｓｐ−ｉが与えられた場合に、コードファミリ（すなわち、コードタイプ）、および、コードルート（すなわち、ピッチクラス）の各組み合わせの事後確率を推定することである。

特に、多層パーセプトロン（ＭＬＰ）は、２つのステップで訓練される。

第１ステップ：既知の孤立したコードのセットの基に生成された訓練データの第１のセット１３を用いて、教師付きで訓練が行われ、その結果、複数のセグメントｓｐ−１，ｓｐ−２，ｓｐ−３，ｓｐ−ｉに対応するスペクトルから、コードファミリおよびコードルートへの第１のグラウンドトルースマッピングが確立される。

第２ステップ：楽曲の多数のセットからなる訓練データの第２のセット１４を用いて、教師なしの形で訓練が実行され、その結果、現実の多音の曲で遭遇する多様な楽器の混合に対する第１ステップで得られた訓練された機械学習アルゴリズムの重み「ω」のセットの改良が行われる。

まとめると、訓練された機械学習アルゴリズム１２は、２つのステップで訓練される。すなわち、手動ラベル付けされた少量の訓練データを用いて第１の教師付き学習と、ラベル付けされていない多量の訓練データのセットを用いた後続の教師なし学習である。

より具体的には、機械学習アルゴリズム１２が教師付きで訓練される第１ステップにおいて、手動でラベル付けされた訓練データセットは、ＭＩＤＩファイルとして保存された、孤立したコードからなる。コードのセットは、考慮されている各コードタイプ（メジャー、マイナー、ディミニッシュ、オーグメント…）、各ピッチクラス（Ｃ，Ｃ＃，Ｄ…）、および多数のオクターブをカバーしなくてはならない。

多量の音響訓練データは、多様なＭＩＤＩ楽器を用いてこれらのＭＩＤＩファイルから生成される。ピッチクラスおよびコードタイプを共に有する音響サンプルが、機械学習アルゴリズム１２の訓練に用いられる。アルゴリズムは、グラウンドトルースから「ピッチクラス／コードタイプ」ペアごとに単一出力を生成するように設定されている。

機械学習アルゴリズムの様々な重み「ω」の訓練は、標準的な確率的勾配降下法により行われる。一旦そのような訓練が達成されると、この第１訓練ステップの終わりに、任意の入力スペクトルセグメントｓｐ−１，ｓｐ−２，ｓｐ−３，ｓｐ−ｉのコードファミリへの第１の予備マッピングが生成される。

このようにして第１訓練ステップ後に生成された機械学習アルゴリズム１２の出力ベクトルは、任意の「ピッチクラス／コードタイプ」ペアのための尤度比を決定する成分を有することに留意されたい。しかし、機械学習アルゴリズム１２は、今のところ、多様なＭＩＤＩ楽器により生成された孤立したコードから訓練されているだけであるため、現実の多音の曲で遭遇する多様な音色と満足に一致する結果を導くことにはまだ成功していない。

従って、訓練される機械学習アルゴリズム１２の訓練を、より多量な楽曲のセットによるデータを用いて改良していく必要がある。

この目的のために、第２ステップの間、機械学習アルゴリズム１２は教師なしで訓練される。第１ステップ後に、初期に訓練された機械学習アルゴリズム１２に自身のミラーヴァージョンがカスケードされる。このミラーヴァージョンは、（対応する演算子がある種の逆の演算を行うために、演算子が線形である場合）第１ステップ後の訓練された機械学習ネットワークの重み「ω」と同じものを初期の重みとして用いる。

（演算子が線形であれば）機械学習アルゴリズム１２は、高次元入力データ（スペクトルセグメント）を、コードファミリに対応する低次元空間へ射影することができる。そのミラーヴァージョンでは、低次元コード特徴から初期の高次元スペクトルピーク表現に戻ろうと試みる。この目的のために、カスケードアルゴリズムの初期設定は、訓練エンジンアルゴリズムの重みの転置されたセットを初期には採用する。

続いて、「機械学習アルゴリズム」および「その初期のミラーヴァージョン」の重みは全て、確率的勾配降下法により、入力訓練パターン（すなわち、スペクトルセグメント）および再構築された出力パターン間の距離を最小化するように調整される。訓練データとしては、利用可能な楽曲の完全なセットを用いる。

これは、（第１ステップの間に実行される）初期の教師付き訓練により、対応するコードファミリに向けられたデータの低次元表現を学習するために、ネットワークの重みを微調整することに繋がる。

この訓練のアプローチは、自動エンコーダネットワークの訓練を連想させるものである。

この場合、教師付きストラテジによってネットワークを初期化することにより、コードファミリの観点で低次元表現の物理的特質と一致するネットワークの重みの初期セットを確実に見出せる。

一旦、第２ステップの訓練が完了すると、この時点で、最終的な訓練がなされた機械学習アルゴリズム１２を表すプロセス要素の第１段階のみを保持するように「コードファミリ−スペクトルセグメント」計算ネットワークは取り除かれる。

図５Ａを再び参照すると、第１アルゴリズム４は、ＤＦＴステップａ３）の後、さらなるフィルタリングのステップａ５）を備えていてもよい。

そのようなフィルタリングステップａ５）は、ピーク検出１５とも呼ばれ、方法１の任意付加的なステップである。

フィルタリングステップａ５）の動作によれば、各複数のスペクトルセグメントｓｐ−１，ｓｐ−２，ｓｐ−３，ｓｐ−ｉにおけるピークｐｉ’，ｐ２’，ｐ３’，…，ｐｉ’を強調するために、ブロック１１により生成された複数のスペクトルセグメントｓｐ−１，ｓｐ−２，ｓｐ−３，…，ｓｐ−ｉを移動平均によってフィルタリングすることが可能である。

従って、ステップａ５）の出力において、スペクトルセグメントｓｐ−１’，ｓｐ−２’，ｓｐ−３’，…，ｓｐ−ｉ’が得られる。これにおいて、スペクトルセグメントｓｐ−１，ｓｐ−２，ｓｐ−３，…，ｓｐ−ｉのピークｐｉ’，ｐ２’，ｐ３’，…，ｐｉ’は強調されている。一方、スペクトルセグメントｓｐ−１，ｓｐ−２，ｓｐ−３，…，ｓｐ−ｉの全体の形は無視されている。

つまり、図９も参照すると、移動平均２０は典型的にはステップａ４）の結果であるパワースペクトル２１上で計算され、この移動平均を下回るパワーを有するスペクトル成分はゼロに設定される。

さらに、フィルタリングステップ１５の後で、計算ステップａ４）の前に、音楽音響分析方法１は、さらにホワイトニング１６とも呼ばれる非相関化ステップを有する。

また、この非相関化ステップは、方法１において任意付加的なものである。

特に、非相関化ステップの間、複数の非相関化されたスペクトルセグメントｓｐ−１"，ｓｐ−２"，ｓｐ−３"，…，ｓｐ−ｉ"を提供するために、複数のスペクトルセグメントｓｐ−１’，ｓｐ−２’，ｓｐ−３’，…，ｓｐ−ｉ’が、音響セグメントスペクトルの所定のデータペース１９（図８）を参照して、非相関化される。

従って、一旦複数のスペクトルセグメントｓｐ−１，ｓｐ−２，ｓｐ−３，…，ｓｐ−ｉが、ピークｐｉ’，ｐ２’，ｐ３’，…，ｐｉ’を強調するためにフィルタリングされると、複数のスペクトルセグメントｓｐ−１’，ｓｐ−２’，ｓｐ−３’，…，ｓｐ−ｉ’を得る。複数のスペクトルセグメントｓｐ−１’，ｓｐ−２’，ｓｐ−３’，…，ｓｐ−ｉ’は、本発明の好ましい実施形態において得られる変形されたホワイトニングを用いてホワイトニングされる。ホワイトニングは、データベースに含まれる音響セグメントスペクトルの大きなセットに基づいて主成分分析（ＰＣＡ）により計算される。

この場合、任意付加的なフィルタリングおよび非相関化のステップが方法１に実装される。ホワイトニングされたスペクトルセグメントｓｐ−１"，ｓｐ−２"，ｓｐ−３"，…，ｓｐ−ｉ"は、従って、計算ネットワーク１２、すなわちＭＬＰに与えられることに留意されたい。

第２アルゴリズム６
ステップｂ）
次に、図６および７を参照すると、音楽音響分析方法１の第２アルゴリズム６は、次のステップを備えている。

ｂ１）第１データ５を構成する第１の群「ｇｌ」のベクトルを含む第１の所定の期間Ｔｌを有する第１の窓「ｗ１」を提供し、
ｂ２）第１の窓「ｗ１」に含まれる局所的な調性の中心音を表す第１の調性コンテキストＴｃ１を推定するために、第１の窓「ｗ１」に含まれる第１の群（ｇｌ）のベクトルを処理する。

第１の窓「ｗ１」の第１の所定の期間Ｔ１は、各複数の音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉのサブ期間「ｔ」よりもずっと長いことに留意されたい。

さらに、第２アルゴリズム６は、さらなるステップを備える。

ｂ３）第１の窓「ｗ１」がシフトされた窓である第２の窓「ｗ２」を提供する。第２の窓「ｗ２」は、第２の所定の期間Ｔ２を有し、複数のベクトルの第２の群「ｇ２」を備える。

ｂ４）第２の窓「ｗ２」に含まれる局所的な調性の中心音を表す第２の調性コンテキストＴｃ２を推定するために、第２の窓「ｗ２」に含まれる複数のベクトルの第２の群「ｇ２」を計算する。

ｂ５）第１データ５の調性の中心音の変化を表す第２データ７を生成するために、第１の窓「ｗ１」の調性コンテキストＴｃ１および第２の窓「ｗ２」の調性コンテキストＴｃ２を処理する。

特に、第２の窓「ｗ２」は、第１の窓「ｗ」の一時的な期間Ｔ１に関して、所定の期間Ｔｓだけシフトされる。

Ｔｌ−Ｔｓと第１の所定の期間Ｔｌとの間の範囲において、第２の所定の期間Ｔ２が変化し得ることに留意されたい。

従って、第２の所定の期間Ｔ２もまたサブ時間ｔよりもずっと長い。

好ましくは、ベクトルの第１の群ｇｌとベクトルの第２の群ｇ２とがそれぞれ互いに重なるように、所定の時間Ｔｓは、第１の所定の期間Ｔｌよりも短いとみなされる。

実際、第１の所定の期間Ｔｌよりも短い所定の時間Ｔｓを選択することで、有利には、データ５の調性の中心音Ｔｃの変化をより正確な方法で追跡することが可能になる。

実際、特定の調性コンテキストでは、コード／ピッチのいくつかは、他よりも期待されなければならない。

コードは、典型的には、音楽バーと共に変化する、または、ビートレベルはもっと高速に変化するため、調性は知覚されるのにより長い時間期間を必要とする。

好ましくは、第１の所定の期間Ｔｌは、典型的には、２５〜３５ｓｅｃの範囲で設定され、より好ましくは約３０ｓｅｃであり、一方で所定の時間Ｔｓは、典型的には、１０〜２０ｓｅｃの範囲で設定され、より好ましくは約１５ｓｅｃである。

代替として、所定の時間Ｔｓが第１の所定の期間Ｔｌと等しい場合、ベクトルの第１の群ｇｌは、ベクトルの第２の群ｇ２と隣接している。

さらに、音楽音響分析方法１の第２アルゴリズム６は、さらに以下のステップを備える。

ｂ６）さらなる窓「ｗｉ」を特定するために、複数の音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉが終わるまでステップｂ３）〜ｂ５）を繰り返し、ここで、各さらなる窓「ｗｉ」は、ベクトル群「ｇｉ」を含む。

２つの連続する窓、例えば、窓ｗ３およびｗ４（図示せず）は、重複またはせいぜい隙間なく連続していなくてはならないことに注意が必要である。しかし、任意の後続の窓すなわち窓ｗ４は、先行する窓すなわちｗ１，ｗ２、および、ｗ３に含まれていてはならない。

従って、窓ｗ２の所定の期間、すなわち、期間Ｔ２は、窓ｗ１の所定の期間Ｔｌと等しいか、または、所定の期間Ｔｌよりも長い、すなわち、Ｔ２＞（３／２）Ｔｌであってもよい。基本的な音響信号の局所的な特徴に調整されるように、しかし部分的に重複するという原則を破ることなしに、Ｔ２は、関連付けられた窓に局所的に合わせられてもよい。

複数の分析窓を重複させることも可能であり、すなわち、窓間で最大限重複するように、例えば、３０ｓｅｃ長の窓を一度に１つの開始点分だけシフトさせることも可能である。

代わりに、窓「ｗ」の期間と位置は、音楽信号の全体構造を調整するものであってもよく、すなわち、窓は、歌の序奏部またはコーラス部のようなセクションと一致するように設定されてもよい。当業者には公知である先行技術の音楽要約アルゴリズムを用いることによって、これら構造的セクションの一時的な境界の自動的な推定結果を得てもよい。

後者の場合、異なる窓は、異なる期間を有していてもよく、重複する代わりに隣接していてもよい。

第１データ５の調性の中心音を表す第２データ７を生成するための第１の方法は、調性の中心音を設定するために、第１データ５の平均ベクトル「ｍ」を形成し、そのような平均ベクトル「ｍ」における最も高いコードルートの値を選択する。

第１データ５の調性の中心音の局所的かつ時間的な変化を捉えるよりよい方法が、本発明に基づきおよび図６を参照して、以下の好ましい実施形態で記載される。それによると、第１の群ｇｌに含まれるベクトルの平均、分散、１次共分散のような、時間に亘って測定された統計的推定、および、他の群（すなわち、ｇ２，…，ｇｉ）に対する同じ統計的推定が、各音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉの局所的な調性コンテキストのよりよい表現を見つけるために用いられてもよい。

このような、データ５の時間に亘って測定される統計的推定は、データ７Ａを形成するために以下の式に基づいて計算され得る。

ここで、Ｎは窓「ｗｉ」の群「ｇｉ」内のベクトル数、μは平均、σ^２は分散、ｃｏｖ＿１は１次共分散である。

第２アルゴリズム６によって出力されるデータ８は、Ｄ＝３＊１２＊Ｆに等しい次元を持つ。

ここで、Ｄは次元、Ｆは考慮されたコードファミリの数、１２はクロマティックスケールの半音数、すなわち、クロマティックスケールのピッチクラス数、そして３は時間に亘って測定された統計的推定数、すなわち、平均、分散、１次共分散である。

任意付加的に、音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，…，ｓ−ｏｎ−ｉが、基本的な拍子グリッドと同期された場合にアクセント付けされたとして知覚されるという事実を考慮するために、データ７を抽出する間重み付けスキームを組み込むこともできる。

さらに、調性の知覚を生み出す最も安定したピッチは、典型的には、拍子グリッドと同期して演奏される一方、関連性の低いピッチは拍子のない時間位置で演奏される可能性が高い。

好ましい実施形態において、拍子推定の間における拍子情報の取り込みは以下の通り行われる。

各音響セグメントｓ−ｏｎ−１，ｓ−ｏｎ−２，…，ｓ−ｏｎ−ｉは、同定された拍子イベントとの同期に基づいて特定の拍子重みに関連付けられている。例えば、対応する音響セグメントによりカバーされた時間位置のいくつかにおいて、音楽バーの位置が検出された場合、音響セグメントに１．０の重みを割り当てることが可能である。ビート位置が音響セグメントによりカバーされたいくつかの時間位置において検出された場合は、例えば、０．５より小さい重みが用いられてもよい。最後に、音響セグメントに対応する拍子イベントがない場合、例えば、０．２５である最小の重みが用いられてもよい。

そのような重みを与えることで、データ７Ａを以下のように再評価することが可能になる。

ここで、Ｎは窓「ｗｉ」の群「ｇｉ」内のベクトル数、μ_ｗは重み付けされた平均、σ_ｗ ^２は重み付けされた分散、ｃｏｖ＿１_ｗは重み付けされた１次共分散である。

ステップｂ５）
好ましい実施形態において、音楽音響分析方法１の第２アルゴリズム６のステップｂ５）、すなわち、与えられた楽曲のデータ８の調性の中心音の変化を表すデータ７を抽出するステップは、以下のようにして実行される。

まず、データ７Ａの各ベクトルを独立に多層パーセプトロン（ＭＬＰ）に与えることにより、局所的な調性の中心音推定が計算される。

ＭＬＰのアーキテクチャは、その入力数がデータ７Ａにおけるベクトルのサイズと一致するようになっている。

つまり、ＭＬＰの入力数は、窓「ｗ」（または、ジェネリック窓「ｗｉ」）の調性コンテキストを記述する特徴の数に対応している。

好ましい実施形態では、そのような特徴としてＤ＝３＊１２＊Ｆとなっている。

ＭＬＰは、隠れレイヤおよび隠れニューロンの任意数で構成されてもよい。

しかし、出力数は、各出力がクロマティックスケールの１２の可能なピッチの１つと対応するように、１２に固定される。

ＭＬＰのパラメータは、確率的勾配降下法を用いて教師付きで訓練される。

訓練データは、多様な異なる楽曲に対して窓「ｗ」（またはジェネリック窓「ｗｉ」）の調性コンテキストを記述する特徴ベクトルの大きなセットから成る。

そのような各ベクトルに対して、目標とする調性の中心音は、多くの音楽専門家により手動で関連付けられている。

対応する訓練データ（すなわち、目標とする特徴ベクトル／調性の中心音ペア）は、ＣＦＰベクトルの１２個の可能な遷移全てを考慮することにより、１２倍に拡大され得る（以下で記載されるＣＦＰの遷移のための第３のアルゴリズム８を参照）。

訓練には、対応する入力データが与えられた場合、ターゲットとする調性の中心音に対応する出力を最大化し、かつ他の出力を最小化するパラメータのセットを見つけ出すことが含まれる。

適切に選択された非線形関数（例えば、シグモイド関数）および訓練コスト関数（例えば、クロスエントロピーコスト関数）を用いることにより、ＭＬＰ出力は、調性の中心音の事後確率が推定され、すなわち、各出力は０と１の間で制限され、それらの合計は１になる。

一旦、局所的な調性の中心音の推定がＭＬＰにより計算されると、調性の中心音は徐々に変化し、さらに実際に変化した場合にはそれらの変化はある特定のパターンに従うということを仮定して、対応する局所的な事後確率は、完全な楽曲の経過に従って平滑化される。

実際、局所的な推定iは、先行の局所的な推定ｉ−１にのみ依存すると仮定され、すなわち、このプロセスは１次マルコフ制約を満たす。

連続する局所的な推定間のこの依存性は、調性の中心音推定ｉ−１から調性の中心音推定ｉへ移動する確率を符号化する遷移行列によりモデル化される。

これらの遷移確率はデータから学習可能ではあるが、専門家の音楽知識を基に手動でセットされる（例えば、表２参照）。

さらに、調性の中心音は全て、初期には同様に確からしいと仮定される。

データ７を見つけること、すなわち、楽曲の経過に従って最適な調性の中心音のシーケンスを見つけることに対する課題は、以下のように説明される。

Ｔｃ１^＊，Ｔｃ２^＊，…，Ｔｃｎ^＊を最適な調性の中心音のシーケンスとし、Ｏｂｓｌ，Ｏｂｓ２，…，Ｏｂｓｎを局所的な調性の中心音を推定するＭＬＰに独立に与えられる特徴ベクトルのシーケンスとすると、Ｔｃ１^＊，Ｔｃ２^＊，…，Ｔｃｎ^＊は、以下のようになる。

Tcl*, Tc2*, …, Tcn* = argmax Tc1, Tc2, …, Tcn
p（Tcl, Tc2, …, Tcn|Obsl, Obs2, …, Obsn）
これは、p（Tc1, Tc2, …, Tcn, Obsl, Obs2, …, Obsn）≒ Πt p（Tct|Obst）p（Tct|Tct-1）のような、最も確からしいシーケンスを見つけることと等価である。

ここで、ｐ（Ｔｃｔ｜Ｏｂｓｔ）は、局所的な観測Ｏｂｓｔおよび調性の中心音Ｔｃｔに対応する局所的な調性の中心音推定ＭＬＰの出力であり、ｐ（Ｔｃｔ｜Ｔｃｔ−ｌ）は、ＴｃｔおよびＴｃｔ−１間の遷移に対応する遷移確率行列のエントリである。最後に、初期には、ｐ（Ｔｃ０）＝１／１２（すなわち、各調性の中心音の均一な初期分布）であることが仮定される。

このように定式化することで、ビタビアルゴリズムにより、最も確からしい調性の中心音Ｔｃ１^＊，Ｔｃ２^＊，…，Ｔｃｎ^＊のシーケンスが得られる。ビタビアルゴリズムは、この場合最も確からしい調性の中心音のシーケンスである、最も確からしい隠れ状態のシーケンスを見つけるための動的プログラミングアルゴリズムである。ここでこのシーケンスは、この場合ＭＬＰの局所的な調性の中心音の推定である、観測されたイベントシーケンスをもたらす。

調性コンテキストのモデリングは、各調性の中心音Ｔｃiの確率推定を行うＭＬＰと、ジェネリック窓「ｗｉ」におけるＣＦＰ７の平均／分散／共分散７Ａの計算とによって行うことで実際に実行される。

図７ａ〜７ｄは、第１データ５にアルゴリズム６が一旦適用された場合の図を示す。

特に、図７ａは、音楽音響信号２のＦ＝２であるコードファミリのための楽曲のＣＦＰベクトルシーケンス（すなわち、ＣＦＰの次元は２＊１２＝２４）、すなわち第１データ５を示す図である。ここで、横軸がジェネリック音響セグメントｓ−ｏｎ−ｉのベクトルであり、縦軸が次元である。

図７ｂは、窓「ｗｉ」に亘る調性コンテンツを表すＤ次元ベクトルシーケンス、すなわち第２データ７を示す図である。ここで、横軸がジェネリック窓「ｗｉ」のベクトルであり、縦軸が次元である。特に、図７ｂは、窓「ｗ」に亘るより短期のＣＦＰベクトルの平均／分散／共分散に対応するより長期のベクトルを示す。

図７ｃは、局所的な調性の中心音の推定シーケンス、すなわち、ＭＬＰの１２次元出力を示す図である。ここで、横軸がジェネリック窓「ｗｉ」のベクトルであり、縦軸がピッチクラスである。

最後に、図７ｄは、ビタビアルゴリズムによって得られる、対応する調性の中心音の最適なシーケンス、すなわち、各窓「ｗｉ」の調性の中心音における最後の推定を示す。ここで、横軸がジェネリック窓「ｗｉ」のベクトルであり、縦軸がピッチクラスである。

第３のアルゴリズム８
ステップｃ）
図４を再び参照すると、第３のアルゴリズム８は、第３のデータ９を生成するように、第２データ７に依存して第１データ５を基準ピッチに移調するステップｃｌ）を備えている。

第３のアルゴリズム８により、第３のデータ９は第２データ７に対して不変となる。

実際、前述の第２アルゴリズム６を用いて一旦第１データ５の最適な調性の中心音が同定されると、群ｇｌ（またはｇ２，…，ｇｉ）の各ＣＦＰベクトルは、ベクトルの値を基準ピッチに移すことによって、移調に対して不変とされる。

例えば、基準ピッチはＣでもよい。

実際、これは単純な円順列ＴＣＦＰ_ｔ（ｉ，ｍｏｄ（ｊ−Ｔｔ，１２））＝ＣＦＰｔ（ｉ，ｊ）により実行される。ここで、ＴＣＦＰ_ｔは時間ｔにおける移調されたＣＦＰベクトル、ｉはコードファミリインデックス、ｊはピッチクラス、Ｔ_ｔは時間ｔにおける調性の中心音のピッチクラスである。

第１データ５を基準ピッチに移調するステップｃｌ）は正規化であり、それにより、調性を考慮することであらゆる音響音楽信号を比較することが可能になる。

次に図８を参照すると、装置は前述の方法を実行することができ、以下を備える。

・デジタル音楽音響信号２を受け取るための入力部
・デジタル音楽音響信号２を処理するためのプロセッサユニット１８
・同様のまたは異なる音楽イベントの代表イベントが記憶されるデータベース１９（このようなイベントは、元々の音楽イベントの既知である開始点に対応している）。データベース１９は、プロセッサユニット１８と信号通信を行う。

有利には、プロセッサユニット１８は、音楽音響信号２の調性の中心音を表すＣＦＰ７を抽出するように構成されている。

当業者は、同一および特定の要求に合致するべく、以下の特許請求の範囲に記載されたように、発明の範囲から逸脱しない範囲で上記記載した実施形態に対して多くの修正および変形を行ってもよいことは明らかである。

特に、本発明は、請求項１および１８の各上位概念部分に基づく、音楽音響信号の情報コンテンツを表す特徴セットを抽出するための音楽音響表現方法および音楽音響信号の分析装置に関する。

これは、完全に異なる文化的背景から来ている、いわゆるワールドミュージックにおいてなおさらあてはまる。実際、ワールドミュージックには、メジャー/マイナー２分法よりもさらに広い、様々な音楽的色彩や形式が存在する。
ＵＳ２００８２４５２１５には、次のような信号処理装置が開示されている。該装置は、ステレオ信号の形式において音信号から、左右間の中心に位置する音の成分である中心成分を除去する除去手段と、中心成分が除去された音信号から、所定範囲内にある１２平均律の様々なトーンの音特徴を表す第１特徴量を抽出する抽出手段と、第１特徴量を用いて所定範囲内にあるコードを判定する判定手段と、を備えている。
ＵＳ６０５７５０２には、以下が開示されている。まず、音波形の時間の一部分、すなわち、短い期間がＦＦＴ処理によって解析され、複数のピークエネルギーレベルを有する周波数スペクトルの形式である周波数成分となる。スペクトルの所定の周波数範囲（例えば、６３．５〜２０３２Ｈｚ）はコード認識解析のために除去され、次に、除去された周波数スペクトルはオクターブスパンベースに畳み込まれて、音楽オクターブスパン内のスペクトルピークが増幅され、さらに、解析されたスペクトルのピーク周波数位置によって定義される基準トーンピッチと処理システムにおいて用いられる基準トーンピッチとの間の差に基づいて、周波数軸が調整され、次いで、各コードタイプの基準周波数成分パターンを用いたパターン比較により、形成されたオクターブスペクトルにおけるこれらピークの位置からコードが決定される。従って、音楽演奏時に含まれる音楽コードは、音楽演奏時の音波形から認識される。半音ベースにおけるオクターブプロファイルの周波数スペクトルにおけるピークを増幅するために、自己相関法を使用して、半音スパンの基本ユニットに関してオクターブプロファイルにおける周波数成分間の自己相関を取ることも好ましい。

さらに、本発明によると、これらの目的は、請求項１８の特徴部分に規定されるように、音楽音響信号の情報コンテンツを表す特徴セットを抽出するために、音楽音響信号を分析するための装置によって実現される。

Claims

デジタル音楽音響信号（２）に含まれるコードファミリプロファイル（ＣＦＰ）のセットを抽出するために、前記デジタル音楽音響信号（２）を分析する音楽音響分析方法において、
ａ）前記デジタル音楽音響信号（２）の調性コンテキストを表す第１データ（５）を抽出するために、前記デジタル音楽音響信号（２）に第１アルゴリズム（４）を適用するステップと、
ｂ）前記第１データ（５）に含まれる調性の中心音（Ｔｃ）を表す第２データ（７）を提供するために、前記第１データ（５）に第２アルゴリズム（６）を適用するステップと、
を備えることを特徴とする、音楽音響分析方法。
前記第１アルゴリズムは、
ａ１）複数のピーク（ｐ１，ｐ２，ｐ３，…，ｐｉ）の時間位置を特定するために、前記音楽音響信号（２）におけるノート開始点のシーケンスを同定する（１０）ステップと、
ａ２）前記音響音楽信号（２）を、期間（Ｔ）を有する複数の音響セグメント（ｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉ）に分割するステップと、各前記音響セグメントは、前記複数のピーク（ｐ１，ｐ２，ｐ３，…，ｐｉ）のうちの１つを含み、
ａ３）所定のサブ期間（ｔ）の間、複数のスペクトルセグメント（ｓｐ−１，ｓｐ−２，ｓｐ−３，ｓｐ−ｉ）を得るために、各前記音響セグメント（ｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，ｓ−ｏｎ−ｉ）に対して周波数解析を行うステップと、前記サブ期間（ｔ）の長さは前記期間（Ｔ）の長さより短い、
を備えることを特徴とする、請求項１記載の音楽音響分析方法。
前記第１アルゴリズムは、
ａ４）前記第１データ（５）を提供するために、計算ネットワーク（１２）により、前記複数のスペクトルセグメント（ｓｐ−１，ｓｐ−２，ｓｐ−３，…，ｓｐ−ｉ）を処理するステップを備え、前記第１データ（５）は、「コードタイプ／ピッチクラス」ペアを記述する複数のベクトル（ｖ１，ｖ２，ｖ３，…，ｖｉ）を有し、
前記複数のベクトル（ｖ１，ｖ２，ｖ３，…，ｖｉ）の各ベクトルは、それぞれ前記音響セグメント（ｓ−ｏｎ−１，ｓ−ｏｎ−２，ｓ−ｏｎ−３，…，ｓ−ｏｎ−ｉ）に関連付けられる、
ことを特徴とする、請求項２記載の音楽音響分析方法。
前記計算ネットワーク（１２）は、訓練された機械学習アルゴリズムによって実装されていることを特徴とする、請求項３記載の音楽音響分析方法。
前記訓練された機械学習アルゴリズム（１２）は、
手動ラベル付けされた少量の訓練データ（１３）を用いる教師付き学習である第１ステップと、
ラベル付けされていない多量の訓練データのセット（１４）を用いた教師なし学習である第２ステップ、の２つのステップ
で訓練されることを特徴とする、請求項４記載の音楽音響分析方法。
前記第２ステップは、前記第１ステップ後に得られた、前記訓練された機械学習アルゴリズム（１２）の重み（ω）のセットを改良するために行われることを特徴とする、請求項５記載の音楽音響分析方法。
前記第１アルゴリズムは、周波数解析のステップａ３）後に、
ａ５）各前記複数のスペクトルセグメント（ｓｐ−１，ｓｐ−２，ｓｐ−３，…，ｓｐ−ｉ）におけるピーク（ｐｉ’，ｐ２’，ｐ３’，…，ｐｉ’）を強調するために、移動平均により前記複数のスペクトルセグメント（ｓｐ−１，ｓｐ−２，ｓｐ−３，…，ｓｐ−ｉ）をフィルタリングするステップ
をさらに備えることを特徴とする、請求項３記載の音楽音響分析方法。
前記計算段階ａ４）は、２つの連続する検出されたセグメント間の、複数の各セグメントに対して行われることを特徴とする、請求項３記載の音楽音響分析方法。
前記周波数解析は、前記サブ期間（ｔ）の間のみ実施され、前記サブ期間（ｔ）は、２５０〜３５０ｍｓｅｃの範囲であることを特徴とする、請求項２〜８記載の音楽音響分析方法。
前記第２アルゴリズムは、
ｂ１）前記第１データ（５）を構成する第１の群（ｇｌ）のベクトルを含む第１の所定の期間（Ｔｌ）を有する第１の窓（ｗ１）を提供するステップと、
ｂ２）前記第１の窓（ｗ１）に含まれる局所的な調性の中心音を表す第１の調性コンテキスト（Ｔｃ１）を推定するための、前記窓（ｗ）に含まれる前記第１の群（ｇｌ）のベクトルを改良するステップと、
ｂ３）第２の所定の期間（Ｔ２）を有する第２の窓（ｗ２）を提供するステップと、前記第２の窓（ｗ２）は、前記第１の窓（ｗ１）に対して前記第２の窓（ｗ２）が重なるような、前記第１の窓（ｗ１）の所定のシフトされた時間（Ｔｓ）でシフトされた窓であり、第２の群（ｇ２）のベクトルを有しており、
ｂ４）前記第２の窓（ｗ２）に含まれる局所的な調性の中心音を表す第２の調性コンテキスト（Ｔｃ２）を推定するために、前記第２の窓（ｗ２）に含まれる前記第２の群（ｇ２）のベクトルを計算するステップと、
ｂ５）前記第２データ（７）を生成するための、前記第１の窓（ｗ１）の前記調性コンテキスト（Ｔｃ１）および前記第２の窓（ｗ２）の前記調性コンテキスト（Ｔｃ２）を改良するステップと、前記第２データ（７）は、前記第１データ（５）の調性の中心音の変化を表す、
を備えることを特徴とする、請求項１〜９記載の音楽音響分析方法。
前記第２アルゴリズムは、
ｂ６）さらなる窓（ｗｉ）を特定するために、ステップｂ３）〜ｂ５）を繰り返すステップをさらに備え、
各前記さらなる窓（ｗｉ）は、前記第１データ（５）に含まれる前記調性コンテキスト（Ｔｃ）を推定するためのベクトル群（ｇｉ）を含む、
ことを特徴とする、請求項１０記載の音楽音響分析方法。
前記第１の所定の期間（Ｔ１）は、２５〜３５ｓｅｃの範囲で設定され、より好ましくは約３０ｓｅｃであることを特徴とする、請求項１０記載の音楽音響分析方法。
前記所定のシフト時間（Ｔｓ）は、１０〜２０ｓｅｃの範囲で設定され、より好ましくは約１５ｓｅｃであり、前記第２の所定の期間（Ｔ２）は、
前記第１の所定の期間（Ｔ１）および前記所定のシフト時間（Ｔｓ）と、
前記第１の所定の期間（Ｔ１）と
の差の範囲で変化することを特徴とする、請求項１０記載の音楽音響分析方法。
前記ステップｂ５）は、多層パーセプトロン（ＭＬＰ）により実行されることを特徴とする、請求項１０記載の音楽音響分析方法。
前記方法は、前記音楽音響信号（２）の特徴の前記特徴セット（ＣＦＰ）を提供するために、前記第２データ（７）に依存して、第３のアルゴリズム（８）を前記第１データ（５）に適用するステップｃ）をさらに備えることを特徴とする、請求項１〜１４記載の音楽音響分析方法。
前記第３のアルゴリズム（８）は、前記第１データ（５）の不変にするために、基準ピッチを前記第１データ（５）に移調するステップを備えることを特徴とする、請求項１５記載の音楽音響分析方法。
音楽音響信号のコンテンツを表す少なくとも特徴のセットを抽出するために、音楽音響信号を分析するプログラムを備えたコンピュータプログラム製品であって、
ａ）音楽音響信号（２）の調性を表す第１データ（５）を抽出するために、第１アルゴリズム（４）を音楽音響信号（２）に適用するステップと、
ｂ）前記第１データ（５）に含まれる前記調性の中心音を表す第２データ（７）を提供するために、第２アルゴリズム（６）を前記第１データ（５）に適用するステップと、
を備えた、コンピュータプログラム製品。
音楽音響信号のコンテンツを表す少なくとも特徴のセットを抽出するために、音楽音響信号を分析する装置であって、
デジタル音楽音響信号（２）を受け取るための入力部と、
前記デジタル音楽音響信号（２）を処理するためのプロセッサユニット（１８）と、
同様のまたは異なる音楽イベントの代表イベントが記憶されるデータベース（１９）と、
を備え、
前記プロセッサユニット（１８）は、請求項１〜１６のいずれか１項記載の音楽音響分析方法に従って、デジタル音楽音響信号（２）のコンテンツを表す特徴のセットを抽出するように構成されている、
音楽音響信号を分析する装置。