JP2012506061A - デジタル音楽音響信号の分析方法 - Google Patents

デジタル音楽音響信号の分析方法 Download PDF

Info

Publication number
JP2012506061A
JP2012506061A JP2011531363A JP2011531363A JP2012506061A JP 2012506061 A JP2012506061 A JP 2012506061A JP 2011531363 A JP2011531363 A JP 2011531363A JP 2011531363 A JP2011531363 A JP 2011531363A JP 2012506061 A JP2012506061 A JP 2012506061A
Authority
JP
Japan
Prior art keywords
data
music
algorithm
music acoustic
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011531363A
Other languages
English (en)
Inventor
フェアンストラム ラース
レオナルディ リカルド
スカリンジェル ニコラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Museeka Sa
Original Assignee
Museeka Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Museeka Sa filed Critical Museeka Sa
Publication of JP2012506061A publication Critical patent/JP2012506061A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/38Chord
    • G10H1/383Chord detection and/or recognition, e.g. for correction, or automatic bass generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/081Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本発明は、音楽音響信号(2)に含まれるコードファミリプロファイル(CFP)のセットを抽出するために、音楽音響信号(2)を分析する音楽音響表現方法に関し、該方法では、a)音楽音響信(2)の調性を表す第1データ(5)を抽出するために、音楽音響信号(2)に第1アルゴリズム(4)を適用し、b)前記第1データ(5)に含まれる調性の中心音を表す第2データ(7)を提供するために、第1データ(5)に第2アルゴリズム(6)を適用する。

Description

本発明は音楽音響信号、好ましくはデジタル音楽音響信号の自動分析に関する。
特に、本発明は、請求項1および17の各上位概念部分に基づく、音楽音響信号の情報コンテンツを表す特徴セットを抽出するための音楽音響表現方法および音楽音響信号の分析装置に関する。
定義
詳細な説明で用いられるいくつかの用語について、以下に説明する。これら用語には通常その分野で用いられるものもあり、本発明の実施形態を明確に伝えるために作り出したものもある。
ここでは、以下の用語は次の意味を意図している。
ピッチ−音の知覚される基本周波数。ピッチは、単一の(場合により孤立した)音に関連付けられ、瞬間的なものである(おおよそ音自体と同じ長さが知覚され、音楽信号において典型的には200〜500msの期間である)。以下の表1では、ピアノのレジスタに亘るピッチが、対応する基本周波数(ヘルツ)に関連付けられている。ここでは標準的な調律を仮定しており、すなわち、ピッチA3は、440Hzの基本周波数に相当する。
Figure 2012506061
Figure 2012506061
Figure 2012506061
Figure 2012506061
インターバル−2つの有ピッチ音の間のピッチ差
オクターブ−基本周波数を2倍にすることに相当するインターバル
ピッチクラス−オクターブの整数倍だけ離れている、全てのピッチのセット、例えば、ピッチクラスCは、全てのオクターブにおけるCからなる。
コード−音楽理論において、コードとは、同時に発生する2つ以上の異なるピッチのことであり、本明細書では、単一のピッチもコードとして参照される(概略は、図1aおよび1bを参照)。
コードルート−これを基にコードが構成されている、または、これを中心としてコードが階層化されているものとして、知覚またはラベル付けされるノートまたはピッチ(概略は、図1aおよび1bを参照)。
コードファミリ−コードファミリとは、多数の特徴を共有するコードのセットであって、この特徴には以下のものが含まれる(例として、図1aおよび1bを参照)。
・複数のピッチクラス。複数のピッチクラスからコードを構成するノートが取り出される(典型的には、コード当たり1〜6のピッチクラス)。
・正確なインターバルの構成。「コード品質」と呼ばれる場合もある。これはコードを構成しているピッチクラス間のインターバルを特定するものである。
調性−ピッチが階層的に(調性の中心音周辺で)体系化されている音の体系。この中でピッチは互いに関連し合っているものとして知覚される傾向がある、ここで、調性の知覚は瞬間的なものではなく、十分に長い調性コンテキストが必要であることに注意。
調性コンテキスト−特定の調性の知覚をもたらすコードの組み合わせ。
キー−ピッチクラスの順序付けされたセット、すなわち、主音とモードの組み合わせ(例として、図2aおよび2bを参照)。
調性の中心音または主音−他の全てのピッチが階層的に関連付けられる特定の調性コンテキストにおける支配的なピッチクラス(例として、図2aおよび2bを参照)。
モード−インターバルの順序付けされたセット(例として、図2aおよび2bを参照)。
移調−一定のインターバルだけ、ピッチ集合を上下に移動させるプロセス。
転調−ある調性の中心音から他の調性の中心音へ変化するプロセス
クロマティックスケール−12のピッチクラス全てのセット
拍子−楽曲における基本的な時間の区分であり、強拍および弱拍のメジャーとして体系化される(概略として、図3を参照)。
ビート−曲の基本的な時間単位(例として、図3を参照)。
メジャーまたはバー−強拍および弱拍の反復シーケンスとして定義される時間のセグメント。図3に、音響信号および検出された開始点の位置を示し、ここで開始点に関連する振幅が大きくなるほど、検出された拍子階層における重みも大きくなる(すなわち、音楽バーはより大きな重みを有し、バーは中間の重みを有し、拍子のない開始点はより小さな重みを有する)。
音響信号のフレームは、音響信号の短いスライスであり、典型的には音響信号の20〜50msのセグメントである。
発明の背景
音楽音響信号の場合、信号に現れる様々なピッチを直接観測することは不可能であり、むしろそれらは高調波の混合として観測される。従って、殆どの先行技術のアルゴリズムは、音楽音響信号モデリングの基礎としてクロマベクトルとも呼ばれるピッチクラスプロファイル(PCP)を用いている(例えば、M.A.Bartsch and GH.Wakefield, "Audio Thumbnailing of Popular Music Using Chroma-based Representations", IEEE Transactions on Multimedia, 1996を参照)。
PCP/クロマアプローチは、音楽音響信号におけるピッチクラスの強度を測定する一般的な低レベル特徴抽出方法である。
当該技術分野では、低レベルPCPのシーケンスから楽曲のキーまたはコード進行を導くために、多くのアルゴリズムが提案されてきた。
例えば、PCPアルゴリズムの実行形式においては、調性スケールの12個の各半音の強度が測定される。このような実行形式では、時間/周波数表現のいくつかを時間/ピッチクラス表現にマッピングすることが含まれる。言い換えれば、スペクトルピーク(または、スペクトルビン)は、クロマティックスケールの最も近接したピッチに関連付けられる。
PCPアルゴリズムの他の実施形態では、PCPビンに対してより高い分解能が用いられてきた。すなわち、このタイプのPCPアルゴリズムは、量子化レベルを半音よりも低いレベルまで下げる。
さらに、PCPアルゴリズムの他の実行形式では、有ピッチの楽器は、単一の周波数周辺でエネルギーピークを示すだけではなく、いくつかのほぼ調和周波数においても大きなエネルギーを示す。
ノートや音色の数が増加するにつれて(すなわち、曲の中で同時に演奏される楽器の数が増加すると)、全ての構成ノートの部分音が無秩序に重なり合って、PCPが楽曲の実際のコンテンツの不適切な表現を抽出される。
従来、例えば、低レベルPCPのシーケンスから、楽曲のキーまたはコード進行のような高レベルな音楽特徴を導くために、多数のアルゴリズムが提案されてきた(例えば、O. Izmirli, "An algorithm for Audio Key Finding", Music Information Retrieval Evaluation eXchange (MIREX) を参照)。
これらのアルゴリズムは、典型的には、音楽信号においてサーチされる音楽オブジェクトをPCP空間において符号化する「テンプレート」を使用することに依存している(コードテンプレートの例として、図1aおよび1bを、キーテンプレートの例として、図2aおよび2bを参照)。そのようなテンプレートを実際のPCPの観測結果に関連付けることにより、テンプレートに対応する音楽のオブジェクトが実際に信号に隠れているか判別することが可能になる。すなわち、PCPと最大限に相関するテンプレートが、信号に隠れている音楽のオブジェクトに対応する。
高レベルな音楽特徴抽出に対するテンプレートベースのアプローチは、しかしながら、テンプレートの選択により制限される。例えば、キー検出の場合、最先端のアルゴリズムでは、メジャーキー用のテンプレートとマイナーキー用のテンプレートが使用される(12個の可能なピッチクラスそれぞれについてそのようなテンプレートが1つ用いられる)。
メジャー/マイナー2分法の制限は、西洋のクラシック音楽から来ている。しかし、ロックなどのポピュラー音楽は、西洋のクラシックの考え方では適切に記述できない。実際、ロック音楽およびより一般的にはポピュラー音楽は、ユニークで多様な文化を混合、交錯したものであり、今日の音楽において構造的に容認される新しい一連の規則を生み出した。
これは、完全に異なる文化的背景から来ている、いわゆるワールドミュージックにおいてなおさらあてはまる。実際、ワールドミュージックには、メジャー/マイナー2分法よりもさらに広い、様々な音楽的色彩や形式が存在する。
発明の要約
上述の先行技術を考慮して、本発明の目的は、楽曲における音響信号のピッチコンテンツを音楽学的に有効に記述できるよう計算する特徴抽出アルゴリズムを開発することである。
さらに、本発明の目的は、音響フォーマットにおける楽曲の調性の中心音を検出するためのアルゴリズムを提供し、かつ楽曲において移調に対するピッチ分布の不変な表現を符号化する特徴のセットおよびそれらの相関を提供することである。
さらに、本発明の目的は、現実の音楽信号において観測可能である様々な音色およびピッチの組み合わせに対してロバストな、楽曲のピッチコンテンツに対する代替の低レベル表現を提案することである。この目的を達成するために、現実の音楽信号のデータ特異性から学習するように、機械学習アルゴリズムを用いることが特に提案される。
さらなる本発明の目的は、中間ノート同定ユニットを用いることなくコード空間に直接スペクトルの観察結果をマッピングすることである。
本発明の他の目的は、転調が生じた場合に、楽曲の進行に沿って調性の中心音の追跡を可能にすることである。転調よりも速いレートで生じるコード変化を追跡するのを避けるために、十分に長い時間スケールを考慮したことが、調性の中心音の追跡アルゴリズムの特徴である。
本発明の目的は、楽曲の調性の中心音を検出するプロセスにおいて、音楽的なアクセント付け、具体的には、拍子のアクセント付けを考慮することである。
本発明の他の目的は、多種多様な音楽形式を適切な記述できるようにすることである。この目的を達成するために、異なる文化的背景に基づく音楽形式のデータ特異性から学習するように機械学習アルゴリズムを用いることが特に提案される。
本発明によると、これらの目的は、請求項1の特徴部分に規定されるように、音楽音響信号の情報コンテンツを表す特徴のセットを抽出するために、音楽音響信号を分析するための方法によって実現される。
さらに、本発明によると、これらの目的は、請求項17の特徴部分に規定されるように、音楽音響信号の情報コンテンツを表す特徴のセットを抽出するために、音楽音響信号を分析するための装置によって実現される。
本発明により、楽曲のコンパクトな記述を生成する音響特徴抽出方法を用いて、楽曲のコンテンツを特徴付けることが可能になり、このコンパクトな記述は、例えばデータベースに記憶されてもよく、または、例えばID3タグのように音響ファイルに埋め込まれてもよい。
さらに、本発明により、楽曲の調性の中心音を同定し、特にポピュラー、ワールドミュージック、および西洋クラシック音楽において聞かれる、多種多様な音楽形式を区別する特徴を用いて、同様な楽曲における移調に対して不変に選択を行うことが可能となる。
この目的のために、ピッチ分布(コードファミリプロファイル)を記述する新しい特徴のセットが提案され、多種多様な音楽形式に現れるパターンを同定するために、調性の中心音の検出および同様な調性を有する楽曲の選択の両方に対して、教師付き機械学習アプローチが用いられる。
本発明の特徴は、教師付きおよび教師なしの両方の方法で訓練される機械学習アルゴリズムを用いてコードファミリプロファイルを抽出することである。
本発明の特徴および利点は、以下の一実施形態の詳細な説明に記載されるが、詳細な説明の記載は、添付の図面によって制限されるものではない。
図1aおよび1bは、コードの例を示す図 図2aおよび2bは、キーの例を示す図 拍子レベルを示す図 本発明による音楽音響分析方法のブロック図 図5aは、本発明による音楽音響分析方法の第1アルゴリズムを示すブロック図、図5bは、音楽音響信号に第1アルゴリズムを適用した結果の音楽音響信号および複数のベクトルを示す図 図6aは、本発明による第1アルゴリズムの訓練ステップのための第1の方法を示す他のブロック図、図6bは、本発明による第1アルゴリズムの訓練ステップのための第2の方法を示す他のブロック図 本発明による音楽音響分析方法の第2アルゴリズムのブロック図 第2アルゴリズムの動作方法を示す図 第2アルゴリズムの動作方法を示す図 第2アルゴリズムの動作方法を示す図 第2アルゴリズムの動作方法を示す図 本発明による音楽音響分析装置のブロック図 図3の音響信号のパワースペクトルに適用された場合の移動平均を示す図
添付の図4〜8を参照して、コードファミリプロファイル(CFP)を抽出するためにデジタル音楽音響信号2を分析する音楽音響分析方法が一般的に示される。
デジタル音楽音響信号2は、歌または歌の完全ヴァージョンを表す音響信号を抽出したものであってもよいことに留意されたい。
特に、方法1は以下のステップを備える。
a)デジタル音楽音響信号2の調性コンテキストを表す第1データ5を抽出するために、デジタル音楽音響信号2に第1アルゴリズム4を適用するステップ
b)第1データ5に含まれる調性の中心音を表す第2データ7を提供するために、第1データ5に第2アルゴリズム6を適用するステップ
上記の定義に関して、調性との用語は、調性の中心音周辺で階層的に体系化された、コードルートおよびコードファミリの組み合わせを指す、すなわち、知覚されるレベルが調性の中心音に相対的に測定される、コードルートおよびコードファミリの組み合わせを指すことに留意されたい。
従って、方法1のステップa)、すなわち第1アルゴリズム4は、デジタル音楽音響信号2において観測されるコードルートおよびコードファミリの組み合わせを表す第1データ5を抽出可能であり、つまり第1データ5は、デジタル音楽音響信号2の調性コンテキストを含む。しかし、方法1のステップa)すなわち第1アルゴリズム4では次の点に注意されたい。すなわち、ステップa)は、デジタル音楽音響信号2に含まれるコードルートおよびコードファミリを検出することを明示的な目的とはしていない。反対に、その目的は、デジタル音楽音響信号2で観測されるコードルートおよびコードファミリと相関する、抽象的で、可能であれば冗長な表現を得ることである。
さらに、方法1のステップb)、すなわち、第2アルゴリズム6は、第1データ5に含まれている調性の中心音Tcを表す第2データ7を提供するため、第1データ5を構築することができる。すなわち、他の全てのピッチが階層的に参照される、特定の調性コンテキストの支配的なピッチクラス(図2aおよび2bを参照)が、第2データ7には含まれる。
従って、第1アルゴリズム4および第2アルゴリズム6を適用することによって、デジタル音楽音響信号2の調性の中心音Tcが一旦検出されると、デジタル音楽音響信号2の調性が、第2データ7に対する第1データ5の階層的な位置により記述される。
任意付加的に方法1は、さらに次のステップを備える。
c)第1データ5の正規化されたヴァージョンである第3のデータ9を提供するために、第2データ7に依存して、第3のアルゴリズム8を第1データ5に適用する。
以下では、第1アルゴリズム4、第2アルゴリズム6、および、第3のアルゴリズム8の動作についてより詳細に記載する。
第1アルゴリズム4
ステップa)
図5aおよび5bを参照すると、音響デジタル信号2から第1データ5を抽出することに適した第1アルゴリズム4のブロック図が示されている。
特に、第1アルゴリズム4は、次のステップを備える。
a1)複数のピークp1,p2,p3,…,piの時間位置を特定するために、前記音楽音響信号2のノート開始点のシーケンスを同定する(10)。ここで、「i」は1<i<Nの間で変化し得る添え字、Nはデジタル音響信号2のサンプル数であり、実際にはi<<Nである。
a2)音響音楽信号2を、複数の音響セグメント(s−on−1,s−on−2,s−on−3,…,s−on−i)に分割する。各音響セグメントは、ピークpi,p2,p3,…,piを含む。
a3)音楽音響信号2のスペクトルの時間ドメインにおける変化を表す複数のスペクトルセグメントsp−1,sp−2,sp−3,…,sp−iを得るために、周波数解析を各音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iに対して適用する。
a4)第1データ5を提供するために、計算ネットワーク12により複数のスペクトルセグメントsp−1,sp−2,sp−3,…,sp−iを処理する。
第1データ5は、複数のベクトルv1,v2,v3,…,viを有し、複数のベクトルv1,v2,v3,…,viの各ベクトルは、それぞれ音響セグメントs−on−1,s−on−2,s−on−3,s−on−iに関連付けられている。
特に、各ベクトルv1,v2,v3,viは、12個のピッチ(A〜G#)をコードタイプの所定数「n」倍したものと等しい次元を有する。
有利には、コードタイプの所定数「n」は、例えば、「ピッチ」、「メジャーコード」、「マイナーコード」、「ディミニッシュコード」、「オーグメントコード」を表すように、5に設定することもできる。
ステップa1)
第1アルゴリズム4の上記ステップa1)は、音響信号2の音楽イベントのアタックを検出するために、開始検出アルゴリズムにより実行される。
実際、各ピークpi,p2,p3,…,piは、各音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iにおける音楽イベントのアタックを表す。
開始検出アルゴリズム10は、J.P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies, M. Sandler, "A Tutorial on Onset Detection in Music Signals",(IEEE Transactions on Speech and Audio Processing, 2005)に記載されているように、実行できる。
ステップa2)
第1アルゴリズム4の上記ステップa2)において、音楽音響信号2が複数の音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iに分割され、各音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iは期間「T」を有する。
第1アルゴリズム4のステップa2)は、音楽音響信号2を音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iに分割し、各音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iは、それ独自の期間「T」を有している。
つまり、各音響セグメントs−on−1,s−on−2,s−on−3,s−on−iの期間「T」は、それぞれ互いに異なり得る。
ステップa3)
第1アルゴリズム4の上記ステップa3)は、所定のサブ期間「t」の間のみ、各音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iに対して、有利には周波数解析を適用する。ここで、サブ期間「t」は期間「T」よりも短い。
つまり、音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iが、そのようなサブ期間「t」より長い場合であっても、サブ期間「t」の間のみ、さらに周波数で解析される。
所定のサブ期間「T」は、ユーザによって手動で設定可能であることに留意されたい。
所定のサブ期間「t」は、250〜350msecの範囲内にあることが好ましい。
従って、音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iの期間「T」が所定の期間「t」よりも長い、すなわち、250〜350msecより長い場合、サブ期間「t」に含まれるデータのみが考慮され、一方でセグメントの残りの部分は関連性のないデータを含んでいると仮定され、従って、そのような残りのデータは無視される。
期間Tが、所定のサブ期間「t」よりも短い(隣接するピークの間隔が、それぞれの「t」より短い)場合、その長さは所定のサブ期間「t」と等しくなるように、音響セグメントにゼロサンプルが加えられる。従って、周波数解析は、最も短い時間インターバル、すなわち、期間「T」に制限される。
期間Tが50msecに等しくかつサブ期間「t」が200msecに等しい場合、従って、各音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iの周波数解析は、期間T、すなわち、最も短い期間の間生じる音楽サンプルを用いてのみ行われる。
ステップa3)の間に適用される周波数解析は、好ましい実施形態において、DFT(Discrete Fourier Transform、離散フーリエ変換)により行われる。
ステップa3)の間に、音響信号2の時間−周波数表示における不確実性を低減する関数を適用するさらなるステップもまた、実行され得ることに留意されたい。
この目的のために、ハニング窓などのアポダイゼーション関数を適用することが可能である。
特に、ハニング窓が適用された場合、ハニング窓の窓長は、音響セグメントs−on−1,s−on−2,s−on−3,s−on−iの長さ「T」に等しい。
DFTにより行われる周波数解析を適用する前に、対応するセグメントの音響データにサンプルごとに乗じることによって、アポダイゼーション関数が、音響セグメントs−on−1,s−on−2,s−on−3,s−on−iに適用されることにも留意されたい。
アポダイゼーション関数が用いられるさらなる理由は、アポダイゼーション窓の境界周辺に音楽イベントアタックp1,p2,p3,…,piが位置するので、これらを減衰させるためである。このようにして、音楽イベントアタックp1,p2,p3,…,piの減衰されたヴァージョンを生成することが可能になる。
さらに、パワースペクトラムがDFTまたは任意の高速実行、例えば、FFT(Fast Fourier Transform、高速フーリエ変換)を用いて計算される。
FFTを用いる場合には、サブ期間「t」の選択によりFFTの周波数分解能を制御することができ(すなわち、期間「t」が長くなるほど、周波数分解能は高くなる)、音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iの初期の期間「T」が各セグメントと異なる場合であっても、周波数分解能が一定であるように周波数分解能が正規化される。
radix−2 FFTを実行した場合は、サブ期間「t」は、結果として得られるセグメントサンプルにおける長さが2のべき乗と等しいように選択される。
ステップa4)
図6Aおよび6Bに関連して上記ステップa4)を参照して、計算ネットワーク12が、好ましくは、訓練された機械学習アルゴリズムを用いて実行されることに留意されたい。
特に、訓練された機械学習アルゴリズムは、多層パーセプトロン(MLP)を有する。
多層パーセプトロン(MLP)のタスクは、スペクトルセグメントsp−1,sp−2,sp−3,sp−iが与えられた場合に、コードファミリ(すなわち、コードタイプ)、および、コードルート(すなわち、ピッチクラス)の各組み合わせの事後確率を推定することである。
特に、多層パーセプトロン(MLP)は、2つのステップで訓練される。
第1ステップ:既知の孤立したコードのセットの基に生成された訓練データの第1のセット13を用いて、教師付きで訓練が行われ、その結果、複数のセグメントsp−1,sp−2,sp−3,sp−iに対応するスペクトルから、コードファミリおよびコードルートへの第1のグラウンドトルースマッピングが確立される。
第2ステップ:楽曲の多数のセットからなる訓練データの第2のセット14を用いて、教師なしの形で訓練が実行され、その結果、現実の多音の曲で遭遇する多様な楽器の混合に対する第1ステップで得られた訓練された機械学習アルゴリズムの重み「ω」のセットの改良が行われる。
まとめると、訓練された機械学習アルゴリズム12は、2つのステップで訓練される。すなわち、手動ラベル付けされた少量の訓練データを用いて第1の教師付き学習と、ラベル付けされていない多量の訓練データのセットを用いた後続の教師なし学習である。
より具体的には、機械学習アルゴリズム12が教師付きで訓練される第1ステップにおいて、手動でラベル付けされた訓練データセットは、MIDIファイルとして保存された、孤立したコードからなる。コードのセットは、考慮されている各コードタイプ(メジャー、マイナー、ディミニッシュ、オーグメント…)、各ピッチクラス(C,C#,D…)、および多数のオクターブをカバーしなくてはならない。
多量の音響訓練データは、多様なMIDI楽器を用いてこれらのMIDIファイルから生成される。ピッチクラスおよびコードタイプを共に有する音響サンプルが、機械学習アルゴリズム12の訓練に用いられる。アルゴリズムは、グラウンドトルースから「ピッチクラス/コードタイプ」ペアごとに単一出力を生成するように設定されている。
機械学習アルゴリズムの様々な重み「ω」の訓練は、標準的な確率的勾配降下法により行われる。一旦そのような訓練が達成されると、この第1訓練ステップの終わりに、任意の入力スペクトルセグメントsp−1,sp−2,sp−3,sp−iのコードファミリへの第1の予備マッピングが生成される。
このようにして第1訓練ステップ後に生成された機械学習アルゴリズム12の出力ベクトルは、任意の「ピッチクラス/コードタイプ」ペアのための尤度比を決定する成分を有することに留意されたい。しかし、機械学習アルゴリズム12は、今のところ、多様なMIDI楽器により生成された孤立したコードから訓練されているだけであるため、現実の多音の曲で遭遇する多様な音色と満足に一致する結果を導くことにはまだ成功していない。
従って、訓練される機械学習アルゴリズム12の訓練を、より多量な楽曲のセットによるデータを用いて改良していく必要がある。
この目的のために、第2ステップの間、機械学習アルゴリズム12は教師なしで訓練される。第1ステップ後に、初期に訓練された機械学習アルゴリズム12に自身のミラーヴァージョンがカスケードされる。このミラーヴァージョンは、(対応する演算子がある種の逆の演算を行うために、演算子が線形である場合)第1ステップ後の訓練された機械学習ネットワークの重み「ω」と同じものを初期の重みとして用いる。
(演算子が線形であれば)機械学習アルゴリズム12は、高次元入力データ(スペクトルセグメント)を、コードファミリに対応する低次元空間へ射影することができる。そのミラーヴァージョンでは、低次元コード特徴から初期の高次元スペクトルピーク表現に戻ろうと試みる。この目的のために、カスケードアルゴリズムの初期設定は、訓練エンジンアルゴリズムの重みの転置されたセットを初期には採用する。
続いて、「機械学習アルゴリズム」および「その初期のミラーヴァージョン」の重みは全て、確率的勾配降下法により、入力訓練パターン(すなわち、スペクトルセグメント)および再構築された出力パターン間の距離を最小化するように調整される。訓練データとしては、利用可能な楽曲の完全なセットを用いる。
これは、(第1ステップの間に実行される)初期の教師付き訓練により、対応するコードファミリに向けられたデータの低次元表現を学習するために、ネットワークの重みを微調整することに繋がる。
この訓練のアプローチは、自動エンコーダネットワークの訓練を連想させるものである。
この場合、教師付きストラテジによってネットワークを初期化することにより、コードファミリの観点で低次元表現の物理的特質と一致するネットワークの重みの初期セットを確実に見出せる。
一旦、第2ステップの訓練が完了すると、この時点で、最終的な訓練がなされた機械学習アルゴリズム12を表すプロセス要素の第1段階のみを保持するように「コードファミリ−スペクトルセグメント」計算ネットワークは取り除かれる。
図5Aを再び参照すると、第1アルゴリズム4は、DFTステップa3)の後、さらなるフィルタリングのステップa5)を備えていてもよい。
そのようなフィルタリングステップa5)は、ピーク検出15とも呼ばれ、方法1の任意付加的なステップである。
フィルタリングステップa5)の動作によれば、各複数のスペクトルセグメントsp−1,sp−2,sp−3,sp−iにおけるピークpi’,p2’,p3’,…,pi’を強調するために、ブロック11により生成された複数のスペクトルセグメントsp−1,sp−2,sp−3,…,sp−iを移動平均によってフィルタリングすることが可能である。
従って、ステップa5)の出力において、スペクトルセグメントsp−1’,sp−2’,sp−3’,…,sp−i’が得られる。これにおいて、スペクトルセグメントsp−1,sp−2,sp−3,…,sp−iのピークpi’,p2’,p3’,…,pi’は強調されている。一方、スペクトルセグメントsp−1,sp−2,sp−3,…,sp−iの全体の形は無視されている。
つまり、図9も参照すると、移動平均20は典型的にはステップa4)の結果であるパワースペクトル21上で計算され、この移動平均を下回るパワーを有するスペクトル成分はゼロに設定される。
さらに、フィルタリングステップ15の後で、計算ステップa4)の前に、音楽音響分析方法1は、さらにホワイトニング16とも呼ばれる非相関化ステップを有する。
また、この非相関化ステップは、方法1において任意付加的なものである。
特に、非相関化ステップの間、複数の非相関化されたスペクトルセグメントsp−1",sp−2",sp−3",…,sp−i"を提供するために、複数のスペクトルセグメントsp−1’,sp−2’,sp−3’,…,sp−i’が、音響セグメントスペクトルの所定のデータペース19(図8)を参照して、非相関化される。
従って、一旦複数のスペクトルセグメントsp−1,sp−2,sp−3,…,sp−iが、ピークpi’,p2’,p3’,…,pi’を強調するためにフィルタリングされると、複数のスペクトルセグメントsp−1’,sp−2’,sp−3’,…,sp−i’を得る。複数のスペクトルセグメントsp−1’,sp−2’,sp−3’,…,sp−i’は、本発明の好ましい実施形態において得られる変形されたホワイトニングを用いてホワイトニングされる。ホワイトニングは、データベースに含まれる音響セグメントスペクトルの大きなセットに基づいて主成分分析(PCA)により計算される。
この場合、任意付加的なフィルタリングおよび非相関化のステップが方法1に実装される。ホワイトニングされたスペクトルセグメントsp−1",sp−2",sp−3",…,sp−i"は、従って、計算ネットワーク12、すなわちMLPに与えられることに留意されたい。
第2アルゴリズム6
ステップb)
次に、図6および7を参照すると、音楽音響分析方法1の第2アルゴリズム6は、次のステップを備えている。
b1)第1データ5を構成する第1の群「gl」のベクトルを含む第1の所定の期間Tlを有する第1の窓「w1」を提供し、
b2)第1の窓「w1」に含まれる局所的な調性の中心音を表す第1の調性コンテキストTc1を推定するために、第1の窓「w1」に含まれる第1の群(gl)のベクトルを処理する。
第1の窓「w1」の第1の所定の期間T1は、各複数の音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iのサブ期間「t」よりもずっと長いことに留意されたい。
さらに、第2アルゴリズム6は、さらなるステップを備える。
b3)第1の窓「w1」がシフトされた窓である第2の窓「w2」を提供する。第2の窓「w2」は、第2の所定の期間T2を有し、複数のベクトルの第2の群「g2」を備える。
b4)第2の窓「w2」に含まれる局所的な調性の中心音を表す第2の調性コンテキストTc2を推定するために、第2の窓「w2」に含まれる複数のベクトルの第2の群「g2」を計算する。
b5)第1データ5の調性の中心音の変化を表す第2データ7を生成するために、第1の窓「w1」の調性コンテキストTc1および第2の窓「w2」の調性コンテキストTc2を処理する。
特に、第2の窓「w2」は、第1の窓「w」の一時的な期間T1に関して、所定の期間Tsだけシフトされる。
Tl−Tsと第1の所定の期間Tlとの間の範囲において、第2の所定の期間T2が変化し得ることに留意されたい。
従って、第2の所定の期間T2もまたサブ時間tよりもずっと長い。
好ましくは、ベクトルの第1の群glとベクトルの第2の群g2とがそれぞれ互いに重なるように、所定の時間Tsは、第1の所定の期間Tlよりも短いとみなされる。
実際、第1の所定の期間Tlよりも短い所定の時間Tsを選択することで、有利には、データ5の調性の中心音Tcの変化をより正確な方法で追跡することが可能になる。
実際、特定の調性コンテキストでは、コード/ピッチのいくつかは、他よりも期待されなければならない。
コードは、典型的には、音楽バーと共に変化する、または、ビートレベルはもっと高速に変化するため、調性は知覚されるのにより長い時間期間を必要とする。
好ましくは、第1の所定の期間Tlは、典型的には、25〜35secの範囲で設定され、より好ましくは約30secであり、一方で所定の時間Tsは、典型的には、10〜20secの範囲で設定され、より好ましくは約15secである。
代替として、所定の時間Tsが第1の所定の期間Tlと等しい場合、ベクトルの第1の群glは、ベクトルの第2の群g2と隣接している。
さらに、音楽音響分析方法1の第2アルゴリズム6は、さらに以下のステップを備える。
b6)さらなる窓「wi」を特定するために、複数の音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iが終わるまでステップb3)〜b5)を繰り返し、ここで、各さらなる窓「wi」は、ベクトル群「gi」を含む。
2つの連続する窓、例えば、窓w3およびw4(図示せず)は、重複またはせいぜい隙間なく連続していなくてはならないことに注意が必要である。しかし、任意の後続の窓すなわち窓w4は、先行する窓すなわちw1,w2、および、w3に含まれていてはならない。
従って、窓w2の所定の期間、すなわち、期間T2は、窓w1の所定の期間Tlと等しいか、または、所定の期間Tlよりも長い、すなわち、T2>(3/2)Tlであってもよい。基本的な音響信号の局所的な特徴に調整されるように、しかし部分的に重複するという原則を破ることなしに、T2は、関連付けられた窓に局所的に合わせられてもよい。
複数の分析窓を重複させることも可能であり、すなわち、窓間で最大限重複するように、例えば、30sec長の窓を一度に1つの開始点分だけシフトさせることも可能である。
代わりに、窓「w」の期間と位置は、音楽信号の全体構造を調整するものであってもよく、すなわち、窓は、歌の序奏部またはコーラス部のようなセクションと一致するように設定されてもよい。当業者には公知である先行技術の音楽要約アルゴリズムを用いることによって、これら構造的セクションの一時的な境界の自動的な推定結果を得てもよい。
後者の場合、異なる窓は、異なる期間を有していてもよく、重複する代わりに隣接していてもよい。
第1データ5の調性の中心音を表す第2データ7を生成するための第1の方法は、調性の中心音を設定するために、第1データ5の平均ベクトル「m」を形成し、そのような平均ベクトル「m」における最も高いコードルートの値を選択する。
第1データ5の調性の中心音の局所的かつ時間的な変化を捉えるよりよい方法が、本発明に基づきおよび図6を参照して、以下の好ましい実施形態で記載される。それによると、第1の群glに含まれるベクトルの平均、分散、1次共分散のような、時間に亘って測定された統計的推定、および、他の群(すなわち、g2,…,gi)に対する同じ統計的推定が、各音響セグメントs−on−1,s−on−2,s−on−3,…,s−on−iの局所的な調性コンテキストのよりよい表現を見つけるために用いられてもよい。
このような、データ5の時間に亘って測定される統計的推定は、データ7Aを形成するために以下の式に基づいて計算され得る。
Figure 2012506061
ここで、Nは窓「wi」の群「gi」内のベクトル数、μは平均、σは分散、cov_1は1次共分散である。
第2アルゴリズム6によって出力されるデータ8は、D=3*12*Fに等しい次元を持つ。
ここで、Dは次元、Fは考慮されたコードファミリの数、12はクロマティックスケールの半音数、すなわち、クロマティックスケールのピッチクラス数、そして3は時間に亘って測定された統計的推定数、すなわち、平均、分散、1次共分散である。
任意付加的に、音響セグメントs−on−1,s−on−2,…,s−on−iが、基本的な拍子グリッドと同期された場合にアクセント付けされたとして知覚されるという事実を考慮するために、データ7を抽出する間重み付けスキームを組み込むこともできる。
さらに、調性の知覚を生み出す最も安定したピッチは、典型的には、拍子グリッドと同期して演奏される一方、関連性の低いピッチは拍子のない時間位置で演奏される可能性が高い。
好ましい実施形態において、拍子推定の間における拍子情報の取り込みは以下の通り行われる。
各音響セグメントs−on−1,s−on−2,…,s−on−iは、同定された拍子イベントとの同期に基づいて特定の拍子重みに関連付けられている。例えば、対応する音響セグメントによりカバーされた時間位置のいくつかにおいて、音楽バーの位置が検出された場合、音響セグメントに1.0の重みを割り当てることが可能である。ビート位置が音響セグメントによりカバーされたいくつかの時間位置において検出された場合は、例えば、0.5より小さい重みが用いられてもよい。最後に、音響セグメントに対応する拍子イベントがない場合、例えば、0.25である最小の重みが用いられてもよい。
そのような重みを与えることで、データ7Aを以下のように再評価することが可能になる。
Figure 2012506061
ここで、Nは窓「wi」の群「gi」内のベクトル数、μは重み付けされた平均、σ は重み付けされた分散、cov_1は重み付けされた1次共分散である。
ステップb5)
好ましい実施形態において、音楽音響分析方法1の第2アルゴリズム6のステップb5)、すなわち、与えられた楽曲のデータ8の調性の中心音の変化を表すデータ7を抽出するステップは、以下のようにして実行される。
まず、データ7Aの各ベクトルを独立に多層パーセプトロン(MLP)に与えることにより、局所的な調性の中心音推定が計算される。
MLPのアーキテクチャは、その入力数がデータ7Aにおけるベクトルのサイズと一致するようになっている。
つまり、MLPの入力数は、窓「w」(または、ジェネリック窓「wi」)の調性コンテキストを記述する特徴の数に対応している。
好ましい実施形態では、そのような特徴としてD=3*12*Fとなっている。
MLPは、隠れレイヤおよび隠れニューロンの任意数で構成されてもよい。
しかし、出力数は、各出力がクロマティックスケールの12の可能なピッチの1つと対応するように、12に固定される。
MLPのパラメータは、確率的勾配降下法を用いて教師付きで訓練される。
訓練データは、多様な異なる楽曲に対して窓「w」(またはジェネリック窓「wi」)の調性コンテキストを記述する特徴ベクトルの大きなセットから成る。
そのような各ベクトルに対して、目標とする調性の中心音は、多くの音楽専門家により手動で関連付けられている。
対応する訓練データ(すなわち、目標とする特徴ベクトル/調性の中心音ペア)は、CFPベクトルの12個の可能な遷移全てを考慮することにより、12倍に拡大され得る(以下で記載されるCFPの遷移のための第3のアルゴリズム8を参照)。
訓練には、対応する入力データが与えられた場合、ターゲットとする調性の中心音に対応する出力を最大化し、かつ他の出力を最小化するパラメータのセットを見つけ出すことが含まれる。
適切に選択された非線形関数(例えば、シグモイド関数)および訓練コスト関数(例えば、クロスエントロピーコスト関数)を用いることにより、MLP出力は、調性の中心音の事後確率が推定され、すなわち、各出力は0と1の間で制限され、それらの合計は1になる。
一旦、局所的な調性の中心音の推定がMLPにより計算されると、調性の中心音は徐々に変化し、さらに実際に変化した場合にはそれらの変化はある特定のパターンに従うということを仮定して、対応する局所的な事後確率は、完全な楽曲の経過に従って平滑化される。
実際、局所的な推定iは、先行の局所的な推定i−1にのみ依存すると仮定され、すなわち、このプロセスは1次マルコフ制約を満たす。
連続する局所的な推定間のこの依存性は、調性の中心音推定i−1から調性の中心音推定iへ移動する確率を符号化する遷移行列によりモデル化される。
これらの遷移確率はデータから学習可能ではあるが、専門家の音楽知識を基に手動でセットされる(例えば、表2参照)。
さらに、調性の中心音は全て、初期には同様に確からしいと仮定される。
Figure 2012506061
データ7を見つけること、すなわち、楽曲の経過に従って最適な調性の中心音のシーケンスを見つけることに対する課題は、以下のように説明される。
Tc1,Tc2,…,Tcnを最適な調性の中心音のシーケンスとし、Obsl,Obs2,…,Obsnを局所的な調性の中心音を推定するMLPに独立に与えられる特徴ベクトルのシーケンスとすると、Tc1,Tc2,…,Tcnは、以下のようになる。
Tcl*, Tc2*, …, Tcn* = argmax Tc1, Tc2, …, Tcn
p(Tcl, Tc2, …, Tcn|Obsl, Obs2, …, Obsn)
これは、p(Tc1, Tc2, …, Tcn, Obsl, Obs2, …, Obsn)≒ Πt p(Tct|Obst)p(Tct|Tct-1)のような、最も確からしいシーケンスを見つけることと等価である。
ここで、p(Tct|Obst)は、局所的な観測Obstおよび調性の中心音Tctに対応する局所的な調性の中心音推定MLPの出力であり、p(Tct|Tct−l)は、TctおよびTct−1間の遷移に対応する遷移確率行列のエントリである。最後に、初期には、p(Tc0)=1/12(すなわち、各調性の中心音の均一な初期分布)であることが仮定される。
このように定式化することで、ビタビアルゴリズムにより、最も確からしい調性の中心音Tc1,Tc2,…,Tcnのシーケンスが得られる。ビタビアルゴリズムは、この場合最も確からしい調性の中心音のシーケンスである、最も確からしい隠れ状態のシーケンスを見つけるための動的プログラミングアルゴリズムである。ここでこのシーケンスは、この場合MLPの局所的な調性の中心音の推定である、観測されたイベントシーケンスをもたらす。
調性コンテキストのモデリングは、各調性の中心音Tciの確率推定を行うMLPと、ジェネリック窓「wi」におけるCFP7の平均/分散/共分散7Aの計算とによって行うことで実際に実行される。
図7a〜7dは、第1データ5にアルゴリズム6が一旦適用された場合の図を示す。
特に、図7aは、音楽音響信号2のF=2であるコードファミリのための楽曲のCFPベクトルシーケンス(すなわち、CFPの次元は2*12=24)、すなわち第1データ5を示す図である。ここで、横軸がジェネリック音響セグメントs−on−iのベクトルであり、縦軸が次元である。
図7bは、窓「wi」に亘る調性コンテンツを表すD次元ベクトルシーケンス、すなわち第2データ7を示す図である。ここで、横軸がジェネリック窓「wi」のベクトルであり、縦軸が次元である。特に、図7bは、窓「w」に亘るより短期のCFPベクトルの平均/分散/共分散に対応するより長期のベクトルを示す。
図7cは、局所的な調性の中心音の推定シーケンス、すなわち、MLPの12次元出力を示す図である。ここで、横軸がジェネリック窓「wi」のベクトルであり、縦軸がピッチクラスである。
最後に、図7dは、ビタビアルゴリズムによって得られる、対応する調性の中心音の最適なシーケンス、すなわち、各窓「wi」の調性の中心音における最後の推定を示す。ここで、横軸がジェネリック窓「wi」のベクトルであり、縦軸がピッチクラスである。
第3のアルゴリズム8
ステップc)
図4を再び参照すると、第3のアルゴリズム8は、第3のデータ9を生成するように、第2データ7に依存して第1データ5を基準ピッチに移調するステップcl)を備えている。
第3のアルゴリズム8により、第3のデータ9は第2データ7に対して不変となる。
実際、前述の第2アルゴリズム6を用いて一旦第1データ5の最適な調性の中心音が同定されると、群gl(またはg2,…,gi)の各CFPベクトルは、ベクトルの値を基準ピッチに移すことによって、移調に対して不変とされる。
例えば、基準ピッチはCでもよい。
実際、これは単純な円順列TCFP(i,mod(j−Tt,12))=CFPt(i,j)により実行される。ここで、TCFPは時間tにおける移調されたCFPベクトル、iはコードファミリインデックス、jはピッチクラス、Tは時間tにおける調性の中心音のピッチクラスである。
第1データ5を基準ピッチに移調するステップcl)は正規化であり、それにより、調性を考慮することであらゆる音響音楽信号を比較することが可能になる。
次に図8を参照すると、装置は前述の方法を実行することができ、以下を備える。
・デジタル音楽音響信号2を受け取るための入力部
・デジタル音楽音響信号2を処理するためのプロセッサユニット18
・同様のまたは異なる音楽イベントの代表イベントが記憶されるデータベース19(このようなイベントは、元々の音楽イベントの既知である開始点に対応している)。データベース19は、プロセッサユニット18と信号通信を行う。
有利には、プロセッサユニット18は、音楽音響信号2の調性の中心音を表すCFP7を抽出するように構成されている。
当業者は、同一および特定の要求に合致するべく、以下の特許請求の範囲に記載されたように、発明の範囲から逸脱しない範囲で上記記載した実施形態に対して多くの修正および変形を行ってもよいことは明らかである。
特に、本発明は、請求項1および18の各上位概念部分に基づく、音楽音響信号の情報コンテンツを表す特徴セットを抽出するための音楽音響表現方法および音楽音響信号の分析装置に関する。
これは、完全に異なる文化的背景から来ている、いわゆるワールドミュージックにおいてなおさらあてはまる。実際、ワールドミュージックには、メジャー/マイナー2分法よりもさらに広い、様々な音楽的色彩や形式が存在する。
US2008245215には、次のような信号処理装置が開示されている。該装置は、ステレオ信号の形式において音信号から、左右間の中心に位置する音の成分である中心成分を除去する除去手段と、中心成分が除去された音信号から、所定範囲内にある12平均律の様々なトーンの音特徴を表す第1特徴量を抽出する抽出手段と、第1特徴量を用いて所定範囲内にあるコードを判定する判定手段と、を備えている。
US6057502には、以下が開示されている。まず、音波形の時間の一部分、すなわち、短い期間がFFT処理によって解析され、複数のピークエネルギーレベルを有する周波数スペクトルの形式である周波数成分となる。スペクトルの所定の周波数範囲(例えば、63.5〜2032Hz)はコード認識解析のために除去され、次に、除去された周波数スペクトルはオクターブスパンベースに畳み込まれて、音楽オクターブスパン内のスペクトルピークが増幅され、さらに、解析されたスペクトルのピーク周波数位置によって定義される基準トーンピッチと処理システムにおいて用いられる基準トーンピッチとの間の差に基づいて、周波数軸が調整され、次いで、各コードタイプの基準周波数成分パターンを用いたパターン比較により、形成されたオクターブスペクトルにおけるこれらピークの位置からコードが決定される。従って、音楽演奏時に含まれる音楽コードは、音楽演奏時の音波形から認識される。半音ベースにおけるオクターブプロファイルの周波数スペクトルにおけるピークを増幅するために、自己相関法を使用して、半音スパンの基本ユニットに関してオクターブプロファイルにおける周波数成分間の自己相関を取ることも好ましい。
さらに、本発明によると、これらの目的は、請求項18の特徴部分に規定されるように、音楽音響信号の情報コンテンツを表す特徴セットを抽出するために、音楽音響信号を分析するための装置によって実現される。

Claims (18)

  1. デジタル音楽音響信号(2)に含まれるコードファミリプロファイル(CFP)のセットを抽出するために、前記デジタル音楽音響信号(2)を分析する音楽音響分析方法において、
    a)前記デジタル音楽音響信号(2)の調性コンテキストを表す第1データ(5)を抽出するために、前記デジタル音楽音響信号(2)に第1アルゴリズム(4)を適用するステップと、
    b)前記第1データ(5)に含まれる調性の中心音(Tc)を表す第2データ(7)を提供するために、前記第1データ(5)に第2アルゴリズム(6)を適用するステップと、
    を備えることを特徴とする、音楽音響分析方法。
  2. 前記第1アルゴリズムは、
    a1)複数のピーク(p1,p2,p3,…,pi)の時間位置を特定するために、前記音楽音響信号(2)におけるノート開始点のシーケンスを同定する(10)ステップと、
    a2)前記音響音楽信号(2)を、期間(T)を有する複数の音響セグメント(s−on−1,s−on−2,s−on−3,…,s−on−i)に分割するステップと、各前記音響セグメントは、前記複数のピーク(p1,p2,p3,…,pi)のうちの1つを含み、
    a3)所定のサブ期間(t)の間、複数のスペクトルセグメント(sp−1,sp−2,sp−3,sp−i)を得るために、各前記音響セグメント(s−on−1,s−on−2,s−on−3,s−on−i)に対して周波数解析を行うステップと、前記サブ期間(t)の長さは前記期間(T)の長さより短い、
    を備えることを特徴とする、請求項1記載の音楽音響分析方法。
  3. 前記第1アルゴリズムは、
    a4)前記第1データ(5)を提供するために、計算ネットワーク(12)により、前記複数のスペクトルセグメント(sp−1,sp−2,sp−3,…,sp−i)を処理するステップを備え、前記第1データ(5)は、「コードタイプ/ピッチクラス」ペアを記述する複数のベクトル(v1,v2,v3,…,vi)を有し、
    前記複数のベクトル(v1,v2,v3,…,vi)の各ベクトルは、それぞれ前記音響セグメント(s−on−1,s−on−2,s−on−3,…,s−on−i)に関連付けられる、
    ことを特徴とする、請求項2記載の音楽音響分析方法。
  4. 前記計算ネットワーク(12)は、訓練された機械学習アルゴリズムによって実装されていることを特徴とする、請求項3記載の音楽音響分析方法。
  5. 前記訓練された機械学習アルゴリズム(12)は、
    手動ラベル付けされた少量の訓練データ(13)を用いる教師付き学習である第1ステップと、
    ラベル付けされていない多量の訓練データのセット(14)を用いた教師なし学習である第2ステップ、の2つのステップ
    で訓練されることを特徴とする、請求項4記載の音楽音響分析方法。
  6. 前記第2ステップは、前記第1ステップ後に得られた、前記訓練された機械学習アルゴリズム(12)の重み(ω)のセットを改良するために行われることを特徴とする、請求項5記載の音楽音響分析方法。
  7. 前記第1アルゴリズムは、周波数解析のステップa3)後に、
    a5)各前記複数のスペクトルセグメント(sp−1,sp−2,sp−3,…,sp−i)におけるピーク(pi’,p2’,p3’,…,pi’)を強調するために、移動平均により前記複数のスペクトルセグメント(sp−1,sp−2,sp−3,…,sp−i)をフィルタリングするステップ
    をさらに備えることを特徴とする、請求項3記載の音楽音響分析方法。
  8. 前記計算段階a4)は、2つの連続する検出されたセグメント間の、複数の各セグメントに対して行われることを特徴とする、請求項3記載の音楽音響分析方法。
  9. 前記周波数解析は、前記サブ期間(t)の間のみ実施され、前記サブ期間(t)は、250〜350msecの範囲であることを特徴とする、請求項2〜8記載の音楽音響分析方法。
  10. 前記第2アルゴリズムは、
    b1)前記第1データ(5)を構成する第1の群(gl)のベクトルを含む第1の所定の期間(Tl)を有する第1の窓(w1)を提供するステップと、
    b2)前記第1の窓(w1)に含まれる局所的な調性の中心音を表す第1の調性コンテキスト(Tc1)を推定するための、前記窓(w)に含まれる前記第1の群(gl)のベクトルを改良するステップと、
    b3)第2の所定の期間(T2)を有する第2の窓(w2)を提供するステップと、前記第2の窓(w2)は、前記第1の窓(w1)に対して前記第2の窓(w2)が重なるような、前記第1の窓(w1)の所定のシフトされた時間(Ts)でシフトされた窓であり、第2の群(g2)のベクトルを有しており、
    b4)前記第2の窓(w2)に含まれる局所的な調性の中心音を表す第2の調性コンテキスト(Tc2)を推定するために、前記第2の窓(w2)に含まれる前記第2の群(g2)のベクトルを計算するステップと、
    b5)前記第2データ(7)を生成するための、前記第1の窓(w1)の前記調性コンテキスト(Tc1)および前記第2の窓(w2)の前記調性コンテキスト(Tc2)を改良するステップと、前記第2データ(7)は、前記第1データ(5)の調性の中心音の変化を表す、
    を備えることを特徴とする、請求項1〜9記載の音楽音響分析方法。
  11. 前記第2アルゴリズムは、
    b6)さらなる窓(wi)を特定するために、ステップb3)〜b5)を繰り返すステップをさらに備え、
    各前記さらなる窓(wi)は、前記第1データ(5)に含まれる前記調性コンテキスト(Tc)を推定するためのベクトル群(gi)を含む、
    ことを特徴とする、請求項10記載の音楽音響分析方法。
  12. 前記第1の所定の期間(T1)は、25〜35secの範囲で設定され、より好ましくは約30secであることを特徴とする、請求項10記載の音楽音響分析方法。
  13. 前記所定のシフト時間(Ts)は、10〜20secの範囲で設定され、より好ましくは約15secであり、前記第2の所定の期間(T2)は、
    前記第1の所定の期間(T1)および前記所定のシフト時間(Ts)と、
    前記第1の所定の期間(T1)と
    の差の範囲で変化することを特徴とする、請求項10記載の音楽音響分析方法。
  14. 前記ステップb5)は、多層パーセプトロン(MLP)により実行されることを特徴とする、請求項10記載の音楽音響分析方法。
  15. 前記方法は、前記音楽音響信号(2)の特徴の前記特徴セット(CFP)を提供するために、前記第2データ(7)に依存して、第3のアルゴリズム(8)を前記第1データ(5)に適用するステップc)をさらに備えることを特徴とする、請求項1〜14記載の音楽音響分析方法。
  16. 前記第3のアルゴリズム(8)は、前記第1データ(5)の不変にするために、基準ピッチを前記第1データ(5)に移調するステップを備えることを特徴とする、請求項15記載の音楽音響分析方法。
  17. 音楽音響信号のコンテンツを表す少なくとも特徴のセットを抽出するために、音楽音響信号を分析するプログラムを備えたコンピュータプログラム製品であって、
    a)音楽音響信号(2)の調性を表す第1データ(5)を抽出するために、第1アルゴリズム(4)を音楽音響信号(2)に適用するステップと、
    b)前記第1データ(5)に含まれる前記調性の中心音を表す第2データ(7)を提供するために、第2アルゴリズム(6)を前記第1データ(5)に適用するステップと、
    を備えた、コンピュータプログラム製品。
  18. 音楽音響信号のコンテンツを表す少なくとも特徴のセットを抽出するために、音楽音響信号を分析する装置であって、
    デジタル音楽音響信号(2)を受け取るための入力部と、
    前記デジタル音楽音響信号(2)を処理するためのプロセッサユニット(18)と、
    同様のまたは異なる音楽イベントの代表イベントが記憶されるデータベース(19)と、
    を備え、
    前記プロセッサユニット(18)は、請求項1〜16のいずれか1項記載の音楽音響分析方法に従って、デジタル音楽音響信号(2)のコンテンツを表す特徴のセットを抽出するように構成されている、
    音楽音響信号を分析する装置。
JP2011531363A 2008-10-15 2008-10-15 デジタル音楽音響信号の分析方法 Pending JP2012506061A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2008/063911 WO2010043258A1 (en) 2008-10-15 2008-10-15 Method for analyzing a digital music audio signal

Publications (1)

Publication Number Publication Date
JP2012506061A true JP2012506061A (ja) 2012-03-08

Family

ID=40344486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011531363A Pending JP2012506061A (ja) 2008-10-15 2008-10-15 デジタル音楽音響信号の分析方法

Country Status (7)

Country Link
EP (1) EP2342708B1 (ja)
JP (1) JP2012506061A (ja)
CN (1) CN102187386A (ja)
BR (1) BRPI0823192A2 (ja)
CA (1) CA2740638A1 (ja)
EA (1) EA201170559A1 (ja)
WO (1) WO2010043258A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017215520A (ja) * 2016-06-01 2017-12-07 株式会社Nttドコモ 識別装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110254688A1 (en) * 2010-04-15 2011-10-20 Samsung Electronics Co., Ltd. User state recognition in a wireless communication system
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
US9257954B2 (en) * 2013-09-19 2016-02-09 Microsoft Technology Licensing, Llc Automatic audio harmonization based on pitch distributions
CN107135578B (zh) * 2017-06-08 2020-01-10 复旦大学 基于TonaLighting调节技术的智能音乐和弦-氛围灯系统
US11024288B2 (en) * 2018-09-04 2021-06-01 Gracenote, Inc. Methods and apparatus to segment audio and determine audio segment similarities
JP7375302B2 (ja) * 2019-01-11 2023-11-08 ヤマハ株式会社 音響解析方法、音響解析装置およびプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091199A (ja) * 1996-09-18 1998-04-10 Mitsubishi Electric Corp 記録再生装置
JP2003005744A (ja) * 2001-06-20 2003-01-08 Yamaha Corp 演奏タイミング抽出方法
JP2006202235A (ja) * 2005-01-24 2006-08-03 Nara Institute Of Science & Technology 経時的現象発生解析装置及び経時的現象発生解析方法
JP2007041234A (ja) * 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置
JP2007248610A (ja) * 2006-03-14 2007-09-27 Mitsubishi Electric Corp 楽曲分析方法及び楽曲分析装置
JP2008040283A (ja) * 2006-08-09 2008-02-21 Kawai Musical Instr Mfg Co Ltd コード名検出装置及びコード名検出用プログラム
JP2008102405A (ja) * 2006-10-20 2008-05-01 Sony Corp 信号処理装置および方法、プログラム、並びに記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6057502A (en) 1999-03-30 2000-05-02 Yamaha Corporation Apparatus and method for recognizing musical chords
JP4315180B2 (ja) * 2006-10-20 2009-08-19 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091199A (ja) * 1996-09-18 1998-04-10 Mitsubishi Electric Corp 記録再生装置
JP2003005744A (ja) * 2001-06-20 2003-01-08 Yamaha Corp 演奏タイミング抽出方法
JP2006202235A (ja) * 2005-01-24 2006-08-03 Nara Institute Of Science & Technology 経時的現象発生解析装置及び経時的現象発生解析方法
JP2007041234A (ja) * 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置
JP2007248610A (ja) * 2006-03-14 2007-09-27 Mitsubishi Electric Corp 楽曲分析方法及び楽曲分析装置
JP2008040283A (ja) * 2006-08-09 2008-02-21 Kawai Musical Instr Mfg Co Ltd コード名検出装置及びコード名検出用プログラム
JP2008102405A (ja) * 2006-10-20 2008-05-01 Sony Corp 信号処理装置および方法、プログラム、並びに記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017215520A (ja) * 2016-06-01 2017-12-07 株式会社Nttドコモ 識別装置

Also Published As

Publication number Publication date
CA2740638A1 (en) 2010-04-22
EA201170559A1 (ru) 2012-01-30
BRPI0823192A2 (pt) 2018-10-23
CN102187386A (zh) 2011-09-14
WO2010043258A1 (en) 2010-04-22
EP2342708A1 (en) 2011-07-13
EP2342708B1 (en) 2012-07-18

Similar Documents

Publication Publication Date Title
US6297439B1 (en) System and method for automatic music generation using a neural network architecture
US6541691B2 (en) Generation of a note-based code
Paiement et al. A probabilistic model for chord progressions
JP5088030B2 (ja) 演奏音の類似度を評価する方法、装置およびプログラム
CN109979488B (zh) 基于重音分析的人声转乐谱系统
JP7448053B2 (ja) 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム
JP4815436B2 (ja) 可変分解能により情報信号をスペクトル表現に変換する装置および方法
JP2012506061A (ja) デジタル音楽音響信号の分析方法
CN112382257B (zh) 一种音频处理方法、装置、设备及介质
JP6743425B2 (ja) 音信号処理方法および音信号処理装置
Lerch Software-based extraction of objective parameters from music performances
Stark Musicians and machines: Bridging the semantic gap in live performance
JP4722738B2 (ja) 楽曲分析方法及び楽曲分析装置
Liang et al. Piano legato-pedal onset detection based on a sympathetic resonance measure
CN112634841B (zh) 一种基于声音识别的吉他谱自动生成方法
Noland et al. Influences of signal processing, tone profiles, and chord progressions on a model for estimating the musical key from audio
Eronen Signal processing methods for audio classification and music content analysis
Camurri et al. An experiment on analysis and synthesis of musical expressivity
Wang et al. A framework for automated pop-song melody generation with piano accompaniment arrangement
JP7375302B2 (ja) 音響解析方法、音響解析装置およびプログラム
JP2017161572A (ja) 音信号処理方法および音信号処理装置
JP2004531758A5 (ja)
Müller et al. Music signal processing
Sarkar et al. Automatic identification of Tala from Tabla signal
Sauer Design and Evaluation of a Simple Chord Detection Algorithm

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130225

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130304

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130328

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130408

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130430

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130509

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130729