JP2007536586A - 音信号の特徴を記述する装置および方法 - Google Patents

音信号の特徴を記述する装置および方法 Download PDF

Info

Publication number
JP2007536586A
JP2007536586A JP2007511960A JP2007511960A JP2007536586A JP 2007536586 A JP2007536586 A JP 2007536586A JP 2007511960 A JP2007511960 A JP 2007511960A JP 2007511960 A JP2007511960 A JP 2007511960A JP 2007536586 A JP2007536586 A JP 2007536586A
Authority
JP
Japan
Prior art keywords
sound
sequence
subsequence
executed
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007511960A
Other languages
English (en)
Other versions
JP4926044B2 (ja
Inventor
マルクス クレーマー
クリスティアン ウーレ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2007536586A publication Critical patent/JP2007536586A/ja
Application granted granted Critical
Publication of JP4926044B2 publication Critical patent/JP4926044B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/071Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

音信号の特徴を記述するために、量子化ラスタに基づいて、時間とともに、少なくとも2つの音源それぞれの量子化エントリタイムのシーケンスを生成する。ここで、エントリタイムのシーケンスを用いて、少なくとも2つの音源の基礎となる共通の周期長が算出される。ここで、エントリタイムのシーケンスが、サブシーケンス長が共通の周期長と等しいサブシーケンスにそれぞれ分割される。最終的に、例えば、リズム、速度またはジャンルに対して、第1の合成したサブシーケンスと、第2の合成したサブシーケンスとにより、音信号の特徴を記述するために、すなわち、例えばパターンヒストグラム用いて、第1の音源のサブシーケンスを第1の合成したサブシーケンスに合成して、第2の音源のサブシーケンスを第2の合成したサブシーケンスに合成する。
【選択図】図1

Description

本発明は、音信号の分析に関し、特に、音信号の特徴を記述するために、音信号を分類して特定する目的で行う音信号の分析に関する。
マルチメディアコンテンツをデジタル配信する媒体が絶え間なく開発されており、大量の数々のデータが提供されるようになっている。人間のユーザにとって、この全体量は、すでにはるかに上回る量となっている。従って、メタデータでデータをテキストで記述することが、ますます重要になっている。基本的に、テキストファイルを作成することばかりでなく、例えば、検索可能な音楽ファイル、映像ファイルおよび他の情報信号ファイルについても作成することが目標となっていて、一般的なテキストデータベースと同じ使い勝手であることが目標となっている。このためのアプローチの1つが、MPEG7規格として周知である。
特に、音声信号を分析する際、すなわち、音楽および/または言語を含む信号を分析する際に、はっきりとした特徴の抽出は、非常に重要である。
例えば、1曲の音楽のフィンガープリントに基づいてメタデータを検索するために、メタデータを有する音声データを“充実させる”ことはさらに望ましい。“フィンガープリント”は、一方では表現豊かである必要があり、他方では、できるだけ短く、簡潔である必要がある。“フィンガープリント”は、従って、音楽信号から生成した圧縮情報信号を表すもので、メタデータを含まないが、メタデータを参照するためのものである。例えば、データベースを検索したり、例えば、オーディオ素材(“オーディオID”)を特定するシステムを検索したりすることにより、参照を行う。
通常、音楽データは、個別の音源の部分信号を重畳したものから成る。1曲のポピュラー音楽では、個別の音源、すなわち歌手、ギター、ベースギター、ドラムおよびキーボードが比較的少ないが、オーケストラの楽曲では、音源の数が非常に多い場合がある。オーケストラの楽曲およびポピュラー音楽の楽曲は例えば、個別の楽器から発した音が重畳したものから成る。従って、オーケストラの楽曲または任意の楽曲はそれぞれ、個別の音源から部分信号を重畳したものを表している。部分信号は、オーケストラまたはポピュラー音楽アンサンブルそれぞれの個別の楽器から生成した音であり、個別の楽器は、個別の音源である。
あるいは、元の音源群についても個別の音源として解釈することもできるので、少なくとも2つの個別の音源を1つの信号に対応付けることもできる。
以下に、一般的な情報信号の分析として、単なる例として、オーケストラ信号を参照して説明する。オーケストラ信号の分析は、多くのやり方で行うことができる。従って、個別の楽器を認識して、全体的な信号から楽器の個別の信号を抽出することが望ましい。該当する場合には、これらを音符に変換する。音符が“メタデータ”として機能する。さらに、分析の可能性としては、主要なリズムを抽出することである。リズム抽出は、ハーモニー維持楽器とも呼ぶ、音を発生する楽器によらず、打楽器に基づいて行うことが好ましい。一般に、打楽器は、ケトルドラム、ドラム、ラトルまたは他の打楽器を含むが、ハーモニー維持楽器は、例えばバイオリン、管楽器等の、任意の他の楽器である。
さらに、アコースティックまたは合成音発生装置はすべて、サウンドの特徴により、リズムセクションとなる打楽器(例えば、リズムギター)のうちに数えられる。
従って、ハーモニー維持楽器の信号が“擾乱”したリズムを認識することなしに、例えば、1つの全曲の音楽からパーカッション部だけを抽出して、これらのパーカッション部に基づいてリズム認識を行うことは、1曲の音楽のリズム抽出に望ましいことである。
この技術では、数曲の音楽から異なるパターンを自動的に抽出したり、パターンの存在をそれぞれ検出したりする、別の可能性がある。コイル(Coyle、E.J.)、シュマルビッチ(Shmulevich、I.)の、“音楽パターンの機械認識システム(A System for Machine Recognition of Music Patterns)”、1998年IEEE国際会議、音響、音声、信号処理部会(http://www2.mdanderson.org/app/ilya/−Publications/icassp98mpr.pdf)では、メロディの主旋律を検索している。このために、主旋律が与えられる。そして、この主旋律が発生する箇所の検索が行われる。
シュレーター(Schroeter、T.)、ドライサミ(Doraisamy、S.)、ルーガー(Rueger、S.)の、“原音のポリフォニック音声から継続的に発生する主旋律を検索する(From Raw Polyphonic Audio to Locating Recurring Themes)”、2000年ISMIR(http:/ismir2000.ismir.net/posters/shoreter ruger.pdf)では、音楽信号を採譜した表現のなかのメロディの主旋律が検索される。やはり、主旋律が与えられ、それから、この主旋律が発生する箇所の検索が行われる。
西洋音楽の従来の構造によれば、リズム構造と対照的に、メロディ部分は、概して周期的に発生しない。この理由により、メロディ部分を検索する方法の多くは、発生したものを個別に検出することに制限されている。これと対照的に、リズム分析の分野での興味の対象は主に、周期的構造の検出に向けられている。
メーディック(Meudic、B.)の、“音楽パターン抽出:音楽構造の反復から(Musical Pattern Extraction:from Repetition to Musical Structure)”、2003年CMMR紀要(http://www.ircam.fr/equipes/repmus/RMPapers/CMMR−meudic−2003.pdf)では、自己類似性マトリックスを用いてメロディパターンを特定している。
ミーク(Meek)、コリン(Colin)、バーミンガム(Birmingham、W.P.)の、“主旋律抽出器(Thematic Extractor)”、2001年ISMIR(http://ismir2001.ismir.net/pdf/meek.pdf)では、メロディの主旋律が検索される。特に、シーケンスが検索され、1つのシーケンスの長さを2つから所定の数の音符とすることができる。
スミス(Smith、L.)、メジナ(Medina、R.)の、“パターン一致の抽出による主旋律の発見(Discovering Theme by Exact Pattern Matching)”2001年(http://citeseer.ist.psu.edu/−498226.html)では、自己類似性マトリックスを有するメロディの主旋律が検索される。
ラルティロット(Lartillot、O.)の、“知覚ベースの音楽パターンの発見(Perception−Based Musical Pattern Discovery)”、2003年IFMC紀要(http://www.ircam.fr/−equipes/repmus/lartillot/cmmr.pdf)では、やはりメロディの主旋律が検索される。
ブラウン(Brown、J.C.)の、“自己相関による楽譜基準値の算出(Determination of the Meter of Musical Scores by Autocorrelation)”、米国音響学会ジャーナル(J.of Acoust、Soc.Of America)第94巻第4号1993年では、音楽信号のシンボル表現から、すなわち、MIDI表現に基づいて周期関数を用いることにより、1曲の音楽の基礎となる基準値リズムのタイプを算出している。
同様のことが、メーディック(Meudic、B.)の、“MIDIファイルからの自動基準値抽出(Automatic Meter Extraction from MIDI files)”、2002年JIM紀要(http://www.ircam.fr/equipes/repmus/RMPapers/JIM−benoit.2002.pdf)で行われている。周期性を推定すると直ちに、音声信号のテンポおよび基準値リズムの推定を行っている。
メロディの主旋律を特定する方法には制限があり、音楽の主旋律が繰り返すので、音信号に存在する周期性を特定するのに適している。しかしながら、すでに説明したように、これらの方法は、1曲の音楽のなかの基本的な周期性を記述しておらず、上位の周期性情報は全く含んでいない。いずれにせよ、メロディの主旋律の検索では、主旋律に異なるバリエーションがあることを考慮する必要があるので、メロディの主旋律を特定する方法は非常にコストがかかる。従って、通常、すなわち例えば入れ換え、ミラーリング等により、主旋律が変化することが、音楽の世界では周知である。
コイル(Coyle、E.J.)、シュマルビッチ(Shmulevich、I.)の、"音楽パターンの機械認識システム(A System for Machine Recognition of Music Patterns)"、1998年IEEE国際会議、音響、音声、信号処理部会(http://www2.mdanderson.org/app/ilya/−Publications/icassp98mpr.pdf) シュレーター(Schroeter、T.)、ドライサミ(Doraisamy、S.)、ルーガー(Rueger、S.)の、"原音のポリフォニック音声から継続的に発生する主旋律を検索する(From Raw Polyphonic Audio to Locating Recurring Themes)"、2000年ISMIR(http:/ismir2000.ismir.net/posters/shoreter ruger.pdf) メーディック(Meudic、B.)の、"音楽パターン抽出:音楽構造の反復から(Musical Pattern Extraction:from Repetition to Musical Structure)"、2003年CMMR紀要(http://www.ircam.fr/equipes/repmus/RMPapers/CMMR−meudic−2003.pdf) ミーク(Meek)、コリン(Colin)、バーミンガム(Birmingham、W.P.)の、"主旋律抽出器(Thematic Extractor)"、2001年ISMIR(http://ismir2001.ismir.net/pdf/meek.pdf) スミス(Smith、L.)、メジナ(Medina、R.)の、"パターン一致の抽出による主旋律の発見(Discovering Theme by Exact Pattern Matching)"2001年(http://citeseer.ist.psu.edu/−498226.html) ラルティロット(Lartillot、O.)の、"知覚ベースの音楽パターンの発見(Perception−Based Musical Pattern Discovery)"、2003年IFMC紀要(http://www.ircam.fr/−equipes/repmus/lartillot/cmmr.pdf) ブラウン(Brown、J.C.)の、"自己相関による楽譜基準値の算出(Determination of the Meter of Musical Scores by Autocorrelation)"、米国音響学会ジャーナル(J.of Acoust、Soc.Of America)第94巻第4号1993年 メーディック(Meudic、B.)の、"MIDIファイルからの自動基準値抽出(Automatic Meter Extraction from MIDI files)"、2002年JIM紀要(http://www.ircam.fr/equipes/repmus/RMPapers/JIM−benoit.2002.pdf)
本発明の目的は、音信号の特徴を記述する、効率的で信頼のおける概念を提供する。
この目的は、請求項1に記載の音信号の特徴を記述する装置、請求項20に記載の音信号の特徴を記述する方法、または請求項21に記載のコンピュータプログラムにより達成される。
本発明が基づく知見は、効率的に算出できる多数の情報に関して、周期長判定によるエントリタイムのシーケンスと、サブシーケンスへの分割と、集計したサブシーケンスへの集約とに基づいて、特徴として、音信号の表現特徴を確定するというものである。
さらに、好ましくは、時間に沿った、1つの楽器の1つのエントリタイムのシーケンス、すなわち個別の音源の1つのエントリタイムのシーケンスについて考慮するばかりでなく、1曲の音楽で並行して発生する、2つの異なる音源の少なくとも2つのエントリタイムのシーケンスについても考慮する。通常、全ての音源、または、例えば1曲の音楽のなかのパーカッション音源のような少なくともサブセットの音源は、同じ基礎となる周期長を有していると考えられる。2つの音源のエントリタイムのシーケンスを用いて、少なくとも2つの音源の基礎となる共通の周期長を求める。本発明によれば、次に、各エントリタイムシーケンスがそれぞれサブシーケンスに分割される。サブシーケンス長は、共通の周期長と等しい。
第1の音源のサブシーケンスを第1の合成したサブシーケンスに合成することと、第2の音源のサブシーケンスを第2の合成したサブシーケンスに合成することとに基づいて、特徴抽出を行う。合成したサブシーケンスが、音信号の特徴として機能し、これを用いてさらに処理をおこなうこともできる。例えば、ジャンル、テンポ、基準値リズムの種類、他の楽曲との類似性等の、1つの全曲の音楽に関する意味的に重要な情報を抽出する。
従って、エントリタイムのシーケンスに対して想定した2つの音源がパーカッション音源である場合は、例えば、音のピッチではなく出力音の特徴スペクトルが、またはピッチではなく出力音の立ち上がりまたは立ち下がりそれぞれが、上位の音楽意味を持つという事実により、各々を区別する、ドラムや、他のドラム楽器または任意の他の打楽器である場合は、第1の音源の合成したサブシーケンスと第2の音源の合成したサブシーケンスとが、音信号のドラムパターンを形成する。
従って、好ましくは、本発明により、好適には採譜した音楽信号、すなわち、例えば音楽信号の音符表現から、ドラムパターンを自動的に抽出する。この表現をMIDIフォーマットで記述してもよいし、デジタル信号処理の方法により、オーディオ信号から自動的に求めたりしてもよい。例えば、独立成分分析(ICA)、または、例えば非負独立成分分析法等の、これを変更した方法、または、一般に“ブラインド音源分離(blind source separation”(BSS)というキーワードで周知の概念を用いる。
本発明の好適な実施の形態では、はじめにドラムパターンの抽出を行うには、音符エントリの認識、すなわち、異なる楽器ごと、音色楽器のピッチごとの開始時間の認識を行う。あるいは、音符表現の読出を行ってもよい。この読出は、MIDIファイルの読出、または楽譜のサンプリングおよび画像処理、また手入力した音符の受信を含んでいてもよい。
ここで、本発明の好適な実施の形態では、ラスタが求められ、これにより、音符エントリタイムが量子化され、再び音符エントリタイムが量子化される。
ここで、音楽小節の長さ、音楽小節の長さの整数倍、または音楽カウントタイムの長さの整数倍として、ドラムパターンの長さを求める。
ここで、パターンヒストグラムを用いて、基準位置ごとに特定の楽器が出現する周波数を求める。
次に、音信号の特徴として好ましいドラムパターンの形態を得るために、該当するエントリを選択する。あるいは、パターンヒストグラムをそのように処理することもできる。パターンヒストグラムはまた、音楽イベントの圧縮表現、すなわち音符生成であり、変化の程度および好ましいカウントタイムに関する情報を含んでいる。ヒストグラムの平坦性は、強い変化を表し、ちょうど“山のような”ヒストグラムは、自己類似性の意味で定常信号を表す。
ヒストグラムの表現を向上させるためには、信号を信号の特徴が類似した領域に分割して、互いに類似した信号の領域に対してだけドラムパターンを抽出して、信号内の他の特徴領域の別のドラムパターンを求めるために、はじめに前処理を行うことが好ましい。
音信号の特徴を算出する正しく機能する効率的な方法を得る点において、本発明には利点がある。特に、正しく機能する方法で、全ての信号に対して等しいように、統計的方法で求める周期長により、分割を行うことに基づいている。さらに、合成したサブシーケンスの算出に、ますますコストがかかるように、本発明の概念が拡張可能であるという点は、上位の算出時間がかかるものの、共通の周期長の判定と、ドラムパターンの判定とに、出現時間シーケンスがますます多く含まれるようになり、異なる音源、すなわち楽器がますます数多く含まれるようになるという事実により、この概念の表現および精度について容易に向上させることもできるという点である。
しかしながら、別の拡張性は、さらに処理を行うかどうかによるが、必要な場合には、次に、得られた合成したサブシーケンスに後処理を行って、表現に関するサブシーケンスを低減するために、特定の数の音源に対して、特定の数の合成したサブシーケンスを計算することである。例えば、特定の閾値を下回るヒストグラムエントリを無視することもできる。しかしながら、ヒストグラムエントリについてもそのように量子化したり、あるいは、特定の時点に、合成したサブシーケンス内にヒストグラムエントリがあるというステートメントだけをヒストグラムが含んでいるかどうかについて、閾値を決定するかにより、2値化したりしてもよい。
本発明の概念は、多くのサブシーケンスを合成するために、サブシーケンスと“一体化”するという事実に基づく、正しく機能する方法である。この方法は、いずれにしろ効率的に行われるが、本発明の処理工程数は多くを必要としない。
特に、以下でドラムと呼ぶピッチのない打楽器は、特にポピュラー音楽で基本的な役割をはたす。リズムおよび音楽ジャンルに関する多数の情報の部分は、ドラムによって演奏される“音符”に含まれている。例えばこれを、分類または少なくとも事前分類それぞれを実行できるようにするために、音楽アーカイブの知的そして直感的な検索に用いることもできる。
ドラムによって演奏される音符は、ドラムパターンとも呼ぶ繰り返しパターンを頻繁に形成する。ドラムパターンは、長い音符像からドラムパターンの長さの音符像を抽出することにより、演奏した音符の圧縮表現として機能することもできる。それにより、ドラムパターンから、1つの全曲の音楽に関する意味論的に意味のある情報を抽出することもできる。例えばジャンル、テンポ、基準値リズムの種類、他の楽曲との類似性等の情報である。
以下では、添付の図面を参照して、本発明の好適な実施の形態についてより詳細に説明する。
図1は、本発明の音信号の特徴を記述する装置のブロック図を示す。
図2は、音符エントリポイントの割り出しを説明する概略図を示す。
図3は、量子化ラスタと、ラスタを用いた音符の量子化とを表す概略図を示す。
図4は、任意の楽器を用いて統計的に時間の長さを求めることにより得られる、共通の周期長の例を説明する図を示す。
図5は、個別の音源(楽器)の合成したサブシーケンスの例として、例示のパターンヒストグラムを示す。
図6は、音信号の別の特徴の例として、後処理を行ったパターンヒストグラムを示す。
図1は、本発明の音信号の特徴を記述する装置を示す。はじめに、図1は、時間とともに、少なくとも2つの音源のそれぞれに対しエントリタイムシーケンスを提供する手段10を含んでいる。好ましくは、エントリタイムは、量子化ラスタに存在する、すでに量子化したエントリタイムである。図2は、異なる音源の音符のエントリタイムのシーケンス、すなわち、図2で“x”で表される楽器1、2、...楽器nを示しており、図3は、図3に示すラスタ内の量子化された各音源の量子化エントリタイムのシーケンス、すなわち、各楽器1、2...楽器nの量子化エントリタイムのシーケンスを示している。
図3は同時に、エントリタイムの行列またはリストを示している。図3の縦の列は、2つのラスタポイントまたはラスタラインの間の距離を表しており、従って、時間間隔を表す。エントリタイムのシーケンスによるが、音符エントリは存在することもあるし存在しないこともある。図3に示す実施の形態では、例えば、符号30で示す縦の列では、楽器1の音符エントリが存在している。図3の2つの楽器1および楽器2に対応付けられた2つのラインに“x”で示されているように、楽器2にも当てはまる。それと対照的に、楽器nは、符号30で示す時間間隔に音符エントリタイムがない。
好ましくは、共通の周期長を算出するために、量子化したいくつかのエントリタイムのシーケンスが、手段10から手段12に供給される。各エントリタイムシーケンスの個別の周期長を求めるのではなく、少なくとも2つの音源の最もよい基礎となる共通の周期長を検出するために、共通の周期長を算出する手段12は実行される。これは、例えば1曲の中で打楽器をいくつか演奏している場合は、打楽器はすべて、多かれ少なかれ同じリズムを刻んでいるので、音信号を構成している事実上全ての楽器、すなわち全ての音源に対して、共通の周期長が必ず存在することになるという事実に基づいている。
ここで、出力側で各音源のサブシーケンスのセットを得るために、各エントリタイムシーケンスを分割する手段14に、共通の音の周期長が供給される。
例えば、次に、図4について考えると、すなわち、任意の楽器1、2、...楽器nに対して共通の周期長40が検出されていることがわかる。任意のエントリタイムのシーケンスを共通の周期長40の長さのサブシーケンスに分割するために、サブシーケンスに分割する手段14が実行される。次に、例えば、図4の例に示す楽器1のシーケンスに対して3つのサブシーケンスを得るために、図4に示すように、楽器のエントリタイムシーケンスを、第1のサブシーケンス41と、次の第2のサブシーケンス42と、その次のサブシーケンス43とに分割する。これと同様に、楽器1のエントリタイムシーケンスで説明しているように、楽器2、...楽器nの他のシーケンスについても対応する隣接するサブシーケンスに分割する。
次に、第1の音源の合成したサブシーケンスおよび第2の音源の合成したサブシーケンスを音信号の特徴として得るために、音源のサブシーケンスのセットが、各音源を合成する手段16に供給される。好ましくは、パターンヒストグラムの形態で合成を行う。各サブシーケンス間の第1の間隔を、いわゆる各サブシーケンス間の第1の間隔の“上”に配置するように、第1の楽器のサブシーケンスを、互いに隣接するように上に配置する。次に、図5を参照して示すように、合成したサブシーケンスの各スロット内のエントリ、またはパターンヒストグラムの各ヒストグラム成分内のエントリそれぞれが数えられる。従って、第1の音源の合成したサブシーケンスは、図5に示す例の、パターンヒストグラムの第1の段50となる。第2の音源、すなわち、例えば楽器2に対して、合成したサブシーケンスは、パターンヒストグラムの第2の段52等となる。全体として、図5のパターンヒストグラムは従って、音信号の特徴を表し、これを次にさらに様々な目的のために用いることもできる。
以下では、ステップ12で、共通の周期長を求める異なる実施の形態について説明する。パターン長さの検出を、異なるやり方で実施することもできる。すなわち、例えば推測的な基準から、現在の音符情報に基づいて、あるいは、例えば好ましくは、パターン長さの多くの仮定を推定して、得られる結果を用いてそれらの妥当性を検証する、反復的検索アルゴリズムにより、周期性/パターン長さの推定値を直接生成することができる。これについてもやはり、例えば、パターンヒストグラムを解釈することにより実行してもよい。例えば、合成手段16で実行したり、または他の自己類似性測定手段を用いて実行したりする。
図5に示すようにすでに実行したように、パターンヒストグラムを、合成手段16で生成してもよい。あるいは、妥当性に従って音符に重み付けを行うために、パターンヒストグラムでは、個別の音符の強度についても考慮することもできる。あるいは、図5に示したように、ヒストグラムは単に、サブシーケンス内またはサブシーケンスのビンまたはタイムスロット内に音が存在しているかどうかに関する情報含んでいてもよい。ここでは、妥当性に対する個別の音符の重み付けを、ヒストグラムに含めないものとする。
本発明の好適な実施の形態では、ここでは好ましくはパターンヒストグラムである図5に示す特徴を、さらに処理する。これを行う際に、例えば、周波数または合成した強度値を閾値と比較するといったような基準を用いて、音符の選択が行われてもよい。なかでも、この閾値は、楽器の種類またはヒストグラムの平坦性に依存してもよい。ドラムパターン内のエントリは、ブールの大きさであってもよい。“1”は、音符が発生したという事実を表し、“0”は、音符が発生しなかったことを表す。あるいは、ヒストグラム内のエントリについても、このタイムスロットで発生する音符の強度(音量)または妥当性が、音楽信号でどのように大きいかについての単位であってもよい。図6について考えると、任意のタイムスロットまたはビンそれぞれが、各楽器のパターンヒストグラムで“x”で示されるように、閾値を選択したことがわかる。エントリ数は、3以上である。それと対照的に、任意のビンを削除する。エントリ数は3未満、すなわち、例えば2または1である。
本発明によれば、ピッチでまったく、あるいはそれほど特徴付けられていない打楽器から、音楽の“結果”すなわち譜面が生成される。音楽イベントは、音楽楽器の音の発生として定義される。好ましくは、実質的なピッチを持たない打楽器だけを考える。イベントが、オーディオ信号内で検出され、楽器の種類が分類される。イベントの時間的位置が、量子化ラスタについて量子化される。これを、テータムグリッドとも呼ぶ。さらに、音楽の小節、またはミリ秒での小節の長さ、または多数の量子化間隔がそれぞれ算出され、さらに、好ましくは、アップビートについても特定される。ドラムパターンでの特定の位置で音楽イベントが発生する周波数に基づくリズム構造を特定することにより、テンポを確実に特定することができ、音楽的背景知識についても用いる場合には、小節ラインを位置づける有用な表示が得られる。
楽譜または特徴それぞれは、好ましくは、例えば開始時間および継続時間といったリズム情報を含んでいることに留意されたい。この基準値情報の推定値、すなわち、拍子記号の推定値は、採譜した音楽の自動分析を行うのに必ずしも必要ではないが、しかしながら、人為的な再生装置にとっては、有効な楽譜の生成および再生を行うのに必要である。従って、自動採譜処理を、2つのタスクに分割することもできる。すなわち、すでに上述したように、音楽イベント、すなわち音符の検出および分類と、検出した音符、すなわちドラムパターンからの音楽譜面の生成とである。このために、好ましくは、音楽の基準値構造を推定して、検出した音符の時間的位置の量子化と、アップビートの検出と、小節ラインの位置の割り出しとを行ってもよい。特に、多声の音楽オーディオ信号の有意のピッチ情報がない、打楽器の音楽譜面の抽出について記述している。好ましくは、独立部分空間分析法を用いて、イベントの検出および分類を行う。
拡張ICAは、独立部分空間分析(ISA)により表される。ここでは、成分を、統計的に独立させる必要のない成分を持つ独立部分空間に分割する。音楽信号を変換することにより、混合信号の多次元表現が求められ、これを最後に推定したICAと一致させる。過去に、独立成分を算出する異なる方法が開発されている。音声信号分析を部分的に扱っている、該当する文献は以下の通りである。
1.J.カルーネン(Karhunen)、“独立成分分析および音源の分離に対するニューラルアプローチ(Neural approaches to independent component analysis and source separation)”1996年人工神経網欧州シンポジウム紀要249〜266ページ、ブリュージュ。
2.M.A.ケーシー(Casey)およびA.ウェストナー(Westner)、“独立部分空間分析による混合音声音源の分離(Separation of Mixed Audio Sources by Independent Subspace Analysis)”2000年国際コンピュータ 音楽会議紀要、ベルリン。
3.J.−F.カルドーゾ(Cardoso)、“多次元独立成分分析(Multidimensional independent component analysis)”1998年、ICASSP1998年紀要、シアトル。
4.A.ヒュバリネン(Hyvarinen)、P.O.ホイヤー(Hoyer)およびM. インキ(Inki)、“地形独立分析(Topographic Independent analysis)”2001年ニューロコンピューティング13(7)、1525〜1558ページ。
5.S.ドゥブノフ(Dubnov)、“独立部分空間分析によるサウンドオブジェクトの抽出(Extracting Sound Objects by Independent Subspace Analysis)”2002年仮想、合成およびエンターテイメント音声、AES第22回国際会議紀要、ヘルシンキ。
6.J.−F.カルドーゾ(Cardoso)およびA.スルミア(Souloumiac)、“非ガウス信号のブラインドビーム形成(Blind beamforming for non Gaussian signals”1993年IEE紀要、第140巻、第6号、362〜370ページ。
イベントが、音楽楽器の音符の発生として定義される。また、音符の発生時間は、1曲の音楽で音符が発生した時点である。オーディオ信号を部分にセグメント化する。オーディオ信号セグメントは、類似のリズム特徴を有している。下位の音声特性のベクトルで示される、オーディオ信号の短いフレームの間の距離基準を用いて、これを行う。テータムグリッドおよび上位の基準値レベルは、セグメント化部分から別々に求められる。基準値構造は、オーディオ信号のセグメント化部分内で変化しないものとする。好ましくは、検出したイベントが推定したテータムグリッドと整合される。この処理はおおよそ、音楽作成用の従来のMIDIシーケンサソフトウェアプログラムで周知の量子化関数に対応している。小節の長さが、量子化イベントリストから推定され、反復リズム構造が特定される。リズム構造に関する知識を用いて、推定したテンポを補正して、音楽的背景知識を用いて、小節ラインの位置を特定する。
以下では、異なる本発明の構成要素の好ましい実施例について説明する。好ましくは、手段10は、いくつかの音源にエントリタイムのシーケンスを提供するために、量子化を行う。好ましくは、検出したイベントがテータムグリッド内で量子化される。従来の音符エントリ検出方法を用いて動作する音符エントリタイムとともに、検出したイベントの音符エントリタイムを用いて、テータムグリッドが推定される。検出したパーカッションイベントに基づくテータムグリッドの生成は、確実に正しく機能する。ここでは、1曲の音楽の中の2つのラスタポイントの間の距離は、通常、一番早く演奏した音符を表すことに留意されたい。従って、1曲の音楽に、せいぜい16分の1音符と、16分の1音符より遅い音符とが発生した場合は、テータムグリッドの2つのラスタポイントの間の距離は、音信号の16分の1音符の時間長に等しい。
一般的な場合では、2つのラスタポイントの間の距離は、この音符値の整数倍を形成することにより、全ての発生した音符値または一時的な周期長それぞれを表すために必要な、最も大きい音符値を表す。従って、ラスタ距離は、全ての発生した音符継続時間/周期長等の最も大きい共通除数である。
以下では、テータムグリッドを求める2つの別のアプローチについて説明する。はじめに、第1のアプローチとして、テータムグリッドは、双方向ミスマッチプロシージャ(TWM)を用いて表される。テータム期間の一連の実験的値、すなわち2つのラスタポイントの距離が、発音時刻の間隔(inter−onset interval:IOI)のヒストグラムから導出される。IOIの計算は、連続する発音に限られず、事実上、時間フレーム内の発音の全ての対に限定されている。テータム候補が、最も頻繁に出現するIOIの整数の断片として計算される。双方向ミスマッチ誤差関数に最適に従って、IOIのハーモニー構造を予測する候補が選択される。その次に、テータム期間から導出したコームグリッドと信号の発音時間との間の誤差関数を算出することにより、推定したテータム期間が計算される。従って、IOIのヒストグラムが生成されて、FIRローパスフィルタにより、平滑化される。また、IOIヒストグラムのピークによりIOIを分割して、例えば、1から4の間の値のセットにより、テータム候補が得られる。TWMの適用の後で、IOIヒストグラムからテータム期間のおよその推定値が導出される。その次に、音符エントリタイムと、前に推定したテータム期間に近い期間を有するいくつかのテータムグリッドとの間でTWMを用いて、テータムグリッドの位相およびテータム期間の正確な推定値が計算される。
音符エントリベクトルとテータムグリッドとの間のベストマッチ、すなわち、音符エントリベクトルxとテータムyとの間の相関係数Rxyを用いて計算することにより、第2の方法により、テータムグリッドをさらに改良することを説明する。
Figure 2007536586
わずかなテンポの変化に追従させるために、隣接するフレームのテータムグリッドは、例えば、2.5秒の長さで推定される。隣接するフレームのテータムグリッド間の変化を、テータムグリッドポイントのIOIベクトルにローパスフィルタリングを行うことにより平滑化して、テータムグリッドは平滑化したIOIベクトルから抽出される。その次に、各イベントは、その最も近いグリッド位置に対応付けられている。それにより、いわゆる量子化が行われる。
次に、譜面を、行列Tik、i=1,...nおよびj=1、...、mとして書き込むこともできる。nは、検出した楽器の数で、mは、テータムグリッド要素の数、すなわち、行列の縦の列の数に等しい。検出したイベントの強度は、削除されてもよいし、これを用いられてもよい。これにより、ブール行列または強度値を有する行列になる。
以下では共通の周期長を算出する手段12の特殊な実施の形態について説明する。パーカッションイベントの量子化表現が、音源を再生する基礎となる、音楽の小節または周期性それぞれの推定値に関する有用な情報を準備する。基準値リズムレベルの周期性を例えば、2つの段階で求める。はじめに、小節長さを推定するために、周期性が計算される。
好ましくは、周期性関数として、自己相関関数(ACF)または平均差量関数(average amount differenece function:AMDF)が用いられる。これらは、以下の式で表される。
Figure 2007536586
また、AMDFが、音楽信号および音声信号の基礎周波数の推定値と、音楽の小節の推定値とに用いられる。
一般的な場合では、周期性関数は、信号と、その時間的に異なるバージョンとの間の類似性または非類似性それぞれを測定する。異なる類似性基準は周知のものである。従って、例えば、次の式により、2つのブールベクトルBiとB2との間の非類似性を算出するハミング距離(HD)が存在する。
Figure 2007536586
適切に拡張を行って、リズム構造を比較することは、類似の音符および休止符に異なる重み付けを行うことに起因する。次に、以下に示すように、譜面T1およびT2の2つの区分の間の類似性Bが、ブール演算の重み付け加算により計算される。
Figure 2007536586
上記の式では、重みa、bおよびcは、最初は、a=1、b=0.5およびc=0に設定されている。aは、共通音符の発生の重み付けを行い、bは、共通休止符の発生の重み付けを行い、cは、重み付け差の発生に対して、すなわち音符が一方の譜面で発生するが、もう一方の譜面では音符が発生しないといった重み付けを行う。以下に示すように、要素Bを加算することにより、類似性基準Mが得られる。
Figure 2007536586
行列要素の間の差を類似の方法で考える限りでは、この類似性基準は、ハミング距離に類似している。以下では、距離基準として、変形ハミング距離(MHD)が用いられる。また、重み付けベクトルνi、i=1、...nを用いて、特徴的な楽器の影響を制御してもよい。例えば、小型ドラム(スネアドラム)または低音域楽器により重点を置いたりするといった音楽背景知識を用いたり、あるいは楽器の出現する周波数および規則性により、制御してもよい。
Figure 2007536586
また、ブール行列の類似性基準が、強度値を考えるために、T1およびT2からの平均値を有する重み付けBにより拡張してもよい。距離または非類似性それぞれが、負の類似性と見なされてもよい。譜面Tと、これをシフトしたバージョンとの間で類似性基準Mを算出することにより、周期性関数P=f(M、1)が計算される。シフトは1に基づく。Pを基準値モデルの数と比較することにより、拍子記号が求められる。実行した基準値モデルQは、異なる拍子記号および微少時間の一般的なアクセント位置における一連のスパイクからなる。微少時間は、音楽カウントタイムの継続時間の整数比である。すなわち音楽テンポを確定する音符値(例えば、4分の1音符)と、テータム期間の継続時間との整数比である。
相関係数が最大の場合は、PとQとの間のベストマッチが得られる。現状のシステム13では、7つの異なる拍子記号に対して基準値モデルが実行される。
例えば、アップビートを検出して、正しく機能するテンポ推定値を得るために、繰り返し構造が検出される。ドラムパターンを検出するには、次の式により、類似の基準値位置を有する行列要素Tを加算することにより、小節bの長さから、譜面Tが得られる。
Figure 2007536586
上記の式におけるbは、推定した小節長さと、Tの中の小節数pとを示す。以下では、T’は、それぞれ譜面ヒストグラムまたはパターンヒストグラムとして参照される。大きいヒストグラム値を有する譜面要素T’i,jを検索することにより、譜面ヒストグラムT’からドラムパターンが得られる。測定した長さの整数値に対して上述の手順を繰り返し使用することにより、小節を超える長さのパターンが取り出される。音信号のさらなる別の特徴として代表的な最大パターンを得るために、すなわちパターン長さ自体に対して、演奏する音符が最も多いパターン長さが選択される。
好ましくは、音楽知識から導出した規則のセットを用いることにより、特定したリズムパターンが解釈される。好ましくは、個別の楽器が出現した等距離イベントが特定されて、楽器分類を参照して評価される。これにより、ポピュラー音楽でしばしば出現する演奏スタイルを特定できるようになる。一例としては、4分の4拍子の第2拍子および第4拍子でかなり頻繁に用いられる、小型ドラム(スネアドラム)またはタンバリンまたは拍手があげられる。バックビートと呼ばれるこの概念は、時間ラインの位置の指標として機能する。バックビートパターンが存在する場合は、小型ドラムの2つの拍子の間で時間が開始する。
さらに時間ラインを位置づける音符は、キックドラムイベントの発生、すなわち、通常足で演奏する大型ドラムのイベントの発生である。
たいていのキックドラム音符が発生する基準値位置により、音楽の小節のはじめに印がつけられていると仮定する。
例えば、図1に示して説明した、各音源の合成手段16で得られるような、図5または図6で説明したような、特徴の好ましい例は、ポピュラー音楽のジャンル分類に含まれる。得られたドラムパターンから、通常の演奏スタイルを特定するために、上位レベルの異なる特性を導出することもできる。分類手順により、音楽の小節、すなわち、例えば、1分毎の拍子といった速度についての情報に関連して、使用した打楽器を用いてこれらの特性を評価する。この概念は、任意の打楽器がリズム情報を有していて、頻繁に繰り返し演奏されるという事実に基づいている。ドラムパターンは、ジャンルに特有の特徴を有している。従って、これらのドラムパターンは、音楽ジャンルの分類に用いることもできる。
このために、それぞれ個別の楽器に対応付けられた、異なる演奏スタイルの分類が行われる。従って、例えば演奏スタイルは、各4分の1音符上に限ってイベントが発生するという事実からなる。この演奏スタイルに対応付けられた楽器は、キックドラム、すなわち足で演奏するドラムの大型のドラムである。この演奏スタイルを、FSと略記する。
別の演奏スタイルは例えば、4分の4拍子の各第2および第4の4分音符でイベントが発生することである。これは主として、小型ドラム(スネアドラム)およびタンバリン、すなわち拍手で演奏される。この演奏スタイルを、BSと略記する。さらに例示の演奏スタイルは、三連音符の第1および第3の音符上でしばしば音符が発生するという事実からなる。これをSPと略記する。ハイハットつまりシンバルで、しばしば観察される。
従って、演奏スタイルは、異なる音楽楽器に固有である。例えば、キックドラムイベントが各4分の1音符上で発生する場合に限って、第1の特性FSは、ブール値を取り、真である。特定の値に限っては、ブール変数は、全く計算されないが、例えば、ハイハット、シェイカーまたはタンバリンが演奏するとして、例えば、オフビートイベントの数と、オンビートイベントの数との間の関係といったような、特定の数が算出される。
ジャンル分類の特性をさらに得るために、典型的なドラム楽器の組み合わせが、例えばロック、ジャズ、ラテン、ディスコおよびテクノといった、異なるドラムセットの分類の1つに分類される。楽器音を用いるのではなく、個別のジャンルに属する異なる楽曲のドラム楽器の出現を一般的に検出することにより、ドラムセットの分類が導出される。従って、例えば、分類がロックであるドラムセットは、キックドラム、スネアドラム、ハイハットおよびシンバルを用いるという事実により、区別される。それと対照的に、“ラテン”の分類では、ボンゴ、コンガ、クラベスおよびシェイカーが用いられる。
さらに、特性セットが、ドラム譜面またはドラムパターン、それぞれのリズム特性から導出される。これらの特性には、音楽テンポ、拍子記号、微少時間等が含まれる。また、ドラムパターンにおいて発生する異なるIOIの数を数えることにより、キックドラム音符の出現する変化の基準が得られる。
規則に基づく決定ネットワークを利用して、ドラムパターンを用いて音楽ジャンルの分類が行われる。現在検証した仮説を満たす場合は、考えられるジャンル候補が与えられ、現在検証した仮説の側面を満たさない場合は、候補が“補正する”。この処理が、各ジャンルの好ましい特性の組み合わせの選択に結実する。賢明な決定を行うための規則が、代表的な楽曲および音楽知識それ自体を観察することから導出される。選択または補正するためのそれぞれの値は、抽出概念のロバストネスを考慮して、経験的に設定される。特定の音楽ジャンルとして得られる決定を、最大数の選択を含む、ジャンル候補と考える。
従って、例えば、ドラムセット種類がディスコで、テンポの範囲が115〜132bpmで、拍子記号が4/4ビットで、微少時間が2に等しい場合は、ジャンルがディスコと認識する。さらに、ジャンルのディスコに対する特性はさらに、例えば、演奏スタイルFSがあり、例えば、さらに演奏スタイルがもう1つあること、すなわち、各オフビート位置でイベントが発生することである。他のジャンルに、例えばヒップホップ、ソウル/ファンク、ドラムおよびベース、ジャズ/スウィング、ロック/ポップ、ヘビーメタル、ラテン、ワルツ、ポルカ/パンクまたはテクノなどに、同様の基準を設定してもよい。
状況によるが、音信号の特徴を記述する本発明の方法を、ハードウェアまたはソフトウェアで実施することもできる。実施にあたっては、本方法を実行するように、プログラム可能コンピュータシステムと協働する電子的に読み取り可能な制御信号を有するデジタル記録媒体、特に、フロッピー(登録商標)ディスクまたはCD上で実施することもできる。従って、一般に、コンピュータプログラム製品をコンピュータ上で実行する場合は、本発明は、本方法を実行する機械読み取り可能なキャリアに格納したプログラムコードを有する、コンピュータプログラム製品からなる。従って、換言すれば、本発明は、コンピュータ上でコンピュータプログラムを実行する場合は、本方法を実行するプログラムコードを有するコンピュータプログラムとして実施することもできる。
本発明の音信号の特徴を記述する装置のブロック図を示す。 音符エントリポイントの割り出しを説明する概略図を示す。 量子化ラスタと、ラスタを用いた音符の量子化とを表す概略図を示す。 任意の楽器を用いて統計的に時間の長さを求めることにより得られる、共通の周期長の例を説明する図を示す。 個別の音源(楽器)の合成したサブシーケンスの例として、例示のパターンヒストグラムを示す。 音信号の別の特徴の例として、後処理を行ったパターンヒストグラムを示す。

Claims (21)

  1. 音信号の特徴を記述する装置であって、
    少なくとも1つの音源に対する音のエントリタイムのシーケンスを生成する手段(10)と、
    前記少なくとも1つのエントリタイムのシーケンスを用いて、前記少なくとも1つの音源の基礎となる共通の周期長を算出する手段(12)と、
    前記共通の周期長と等しい長さ、または前記共通の周期長から導出した長さのサブシーケンスに、前記少なくとも1つのエントリタイムのシーケンスをそれぞれ分割する手段(14)と、
    前記少なくとも1つの音源の前記サブシーケンスを、前記音信号の特徴である1つの合成したサブシーケンスに合成する手段(16)とを備える、装置。
  2. 少なくとも2つの音源に少なくとも2つのエントリタイムのシーケンスを生成するために、生成手段(10)が実行され、
    前記少なくとも2つの音源の前記共通の周期長を算出するために、算出手段(12)が実行され、
    前記共通の周期長により、前記少なくとも2つのエントリタイムのシーケンスを分割するために、分割手段(14)が実行され、
    前記第1の合成したサブシーケンスと前記第2の合成したサブシーケンスとが前記音信号の前記特徴を表し、前記第2の音源の前記サブシーケンスを第2の合成したサブシーケンスと合成するために、合成手段(16)が実行される、請求項1に記載の装置。
  3. 1つの量子化エントリタイムのシーケンスを前記少なくとも2つの音源それぞれに生成するために、生成手段(10)が実行され、前記エントリタイムが量子化ラスタに対して量子化され、2つのラスタポイントの間のラスタポイントの距離が、前記音信号における2つの音の間の最短距離と等しい、または前記音楽信号における音の前記継続時間の最大の共通除数と等しい、請求項1に記載の装置。
  4. ハーモニー楽器の前記エントリポイントではなく、打楽器の前記エントリタイムを生成するために生成手段(10)が実行される、請求項1ないし請求項3のいずれかに記載の装置。
  5. 複数の仮定の共通の周期長確率基準それぞれを算出するために、そして、その確率基準が前記仮定の共通の周期長が前記少なくとも2つの音源の前記共通の周期長であることを示す共通の周期長として、前記複数の仮定の共通の周期長から、前記仮定の共通の周期長を選択するために、算出手段(12)が実行される、請求項1ないし請求項4のいずれかに記載の装置。
  6. 前記第1の音源に対する第1の確率基準と、前記第2の音源に対する第2の確率基準とに基づいて、前記確率基準を算出するために、算出手段(12)が実行される、請求項5に記載の装置。
  7. 前記エントリポイントのシーケンスをシフトしたエントリポイントのシーケンスと比較することにより前記確率基準を計算するために、算出手段(12)が実行される、請求項5または請求項6に記載の装置。
  8. 各サブシーケンスのリストを生成するために、分割手段(14)が実行され、前記リストが、各ラスタポイントと各音源とに関する1つの対応付けられた情報を含み、前記情報は、エントリポイントがラスタポイントに存在するかどうかに関するものである、請求項1ないし請求項7のいずれかに記載の装置。
  9. 各音源に対するリストを生成するために、生成手段(10)が実行され、ラスタの各ラスタポイントに対する前記リストは、前記ラスタポイントに音のエントリタイムがあるかどうかに関する1つの対応付けられた情報を含む、請求項1ないし請求項8のいずれかに記載の装置。
  10. 合成したサブシーケンスとしてヒストグラムを生成するために、合成手段(16)が実行される、請求項1ないし請求項9のいずれかに記載の装置。
  11. 前記合成したサブシーケンスの音ラスタの各ラスタポイントがヒストグラム成分を表すように、前記ヒストグラムを生成するために、合成手段(16)が実行される、請求項10に記載の装置。
  12. 入力を検出した場合、または前記入力から求めた基準を加えることにより、合成手段(16)を実行して、前記カウント値を増加することにより、音源の各サブシーケンス内の前記ヒストグラム内の対応付けられた成分のカウント値を増加し、前記入力が、前記エントリタイムのエントリを有する音の強度の基準である、請求項10または請求項11に記載の装置。
  13. 閾値を超える特徴として前記第1の合成したサブシーケンスおよび前記第2の合成したサブシーケンスにおける前記サブシーケンスの値だけを出力するための、合成手段(16)が実行される、請求項1ないし請求項12のいずれかに記載の装置。
  14. 前記共通長さに対して前記サブシーケンスを正規化するために、あるいは前記共通長さに対して前記第1の合成したサブシーケンスまたは前記第2の合成したサブシーケンスを正規化するために、合成手段(16)が実行され、請求項1ないし請求項13のいずれかに記載の装置。
  15. オーディオ信号から一意のリズム構造を有するセグメントを生成するために、生成手段(10)が実行され、
    一意のリズム構造を有するセグメントに対する前記特徴を生成するために、合成手段(16)が実行される、請求項1ないし請求項14のいずれかに記載の装置。
  16. 前記音信号に対する前記特徴から特性を抽出する手段と、
    前記特性を用いて、前記音信号に属する音楽ジャンルを確定する手段とをさらに備える、請求項1ないし請求項15のいずれかに記載の装置。
  17. 規則に基づく決定ネットワーク、パターン認識手段または分類器を用いるために、確定手段が実行される、請求項16に記載の装置。
  18. 前記特徴からテンポを抽出する手段をさらに備える、請求項1ないし請求項17のいずれかに記載の装置。
  19. 前記共通の周期長に基づいて、前記テンポを確定するために、抽出手段が実行される、請求項18に記載の装置。
  20. 音信号の特徴を記述する方法であって、
    少なくとも1つの音源に対する音のエントリタイムのシーケンスを生成するステップ(10)と、
    前記少なくとも1つのエントリタイムのシーケンスを用いて、前記少なくとも1つの音源の基礎となる共通の周期長を算出するステップ(12)と、
    前記共通の周期長と等しい長さ、または前記共通の周期長から導出した長さのサブシーケンスに、前記少なくとも1つのエントリタイムのシーケンスをそれぞれ分割するステップ(14)と、
    前記少なくとも1つの音源の前記サブシーケンスを、前記音信号の特徴である1つの合成したサブシーケンスに合成するステップ(16)とを含む、方法。
  21. 前記コンピュータプログラムをコンピュータ上で動作する場合は、前記請求項20に記載の方法を実行するプログラムコードを有するコンピュータプログラム。
JP2007511960A 2004-05-07 2005-04-27 音信号の特徴を記述する装置および方法 Expired - Fee Related JP4926044B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102004022659.8 2004-05-07
DE200410022659 DE102004022659B3 (de) 2004-05-07 2004-05-07 Vorrichtung zum Charakterisieren eines Tonsignals
PCT/EP2005/004517 WO2005114650A1 (de) 2004-05-07 2005-04-27 Vorrichtung und verfahren zum charakterisieren eines tonsignals

Publications (2)

Publication Number Publication Date
JP2007536586A true JP2007536586A (ja) 2007-12-13
JP4926044B2 JP4926044B2 (ja) 2012-05-09

Family

ID=34965834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007511960A Expired - Fee Related JP4926044B2 (ja) 2004-05-07 2005-04-27 音信号の特徴を記述する装置および方法

Country Status (4)

Country Link
EP (1) EP1671315B1 (ja)
JP (1) JP4926044B2 (ja)
DE (2) DE102004022659B3 (ja)
WO (1) WO2005114650A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019043798A1 (ja) * 2017-08-29 2019-03-07 Pioneer DJ株式会社 楽曲解析装置および楽曲解析プログラム
JPWO2019026236A1 (ja) * 2017-08-03 2020-07-16 AlphaTheta株式会社 楽曲解析装置および楽曲解析プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257588B (zh) * 2018-01-22 2022-03-01 姜峰 一种谱曲方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035796A (ja) * 1998-05-07 2000-02-02 Canon Inc 音楽情報処理装置及び方法
JP2004029274A (ja) * 2002-06-25 2004-01-29 Fuji Xerox Co Ltd 信号パターン評価装置、信号パターン評価方法及び信号パターン評価プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
DE10157454B4 (de) * 2001-11-23 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035796A (ja) * 1998-05-07 2000-02-02 Canon Inc 音楽情報処理装置及び方法
JP2004029274A (ja) * 2002-06-25 2004-01-29 Fuji Xerox Co Ltd 信号パターン評価装置、信号パターン評価方法及び信号パターン評価プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019026236A1 (ja) * 2017-08-03 2020-07-16 AlphaTheta株式会社 楽曲解析装置および楽曲解析プログラム
WO2019043798A1 (ja) * 2017-08-29 2019-03-07 Pioneer DJ株式会社 楽曲解析装置および楽曲解析プログラム
JPWO2019043798A1 (ja) * 2017-08-29 2020-08-27 AlphaTheta株式会社 楽曲解析装置および楽曲解析プログラム
US11205407B2 (en) 2017-08-29 2021-12-21 Alphatheta Corporation Song analysis device and song analysis program

Also Published As

Publication number Publication date
DE502005000658D1 (de) 2007-06-14
WO2005114650A1 (de) 2005-12-01
DE102004022659B3 (de) 2005-10-13
JP4926044B2 (ja) 2012-05-09
EP1671315A1 (de) 2006-06-21
EP1671315B1 (de) 2007-05-02

Similar Documents

Publication Publication Date Title
US7273978B2 (en) Device and method for characterizing a tone signal
Foote et al. Audio Retrieval by Rhythmic Similarity.
US7342167B2 (en) Apparatus and method for generating an encoded rhythmic pattern
JP4344499B2 (ja) 音楽データベースの検索
JP4581335B2 (ja) 少なくとも2つのオーディオ・ワークの比較方法、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、オーディオ・ワークのビートスペクトルの決定方法、及びオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム
Papadopoulos et al. Joint estimation of chords and downbeats from an audio signal
EP2515296B1 (en) Performance data search using a query indicative of a tone generation pattern
Vogl et al. Recurrent Neural Networks for Drum Transcription.
Yoshii et al. Automatic Drum Sound Description for Real-World Music Using Template Adaptation and Matching Methods.
JP6743425B2 (ja) 音信号処理方法および音信号処理装置
Eggink et al. Instrument recognition in accompanied sonatas and concertos
WO2004057569A1 (en) Audio signal analysing method and apparatus
JP2002116754A (ja) テンポ抽出装置、テンポ抽出方法、テンポ抽出プログラム及び記録媒体
Paulus Signal processing methods for drum transcription and music structure analysis
Paiva et al. On the Detection of Melody Notes in Polyphonic Audio.
JP4926044B2 (ja) 音信号の特徴を記述する装置および方法
Gillet et al. Drum Track Transcription of Polyphonic Music Using Noise Subspace Projection.
Eronen Signal processing methods for audio classification and music content analysis
Cherla et al. Automatic phrase continuation from guitar and bass guitar melodies
Dittmar et al. A toolbox for automatic transcription of polyphonic music
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
JP2017161572A (ja) 音信号処理方法および音信号処理装置
JP2004531758A5 (ja)
Tutzer Drum rhythm retrieval based on rhythm and sound similarity
EP1797507B1 (en) Apparatus and method for generating an encoded rhythmic pattern

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100521

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110208

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110506

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4926044

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees