JP4816699B2 - 楽曲処理方法、楽曲処理装置、及びプログラム - Google Patents

楽曲処理方法、楽曲処理装置、及びプログラム Download PDF

Info

Publication number
JP4816699B2
JP4816699B2 JP2008226344A JP2008226344A JP4816699B2 JP 4816699 B2 JP4816699 B2 JP 4816699B2 JP 2008226344 A JP2008226344 A JP 2008226344A JP 2008226344 A JP2008226344 A JP 2008226344A JP 4816699 B2 JP4816699 B2 JP 4816699B2
Authority
JP
Japan
Prior art keywords
music data
music
feature pattern
similarity
start position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008226344A
Other languages
English (en)
Other versions
JP2010060836A (ja
Inventor
靖 宮島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008226344A priority Critical patent/JP4816699B2/ja
Priority to EP09251941A priority patent/EP2161715A3/en
Priority to US12/537,451 priority patent/US8548960B2/en
Priority to CN2009101720475A priority patent/CN101667420B/zh
Publication of JP2010060836A publication Critical patent/JP2010060836A/ja
Application granted granted Critical
Publication of JP4816699B2 publication Critical patent/JP4816699B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/135Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Control Of Amplification And Gain Control (AREA)

Description

本発明は、楽曲処理方法、楽曲処理装置、及びプログラムに関する。
近年、情報処理装置の性能向上に伴い、デジタル化された楽曲データの新たな利用形態が見られるようになってきた。新たな利用形態の1つは、リミックスである。リミックスとは、一般的には、複数の楽曲の全部又は一部を組み合わせて、全体として新たな楽曲を構成する手法を指す。リミックスそのものは旧来より行われてきた手法だが、専用の装置を持たない一般のユーザもPC(Personal Computer)を用いて簡単にリミックスを行うことができるようになったことから、より多くのユーザがリミックスに参加し、リミックスされたデータの交換も行われ始めている。また、写真やスライドの上映と連動してシーンに応じて楽曲を再生させるスライドショーなども、楽曲データの新たな利用形態の一例である。スライドショーは、イベントでのプレゼンテーションや商品のプロモーションなどに広く利用されている。
楽曲データをリミックスやスライドショーなどに使用する場合、楽曲データに付加されたメタデータを活用するのが効果的である。メタデータには、曲名やアーティスト名などの静的なデータのみならず、楽曲データを時系列に解析して得られる、例えばリズム、ビート位置、小節の長さや位置、コード進行、又はメロディの種類などのデータも含まれる。そして、このような時系列のメタデータを用いることにより、楽曲データからの特定の小節の抽出、リズムやビート位置の調整などを簡単に行うことができる。
さらに、単純に楽曲を再生して楽しむ一般のユーザにとっても、メタデータを活用するメリットは存在する。例えば、ハードディスクやフラッシュメモリなどの大容量記録媒体に格納された大量の楽曲データの中から所望の楽曲データを素早く見つけ出すためには、メタデータにより表される楽曲の特徴を用いて検索する手法が有効である。
こうした状況から、楽曲データに関するメタデータの生成又は利用を支援するための技術開発が進められている。例えば、下記特許文献1には、楽曲データ内のビート位置や小節の頭の位置を自動的に抽出し、さらにユーザにより容易に補正可能としたメタデータ付与装置が開示されている。また、下記特許文献2には、楽曲に付与されたビート位置などのメタデータを用いて、楽曲データを再生するタイミングを適宜調整することのできる音楽編集装置が開示されている。
特開2007−248895号公報 特開2008−164932号公報
しかしながら、異なる環境において媒体に記録された楽曲データには、データ読取装置の違いやエンコードパラメータの違いにより、同一の楽曲であってもデータの開始点から演奏の開始点までのオフセットにずれが生じる場合がある。オフセットのずれは、例えば楽曲データとは別に時系列のメタデータを配布した場合には、メタデータが楽曲データと合致しない原因となる。そして、メタデータが楽曲データに合致しなければ、メタデータの使用を前提とした、リミックスやスライドショー又は楽曲データの検索などは、ユーザにより期待される結果を提供できない。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、オフセットのずれに影響されず楽曲データ又は楽曲データのメタデータを使用することのできる、新規かつ改良された楽曲処理方法、楽曲処理装置、及びプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、楽曲データ内の時間軸上の所定の符号化開始位置から一定の区間ごとに、音量の変化に応じて符合値を決定するステップと、複数の区間にわたって決定された一連の前記符号値を用いて、前記楽曲データの音量変化の特徴を表す特徴パターンを生成するステップと、を含む楽曲処理方法が提供される。
前記符号値は、ある区間における平均音量が前の区間における平均音量よりも増加しているか又は減少しているかを表していてもよい。
前記楽曲処理方法は、さらに、前記楽曲データのうち時間軸上の所定のウィンドウ幅における平均音量が当該楽曲データの全体又は一部分の平均音量を初めて上回るウィンドウ位置を求めることにより前記符号化開始位置を決定するステップを含んでもよい。
前記楽曲処理方法は、さらに、前記楽曲データについて生成された前記特徴パターンと任意の楽曲データの特徴パターンとを比較することにより当該楽曲データ間の特徴パターンの類似度を計算するステップを含んでもよい。
また、前記類似度は、2つの特徴パターンの間で符号値の一致するビット数の全ビット数に対する割合として計算されてもよい。
また、前記類似度は、2つの特徴パターンの間で符号値の一致するビットと符号値の一致しないビットの二項分布における発生確率を用いて計算されてもよい。
また、前記類似度は、2つの特徴パターンの間で符号値が連続して一致する一致部分の最大長を用いて計算されてもよい。
前記楽曲処理方法は、さらに、類似度の大きい2つの楽曲データの特徴パターンに対応する前記符号化開始位置を用いて、いずれかの楽曲データ又は当該楽曲データに関連するメタデータのオフセットを補正するステップを含んでもよい。
また、前記符号化開始位置を決定するステップにおいて、異なるウィンドウ幅を用いて複数の前記符号化開始位置が決定され、前記特徴パターンを生成するステップにおいて、複数の前記符号化開始位置に基づいて、1つの楽曲データに対し複数の前記特徴パターンが生成されてもよい。
前記楽曲処理方法は、さらに、前記楽曲データについて生成された各特徴パターンと任意の楽曲データの特徴パターンとを比較することにより、特徴パターンごとに類似度を計算するステップと、複数の前記特徴パターンのうち、計算された前記類似度が最も大きい特徴パターンに対応する前記符号化開始位置を用いて、いずれかの楽曲データ又は当該楽曲データに関連するメタデータのオフセットを補正するステップと、を含んでもよい。
上記課題を解決するために、本発明の別の観点によれば、楽曲データのうち時間軸上の所定のウィンドウ幅における平均音量が当該楽曲データの全体又は一部分の平均音量を初めて上回るウィンドウ位置を求めるステップと、前記楽曲データの前記ウィンドウ位置に基づいて、当該楽曲データ又は当該楽曲データに関連するメタデータのオフセットを補正するステップと、を含む楽曲処理方法が提供される。
上記課題を解決するために、本発明の別の観点によれば、楽曲データ内の時間軸上の所定の符号化開始位置から一定の区間ごとに、音量の変化に応じて符合値を決定する符号値決定部と、前記符号値決定部により決定された複数の区間にわたる一連の前記符号値を用いて、前記楽曲データの音量変化の特徴を表す特徴パターンを生成する特徴パターン生成部と、を備える楽曲処理装置が提供される。
上記課題を解決するために、本発明の別の観点によれば、情報処理装置を制御するコンピュータを、楽曲データ内の時間軸上の所定の符号化開始位置から一定の区間ごとに、音量の変化に応じて符合値を決定する符号値決定部と、前記符号値決定部により決定された複数の区間にわたる一連の前記符号値を用いて、前記楽曲データの音量変化の特徴を表す特徴パターンを生成する特徴パターン生成部と、として機能させるためのプログラムが提供される。
以上説明したように、本発明に係る楽曲処理方法、楽曲処理装置、及びプログラムによれば、オフセットのずれに影響されず楽曲データ又は楽曲データのメタデータを使用することができる。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、以下の順序にしたがって当該「発明を実施するための最良の形態」を説明する。
1.時系列のメタデータに関する課題
2.第1の実施形態
3.第2の実施形態
<1.時系列のメタデータに関する課題>
まず、図1を参照しながら、楽曲データに付与される時系列のメタデータについて説明する。図1は、楽曲データ、メタデータ、及びリミックスデータの関係を示す説明図である。
図1を参照すると、楽曲Gaの楽曲データDa、及び楽曲Gbの楽曲データDbが、それぞれ時間軸に沿った音声信号の波形として示されている。楽曲データDa及びDbは、例えば、WAVE又はMP3(MPEG Audio Layer-3)など、任意の形式で表現された音声データであってよい。
また、楽曲データDaにはメタデータMa、楽曲データDbにはメタデータMbが付与されている。図1の例において、メタデータMa及びMbには、それぞれ、“C#”、“C6”、“C7”及び“E7”などのコード進行データ、時間軸に対する垂線で示されているビート位置データ、並びにオフセットFa及びFbにより示されているオフセットデータが含まれる。なお、本明細書において、オフセットとは、楽曲データの開始点から演奏の開始点(再生時に音が始めて認識され得る点)までの時間差を意味する。
図1には、さらにリミックスデータRabも示されている。リミックスデータとは、複数の楽曲データの全部又は一部を組み合わせて全体として新たな楽曲を構成するための、いわゆる“レシピ”(構成)に関するデータである。図1を参照すると、リミックスデータRabの内容の一例として、楽曲データDaの再生中に楽曲データDaをフェードアウトさせ、そのフェードアウトの途中から楽曲データDbをフェードインさせるという構成が示されている。なお、リミックスデータは、図1に示した例に限定されず、例えば、再生時間の指定、音量の指定、転調、又は繰返しなど、音声信号の編集に関する任意のデータであってよい。
ここで、リミックスデータRabに基づいて楽曲データGa及びGbを正確に演奏するには、オフセットFa及びFbが、楽曲データDa及びDbのオフセットをそれぞれ正確に表していることが前提となる。これに対し、例えば、メタデータMbに含まれるオフセットFbが楽曲データDbのオフセットとずれていれば、リミックスデータRabにおいて楽曲データDbをフェードインさせようとした時点で、正しく楽曲データDbがフェードインしない可能性がある。
図2は、楽曲Gaが異なる環境E1及びE2の下で録音される状況を示している。図2において、環境E1で録音された楽曲Gaの楽曲データDa’のオフセットと、環境E2で録音された楽曲Gaの楽曲データDa’’のオフセットには、例えばデータ読取装置の違いやエンコードパラメータの違いにより、差異が生じている。その結果、事前に楽曲データDaに基づいて生成されたメタデータMaのオフセットFaは、楽曲データDa’のオフセットとは一致するが、楽曲データDa’’のオフセットとはズレている。即ち、環境E2で録音された楽曲データDa’’には、もはや別途入手したメタデータMaを適用できない。
このような録音時の環境の相違等に起因するオフセットのずれは、楽曲データの利用形態が多様化し、メタデータが単独で流通する可能性の高い現状では、避けて通れない課題である。そこで、本明細書において説明するような、オフセットのずれに影響されることなく楽曲データ又は楽曲データのメタデータを使用可能とする装置の実現が望まれる。
<2.第1の実施形態>
図3は、本発明の第1の実施形態に係る楽曲処理装置10の論理的な構成を示すブロック図である。図3を参照すると、楽曲処理装置10は、記憶部12、特徴パターン生成部14、開始位置決定部16、符号値決定部18、楽曲同定部20、及びオフセット補正部22を備える。
[記憶部]
記憶部12は、ハードディスク又はフラッシュメモリなどの記憶装置を用いて、楽曲処理装置10の処理対象となる楽曲データ、及び後述する処理により生成される特徴パターンなどを記憶する。
[特徴パターン生成部]
特徴パターン生成部14は、記憶部12から楽曲データを取得し、取得した楽曲データの音量変化の特徴を表す特徴パターンを生成する。本実施形態において、特徴パターンは、楽曲データ内で時間軸上の一定の区間ごとに前の区間との間の相対的な音量変化を符号化した符号値の配列として与えられる。特徴パターン生成部14は、特徴パターンの生成に際し、まず開始位置決定部16を呼び出し、符号化を開始する時間軸上の位置、即ち符号化開始位置を決定させる。
[開始位置決定部]
開始位置決定部16は、特徴パターン生成部14から楽曲データを受け取り、当該楽曲データ内の時間軸上で音量変化の特徴の符号化を開始すべき符号化開始位置を決定する。例えば、符号化開始位置は、時間軸上の所定のウィンドウ幅における平均音量が楽曲データの全体又は一部分の平均音量を初めて上回るウィンドウ位置に応じて決定することができる。以下、図4及び図5を用いて、開始位置決定部16による符号化開始位置の決定処理の一例について説明する。
図4に示すように、開始位置決定部16は、まず楽曲データの所定の範囲内で、符号化開始位置の決定の基準となる基準平均音量Vmを計算する。基準平均音量Vmを計算する所定の範囲とは、図4において、TaからTbまでの期間として示されている。TaからTbまでの範囲には、楽曲データの全体が含まれていてもよく、又は楽曲データの一部分のみが含まれていてもよい。なお、量子化された楽曲データの音量には正負の符号が付されるが、基準平均音量Vmは、音量の絶対値の平均値であってもよく、音量を二乗した後の平均値であってもよい。
次に、図5に示すように、開始位置決定部16は、基準平均音量Vmを決定した範囲の先頭位置Taを始点とし、ウィンドウ幅Wsを持つ時間軸上のウィンドウにおける平均音量Vwが基準平均音量Vmを初めて上回る位置を、時間軸に沿って探索する。
例えば、図5(A)に示したウィンドウ位置では、ウィンドウ幅Wsにおける平均音量Vwは基準平均音量Vmよりも小さい。そのため、開始位置決定部16は、ウィンドウ位置を時間軸上の正の方向に移動させ、再びウィンドウ幅Wsにおける平均音量Vwと基準平均音量Vmを比較する。ウィンドウ位置の移動は、符号化開始位置の決定の再現性を高めるためには、より小さい単位で行われるのが望ましい。例えば、ウィンドウ位置の移動は、楽曲データのサンプリングにおける1サンプルごととすることができる。
その後、ウィンドウ位置を時間軸上の正の方向に移動させていき、例えば、ウィンドウの始点が図5(B)に示した位置Tsに到達したときに、ウィンドウ幅Wsにおける平均音量Vwが基準平均音量Vmよりも初めて大きくなったとする。開始位置決定部16は、このような位置Tsを検出し、Tsを符号化開始位置として特徴パターン生成部14へ出力する。
特徴パターン生成部14は、符号化開始位置Tsが決定されると、符号値決定部18を呼び出し、符号化開始位置Tsから一定の区間ごとに特徴パターンを生成するための符号値を決定させる。本実施形態において、特徴パターンを生成するための符号値は、一定の区間ごとの前の区間との間の音量の変化に応じた値とする。
[符号値決定部]
図6は、符号値決定部18による符号値決定処理の一例を説明するための説明図である。図6を参照すると、符号化開始位置Tsを起点とし、区間幅Weを持つ9つの符号化区間が示されている。また、各符号化区間において計算された区間別の平均音量が、符号化区間ごとの矩形の高さとして示されている。本実施形態において、符号値決定部18は、図6に示したような区間別平均音量を順次計算し、計算した区間別平均音量が前の区間における平均音量よりも増加しているか又は減少しているかに応じた符号値を決定する。
図6の例では、符号値は、ある区間における平均音量が前の区間における平均音量よりも増加していれば“1”、同じか又は減少していれば“0”と決定されている。例えば、符号化開始位置Tsを起点とする第1区間の平均音量よりも第2区間の平均音量は大きいため、第1の符号値(左端の符号値)は“1”となっている。同様に、第2区間の平均音量よりも第3区間の平均音量は大きいため、第2の符号値も“1”となっている。これに対し、第3区間の平均音量よりも第4区間の平均音量は小さいため、第3の符号値は“0”となっている。
特徴パターン生成部14は、このように符号値決定部18により決定された区間別の符号値を複数の区間にわたって結合し、一連の符号値としての特徴パターンを生成する。図6の例では、最終的に、各符号化区間について決定された符号値から、特徴パターンCP=“11011010”が生成されている。なお、ここでは説明の便宜上、9つの符号化区間を例示しているが、符号化区間の数(即ち特徴パターンのビット数)は、特徴パターンを用いて楽曲データを相互に識別可能な程度に十分な数とするのが好適である。
また、特徴パターンは、時間軸上の相対的な音量変化を表す符号値であれば、二値ではなく多値の符号値によって生成されてもよい。また、符号値は、図6に示した一定の区間ごとの前の区間との間の音量の変化に応じた値ではなく、例えばある区間内での平均音量の基準平均音量に対する音量比など、任意の音量変化の特徴に応じた値であってよい。
以上の処理により生成された特徴パターンCP、並びに特徴パターンCPの生成に使用されたウィンドウ幅Ws及び符号化区間幅Weは、後述する楽曲データの同定のために用いられる。また、符号化開始位置Tsは、オフセットの補正のために用いられる。図7に示したように、特徴パターン生成部14は、かかる特徴パターンCP、ウィンドウ幅Ws、符号化区間幅We、及び符号化開始位置Tsを一まとまりのデータセットとして、例えば楽曲データを識別する楽曲識別子により楽曲データと関連付けて、記憶部12に格納する。
[処理フロー説明:特徴パターン生成]
図8〜図10は、本実施形態に係る楽曲処理装置10による特徴パターンの生成の流れを説明するためのフローチャートである。
図8を参照すると、まず、特徴パターン生成部14により、楽曲データが記憶部12から取得される(S110)。次に、特徴パターン生成部14から呼び出された開始位置決定部16により、基準範囲Ta〜Tb内での基準平均音量Vmが計算される(S120)。そして、開始位置決定部16により、基準平均音量Vm及びウィンドウ幅Wsを用いて符号化開始位置Tsが決定される(S130)。
図9は、図8のS130における符号化開始位置の決定の流れをより詳細を示している。
図9を参照すると、まず、基準範囲の始点Taを用いてウィンドウの初期位置が決定される(S302)。次に、当該ウィンドウ位置におけるウィンドウ内の平均音量Vwが計算される(S304)。そして、計算されたウィンドウ内の平均音量Vwと基準平均音量Vmが比較される(S306)。このとき、例えばウィンドウ内の平均音量Vwの方が小さいか同等であれば、ウィンドウ位置を例えば1サンプル先へ進めた後、処理はS304へ戻る(S308)。一方、S306においてウィンドウ内の平均音量Vwの方が大きければ、その時点のウィンドウ位置に応じて符号化開始位置Tsが決定される(S310)。
図8に戻り、特徴パターンの生成の流れの説明を継続する。符号化開始位置Tsが決定されると、特徴パターン生成部14は、符号化開始位置Ts及び符号化区間幅Weを用いて、特徴パターンCPを生成する(S140)。
図10は、図8のS140における特徴パターンの生成の流れをより詳細を示している。
図10を参照すると、まず、前区間の平均音量Vpの初期値として、第1区間の平均音量が設定される(S402)。次に、第n区間の平均音量Vnが計算される(S404)。初回の計算では、n=2である。そして、計算された第n区間の平均音量Vnが前区間の平均音量Vpと比較される(S406)。このとき、例えば前区間の平均音量Vpの方が大きいか同等であれば、第n区間の符号値Cn=“0”と決定される(S408)。また、第n区間の平均音量Vnの方が大きければ、第n区間の符号値Cn=“1”と決定される(S410)。その後、全区間の符号値の決定が終了したか否かが判定される(S412)。ここで、全区間の符号値の決定が終了していなければ、前区間の平均音量Vpに第n区間の平均音量が代入され、及びnがn+1に加算され、処理はS404へ戻る(S414)。一方、S412において全区間の符号値の決定が終了していれば、各区間の符号値Cn(n=2、3…)から特徴パターンCPが生成される(S416)。
図8に戻り、特徴パターンCPが生成されると、特徴パターン生成部14は、特徴パターンCP、ウィンドウ幅Ws、符号化区間幅We、及び符号化開始位置Tsを一まとまりのデータセットとして、記憶部12に格納する。(S150)。
ここまで、図4〜図10を用いて、本実施形態に係る特徴パターンの生成処理について主に説明した。本実施形態において生成される特徴パターンは、前述した通り、楽曲データの時間軸上の相対的な音量変化を符号化した符号値の配列である。楽曲データの音量は、データ読取装置の違いやエンコードパラメータの違いなど、環境の相違によって変動し得る。しかしながら、そうした環境の相違は、通常、楽曲データの全体に対して一様に影響を与えるものである。そのため、時間軸上の相対的な音量変化に基づいて符号値を決定することで、環境の相違による影響はキャンセルされる。このことから、本実施形態において生成される特徴パターンは、互いに異なる環境で録音された同一の楽曲を、環境の相違に影響されることなく同定するために適していることが理解される。
また、本実施形態において、特徴パターンの生成に用いた符号化開始位置は、同様に時間軸上の相対的な音量変化に基づいて決定される。即ち、同一の楽曲データであれば、符号化開始位置に差異を生じさせるのは、実質的には楽曲データ内の時間軸上の演奏の位置、即ちオフセットのみとなる。このことから、本実施形態において決定される符号化開始位置は、同一の楽曲データ又はそのメタデータを用いる際に、オフセットのずれを補正するために用いられ得ることが理解される。
[楽曲同定部]
次に、図3に戻り、ここまでに説明した特徴パターンを用いて楽曲を同定する楽曲同定部20について説明する。
楽曲同定部20は、ある楽曲データについて生成された特徴パターンと任意の楽曲データの特徴パターンを比較することにより、楽曲データ間の特徴パターンの類似度を計算する。楽曲同定部20により比較の対象とされる特徴パターンは、同一の楽曲処理装置10により生成された特徴パターンであってもよく、異なる装置により生成された特徴パターンであってもよい。但し、特徴パターンの生成に同一のウィンドウ幅Ws及び符号化区間幅Weが用いられていることを前提とする。
例えば、楽曲データDの特徴パターンCP、並びに特徴パターンCPの生成に用いられたウィンドウ幅Ws及び符号化区間幅Weが既知であったとする。このとき、別の楽曲データDaについて、楽曲データDとの同一性を判定するためには、楽曲データDaの特徴パターンCPaをウィンドウ幅Ws及び符号化区間幅Weを用いて生成し、生成した特徴パターンCPaを特徴パターンCPと比較する。
図11は、楽曲同定部20による楽曲同定処理の一例を説明するための説明図である。
図11において、楽曲データDの特徴パターンCP、楽曲データDaの特徴パターンCPa、及び楽曲データDbの特徴パターンCPbが、同一のウィンドウ幅Ws及び符号化区間幅Weを用いて、既に特徴パターン生成部14により生成されているものとする。かかる特徴パターンは、例えば記憶部12から楽曲同定部20へ読み込まれる。
そして、楽曲同定部20は、楽曲データDと楽曲データDaとの間の同一性を判定するために、特徴パターンCPと特徴パターンCPaの間で、ビットごとの排他的論理和(EXOR)を計算している。図11に示している通り、特徴パターンCPと特徴パターンCPaの間の排他的論理和は、“00001100”である。また、楽曲同定部20は、楽曲データDと楽曲データDbとの間の同一性を判定するために、特徴パターンCPと特徴パターンCPbの間で、ビットごとの排他的論理和を計算している。特徴パターンCPと特徴パターンCPbの間の排他的論理和は、“01101101”である。
ここで、排他的論理和の計算結果のうち“0”のビットは、特徴パターンのそのビットの符号値が一致していたことを意味している。また、“1”のビットは、特徴パターンのそのビットの符号値が異なっていたことを意味している。即ち、排他的論理和の計算結果の中で“0”のビットの割合が大きいほど、特徴パターンは相互に類似している。
よって、楽曲同定部20は、例えば、2つの特徴パターンの間で排他的論理和の計算結果が“0”であるビット数の、全ビット数に対する割合を、特徴パターンの類似度としてもよい。図11の例では、特徴パターンCPと特徴パターンCPaの間の排他的論理和の計算結果“00001100”から、当該特徴パターンの類似度SIMa=6[bit]/8[bit]=75%と計算されている。同様に、特徴パターンCPと特徴パターンCPbの間の排他的論理和の計算結果“01101101”から、当該特徴パターンの類似度SIMb=3[bit]/8[bit]=37.5%と計算されている。
また、図11には示していないが、符号値の一致する“0”ビットの単純な割合ではなく、2つの特徴パターンの間で符号値の一致する“0”ビットと符号値の一致しない“1”ビットの二項分布における発生確率を考慮して類似度を計算してもよい。より具体的には、例えば、符号値の一致する“0”ビットの単純な割合をPとすれば、二項分布を考慮した類似度は、試行回数=全ビット数、成功確率=50%の二項分布において、確率変数X≧Pとなる確率Xに応じて与えられる(但し、この場合は確率Xが小さいほど類似度が大きいことに注意すべきである)。
また、排他的論理和の計算結果において、符号値の一致する“0”ビットが連続して現れる最大の長さを用いて特徴パターンの類似度を計算してもよい。例えば、異なる2つの環境で録音した同一の楽曲の特徴パターンを比較する場合を考える。このとき、一方の楽曲データの録音時にのみ一部に雑音が入ったとすると、雑音部分の特徴パターンの符号値は、50%の確率で一致しない。雑音が入っていない部分では、理想的には全ての符号値が一致する。これに対し、異なる楽曲の特徴パターンを比較した場合には、符号値が一致しない箇所は、雑音部分など特定の範囲に偏らず、特徴パターン内の全体に散らばっているはずである。そのため、例えば、符号値の一致する“0”ビットが連続して現れる最大の長さを特徴パターンの類似度として扱えば、雑音に対しより堅牢性の高い楽曲の同一性の判定を行うことができる。
楽曲同定部20は、このようないずれかの手法により計算した特徴パターンの類似度と例えば予め決定された閾値とを比較することにより、さらに2つの楽曲データの楽曲としての同一性を判定してもよい。また、楽曲同定部20は、計算した特徴パターンの類似度を楽曲処理装置10に接続された表示装置を介してユーザに呈示することにより、楽曲の同一性をユーザに判定させてもよい。
[処理フロー説明:楽曲の同定]
図12は、本実施形態に係る楽曲処理装置10による楽曲の同定の流れを説明するためのフローチャートである。
図12を参照すると、まず、楽曲同定部20は、2つの特徴パターンCPx及びCPyを記憶部12から取得する(S610)。次に、楽曲同定部20は、特徴パターンCPx及びCPyの間で排他的論理和を計算する(S620)。そして、楽曲同定部20は、排他的論理和の計算結果から、特徴パターンCPx及びCPyの類似度SIMを計算する(S630)。その後、楽曲同定部20は、例えば、計算した類似度SIMを予め決定された閾値と比較して楽曲の同一性を判定し、又は類似度SIMを呈示して楽曲の同一性をユーザに判定させる(S640)。
ここまで、図11及び図12を用いて、本実施形態に係る楽曲処理装置10による楽曲の同定処理について説明した。本実施形態に係る楽曲の同定処理は、前述した音量変化の特徴を表す特徴パターンを用いて行われる。そのため、例えば、環境の相違によるオフセットのずれなどに影響されることなく、楽曲の同定を実用的な精度で行うことが可能となる。
[オフセット補正部]
続いて、前述した楽曲の同定処理の結果、及び特徴パターンの生成に用いた符号化開始位置に基づいて、データの開始点から演奏の開始点までのオフセットのずれを補正する処理について説明する。
オフセット補正部22は、類似度の大きい楽曲データの特徴パターンに対応する前述した符号化開始位置を用いて、楽曲データ又はメタデータのオフセットを補正する。図13は、オフセット補正部22によるオフセット補正処理の一例を説明するための説明図である。
図13(A)には、楽曲Gaの楽曲データDaの波形と、楽曲データDaに対して付与されたメタデータMaが示されている。さらに、図13(A)には、メタデータMaに含まれる楽曲データDaのオフセットTo、及び楽曲データGaの符号化開始位置Tsが示されている。
また、図13(B)には、楽曲データDaとは別の環境で録音された楽曲Gaの楽曲データDa’の波形が示されている。楽曲データDa’の波形を参照すると、楽曲データDa’の演奏開始のタイミングは、楽曲データDaよりも遅い時点となっている。即ち、環境の相違の影響から楽曲データDaと楽曲データDa’のオフセットにずれが生じている。そのため、楽曲データDaに対して付与されたメタデータMaをそのまま楽曲データDa’に適用すると、メタデータMaに含まれるビート位置やコード進行などの時系列のデータは楽曲データDa’に合致しない。
そこで、オフセット補正部22は、楽曲データDa’について開始位置決定部16により決定された符号化開始位置Ts’を取得し、楽曲データGaの符号化開始位置Tsとの差に応じて、メタデータMaを楽曲データDa’に適用する際のオフセットを補正する。補正後のオフセットTo´は、次式により計算される。
Figure 0004816699
図13に示されているように、このようにメタデータMaのオフセットを補正して楽曲データDa’に適用することで、メタデータMaに含まれるビート位置やコード進行などの時系列のデータを楽曲データDa’に合致させることができる。
なお、図13ではメタデータMaのオフセットを補正値Ts’−Tsを用いて補正する例について説明した。しかしながら、その代わりに、楽曲データDa’のオフセットを補正値Ts’−Tsを用いて補正してもよい。即ち、楽曲データDa’の再生時に冒頭の再生時間を補正値Ts’−Tsの分だけスキップして再生することで、メタデータMaをそのまま再生された演奏に合致させることができる。
また、ここでは楽曲データDaと楽曲データDa’が同一の楽曲Gaに由来することが分かっていることを前提として説明した。しかしながら、例えば、複数の楽曲データの候補の中から、補正対象の楽曲データとの間で特徴パターンの類似度が大きい楽曲データを自動的に又はユーザにより選択させ、選択された楽曲データの符号化開始位置に基づいてオフセットを補正してもよい。
[処理フロー説明:オフセット補正]
図14は、本実施形態に係る楽曲処理装置10によるオフセットの補正の流れを説明するためのフローチャートである。
図14を参照すると、まず、オフセット補正部22は、補正対象の楽曲の符号化開始位置Ts’を取得する(S710)。次に、オフセット補正部22は、補正対象の楽曲との間で特徴パターンの類似度の大きい楽曲データの符号化開始位置Tsを取得する(S720)。かかる符号化開始位置Ts及びTs’は、例えば、開始位置決定部16により事前に決定される。さらに、オフセット補正部22は、オフセットの補正値Ts’−Tsを計算する(S730)。そして、オフセット補正部22は、補正対象の楽曲データ又は補正対象の楽曲データに適用するメタデータのオフセットを、補正値Ts’−Tsを用いて補正する(S740)。
ここまで、図13及び図14を用いて、本実施形態に係る楽曲処理装置10によるオフセットの補正処理について説明した。本実施形態に係るオフセットの補正処理は、楽曲データ内の時間軸上の演奏の位置を実質的に表す符号化開始位置を用いて行われる。それにより、楽曲データ又は楽曲データに付与されたメタデータを、環境の相違によるオフセットのずれを補正した上で使用することが可能となる。
以上、図3〜図14を参照しながら、本発明の第1の実施形態について詳細に説明した。本発明の第1の実施形態では、1つの楽曲データについて、時間軸上の相対的な音量変化の特徴を表す1つの特徴パターンを生成した。ここで、図6の説明からも理解されるように、特徴パターンに含まれる符号値は、開始位置決定部16により決定される符号化開始位置に依存する。そのため、1つの楽曲データについて複数の符号化開始位置に対応する複数の特徴パターンを生成し、楽曲の同一性の判定の品質を高めることも考えられる。そこで、次節では、本発明の第2の実施形態として、1つの楽曲データについて異なるウィンドウ位置を用いて決定した複数の符号化開始位置に基づいて、複数の特徴パターンを生成する例について説明する。
<3.第2の実施形態>
図15は、本発明の第2の実施形態に係る楽曲処理装置30の論理的な構成を示すブロック図である。図15を参照すると、楽曲処理装置30は、記憶部12、特徴パターン生成部34、開始位置決定部36、符号値決定部38、楽曲同定部40、及びオフセット補正部22を備える。
[特徴パターン生成部]
本実施形態において、特徴パターン生成部34は、記憶部12から楽曲データを取得し、取得した楽曲データの音量変化の特徴を表す特徴パターンを複数生成する。特徴パターン生成部34は、特徴パターンの生成に際し、まず開始位置決定部36を呼び出し、異なるウィンドウ幅を用いて複数の符号化開始位置を決定させる。
[開始位置決定部]
図16は、本実施形態における、開始位置決定部36による符号化開始位置の決定処理を説明するための説明図である。
図16を参照すると、開始位置決定部36は、基準平均音量Vmを計算した後、ウィンドウ幅Wsを持つ時間軸上のウィンドウにおける平均音量Vwが基準平均音量Vmを初めて上回る位置Tsを決定する(図16(A))。次に、開始位置決定部36は、ウィンドウ幅Wsとは異なるウィンドウ幅Wsを持つ時間軸上のウィンドウにおける平均音量Vwが基準平均音量Vmを初めて上回る位置Tsを決定する(図16(B))。このように、本実施形態において、開始位置決定部36は、異なるウィンドウ幅Ws(i=1,2…)を用いて複数の符号化開始位置Tsを決定し、決定した複数の符号化開始位置Tsを特徴パターン生成部34へ出力する。
[符号値決定部]
図17は、本実施形態における、符号値決定部38による符号値決定処理を説明するための説明図である。
図17(A)には、符号化開始位置Tsを起点とし、区間幅Weを持つ9つの符号化区間が示されている。また、図17(B)には、符号化開始位置Tsを起点とし、同様に区間幅Weを持つ9つの符号化区間が示されている。符号値決定部38は、このような各符号化区間について、区間別平均音量が前の区間における平均音量よりも増加しているか又は減少しているかに応じて符号値を決定する。
そして、特徴パターン生成部34は、決定された区間別の符号値を一連の符号化区間にわたって結合し、符号化開始位置Tsごとの特徴パターンCPを生成する。図17の例では、符号化開始位置Tsについて特徴パターンCP=“11011010”、符号化開始位置TsについてCP=“00111010”が生成されている。
以上の処理により生成された特徴パターンCP、並びに特徴パターンCPの生成に使用されたウィンドウ幅Ws及び符号化区間幅Weは、後述する楽曲データの同定のために用いられる。また、符号化開始位置Tsは、オフセットの補正のために用いられる。図18にi≦2の場合について示したように、特徴パターン生成部34は、かかる特徴パターンCP、ウィンドウ幅Ws、符号化区間幅We、及び符号化開始位置Tsを一まとまりのデータセットとして記憶部12に格納する。
[処理フロー説明:複数の特徴パターンの生成]
図19は、本実施形態に係る楽曲処理装置30による特徴パターンの生成の流れを説明するためのフローチャートである。
図19を参照すると、まず、特徴パターン生成部34により、楽曲データが記憶部12から取得される(S1110)。次に、特徴パターン生成部34から呼び出された開始位置決定部36により、基準範囲Ta〜Tb内での基準平均音量Vmが計算される(S1120)。そして、開始位置決定部36により、基準平均音量Vmとウィンドウ幅Ws(i=1,2…)とを用いて、複数の符号化開始位置Tsが決定される(S1130)。そして、特徴パターン生成部34により、複数の符号化開始位置Tsと符号化区間幅Weとを用いて、複数の特徴パターンCPを生成する(S1140)。かかるS1130及びS1140は、全てのウィンドウ幅Wsについて特徴パターンCPが生成されるまで繰り返される。そして、全てのウィンドウ幅Wsについて特徴パターンCPが生成されると、特徴パターン生成部34は、特徴パターンCP、ウィンドウ幅Ws、符号化区間幅We、及び符号化開始位置Tsを一まとまりのデータセットとして、記憶部12に格納する。(S1150)。
[楽曲同定部]
次に、このような複数の特徴パターンを用いて楽曲を同定する楽曲同定部40について説明する。楽曲同定部40は、ある楽曲データについて生成された各特徴パターンと任意の楽曲データについて生成された各特徴パターンとを比較することにより、特徴パターンごとに類似度を計算する。このとき、同一のウィンドウ幅Wsに基づいて生成された特徴パターン同士を比較するものとする。
図20は、楽曲同定部40による楽曲同定処理の一例を説明するための説明図である。
図20を参照すると、楽曲データDについて生成された2つの特徴パターンCP及びCPと、楽曲データDrefについて生成された2つの特徴パターンCPref及びCPrefが示されている。このうち、特徴パターンCPとCPref、特徴パターンCPとCPrefはそれぞれ、同一のウィンドウ幅に基づいて生成された特徴パターンである。
楽曲同定部40は、まず、かかる特徴パターンの間でそれぞれ、ビットごとの排他的論理和(EXOR)を計算する。図20の例において、特徴パターンCPとCPrefの間の排他的論理和は、“00000001”と計算されている。また、特徴パターンCPとCPrefの間の排他的論理和は、“11100001”と計算されている。
そして、楽曲同定部40は、排他的論理和の計算結果を用いて、ウィンドウ幅ごとの特徴パターンの類似度SIM、SIMを計算する。図20の例では、“0”ビットの単純な割合を特徴パターンの類似度としており、特徴パターンCPとCPrefの類似度SIM=87.5%、特徴パターンCPとCPrefの類似度SIM=50%と計算されている。
図20から理解されるように、同じ楽曲データの組合せである楽曲データDと楽曲データDrefの間であっても、符号化開始位置の決定に用いるウィンドウ幅によって、特徴パターンの類似度は変動し得る。このとき、例えば、複数の類似度のうち最も大きい類似度を、その楽曲データ間の類似度として扱うことができる。その場合、図20の例では、類似度SIMの方が類似度SIMよりも大きいため、類似度SIMが楽曲データDと楽曲データDrefの間の類似度として採用される。
採用された類似度SIMの計算に用いられた特徴パターンCPとCPrefの符号化開始位置の差は、楽曲データDと楽曲データDrefの間のオフセットのずれに相当する。そのため、特徴パターンCPとCPrefの符号化開始位置の差を、後述するオフセットの補正処理において補正値として用いることができる。
[処理フロー説明:楽曲の同定及びオフセットの補正]
図21は、本実施形態に係る楽曲処理装置30による楽曲同定及びオフセット補正の流れを説明するためのフローチャートである。
図21を参照すると、まず、楽曲同定部40により、補正対象の楽曲データの特徴パターンCP(i=1,2…)が取得される(S1210)。次に、楽曲同定部40により、参照する楽曲データの特徴パターンCPref(i=1,2…)が取得される(S1220)。
その後、楽曲同定部40により、ウィンドウ幅ごとに特徴パターンCPと特徴パターンCPrefとの間の排他的論理和が計算される(S1230)。さらに、排他的論理和の計算結果から、ウィンドウ幅ごとの類似度SIMが計算される(S1240)。かかるS1230及びS1240は、全てのウィンドウ幅について類似度SIMが計算されるまで繰り返される。そして、全ての類似度SIMの計算が終了すると、楽曲同定部40により、類似度SIMが最も大きくなるiが決定される(S1250)。図21においては、類似度SIMが最も大きくなるiをi=kとする。
次に、オフセット補正部22により、類似度SIMに対応する特徴パターンCPの符号化開始位置Tsと特徴パターンCPrefの符号化開始位置Tsrefとを用いて、オフセットの補正値が計算される(S1260)。そして、オフセット補正部22により、計算された補正値を用いて、補正対象の楽曲データ又は楽曲データのメタデータのオフセットが補正される(S1270)。
以上、図15〜図21を参照しながら、本発明の第2の実施形態について説明した。本実施形態によれば、異なるウィンドウ幅を用いて決定された複数の符号化開始位置に基づいて、1つの楽曲データに対し複数の特徴パターンが生成される。そして、生成された複数の特徴パターンのうち、参照される特徴パターンとの間で最も類似度の大きい特徴パターンに対応する符号化開始位置を用いて、楽曲データ又は楽曲データのメタデータのオフセットが補正される。それにより、類似度に基づく楽曲の同一性の判定の品質が向上し、オフセットの補正の精度を高めることができる。
なお、本明細書において説明した第1及び第2の実施形態に係る一連の処理は、典型的にはソフトウェアを用いて実現される。一連の処理又はその一部をソフトウェアで実行させる場合には、ソフトウェアを構成するプログラムが、例えば図22に示した汎用コンピュータなどを用いて実行される。
図22において、CPU(Central Processing Unit)902は、汎用コンピュータの動作全般を制御する。ROM(Read Only Memory)904には、一連の処理の一部又は全部を記述したプログラム又はデータが格納される。RAM(Random Access Memory)906には、処理の実行時にCPU902により用いられるプログラムやデータなどが一時的に記憶される。
CPU902、ROM904、及びRAM906は、バス910を介して相互に接続される。バス910にはさらに、入出力インタフェース912が接続される。
入出力インタフェース912は、CPU902、ROM904、及びRAM906と、入力装置920、出力装置922、記憶装置924、通信装置926、及びドライブ930とを接続するためのインタフェースである。
入力装置920は、例えばマウス、キーボード、又はタッチパネルなどの入力装置を介して、ユーザからの指示や情報入力を受け付ける。出力装置922は、例えばCRT(Cathode Ray Tube)、液晶ディスプレイ、OLED(Organic Light Emitting Diode)などの表示装置、又はスピーカなどの音声出力装置を介してユーザに情報を出力する。
記憶装置924は、例えばハードディスクドライブ又はフラッシュメモリなどにより構成され、プログラムやプログラムデータなどを記憶する。通信装置926は、LAN又はインターネットなどのネットワークを介する通信処理を行う。ドライブ930は、必要に応じて汎用コンピュータに設けられ、例えばドライブ930にはリムーバブルメディア932が装着される。
第1〜第2の実施形態に係る一連の処理をソフトウェアで実行する場合には、例えば図22に示したROM904、記憶装置924、又はリムーバブルメディア932に格納されたプログラムが、実行時にRAM906に読み込まれ、CPU902によって実行される。
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
例えば、本明細書では楽曲データについてステレオデータとモノラルデータの違いを特に区別することなく説明したが、ステレオデータの一対の音声の片方ずつについて特徴パターンを生成してもよい。また、ステレオデータの一対の音声を合成した上で特徴パターンを生成してもよい。
また、各フローチャートに記載された第1又は第2の実施形態に係る処理を、必ずしもフローチャートに記載された順序に沿って実行しなくてもよい。各処理ステップは、並列的あるいは個別に独立して実行される処理を含んでもよい。
楽曲データ、メタデータ及びリミックスデータの関係を示す説明図である。 異なる環境で楽曲が録音される状況を説明するための説明図である。 第1の実施形態に係る楽曲処理装置の論理的構成を示すブロック図である。 第1の実施形態に係る基準平均音量の計算処理を説明するための説明図である。 第1の実施形態に係る符号化開始位置の決定処理を説明するための説明図である。 第1の実施形態に係る符号値の決定処理を説明するための説明図である。 第1の実施形態に係る特徴パターン生成部により出力されるデータセットを説明するための説明図である。 第1の実施形態に係る特徴パターンの生成処理の一例を示すフローチャートである。 第1の実施形態に係る符号化開始位置の決定処理の一例を示すフローチャートである。 第1の実施形態に係る符号値の決定処理の一例を示すフローチャートである。 第1の実施形態に係る楽曲同定処理を説明するための説明図である。 第1の実施形態に係る楽曲同定処理の一例を示すフローチャートである。 第1の実施形態に係るオフセット補正処理を説明するための説明図である。 第1の実施形態に係るオフセット補正処理の一例を示すフローチャートである。 第2の実施形態に係る楽曲処理装置の論理的構成を示すブロック図である。 第2の実施形態に係る符号化開始位置の決定処理を説明するための説明図である。 第2の実施形態に係る符号値の決定処理を説明するための説明図である。 第2の実施形態に係る特徴パターン生成部により出力されるデータセットを説明するための説明図である。 第2の実施形態に係る特徴パターンの生成処理の一例を示すフローチャートである。 第2の実施形態に係る楽曲同定処理を説明するための説明図である。 第2の実施形態に係る楽曲同定処理及びオフセット補正処理の一例を示すフローチャートである。 汎用コンピュータの構成例を示すブロック図である。
符号の説明
10、30 楽曲処理装置
12 記憶部
14、34 特徴パターン生成部
16、36 開始位置決定部
18、38 符号値決定部
20、40 楽曲同定部
22 オフセット補正部

Claims (10)

  1. 楽曲データのうち時間軸上の所定のウィンドウ幅における平均音量が当該楽曲データの全体又は一部分の平均音量を初めて上回るウィンドウ位置に対応する符号化開始位置を決定するステップと;
    前記楽曲データ内の前記符号化開始位置から一定の区間ごとに、音量の変化に応じて符号値を決定するステップと;
    複数の区間にわたって決定された一連の前記符号値を用いて、前記楽曲データの音量変化の特徴を表す特徴パターンを生成するステップと;
    前記楽曲データについて生成された前記特徴パターンと他の楽曲データの特徴パターンとの間の類似度を計算するステップと;
    計算された前記類似度に基づいて、前記楽曲データと前記他の楽曲データとの間の同一性を判定し、又は、計算された前記類似度をユーザに呈示することにより、前記楽曲データと前記他の楽曲データとの間の同一性をユーザに判定させるステップと;
    を含む楽曲処理方法。
  2. 前記符号値は、ある区間における平均音量が前の区間における平均音量よりも増加しているか又は減少しているかを表す、請求項1に記載の楽曲処理方法。
  3. 前記類似度は、2つの特徴パターンの間で符号値の一致するビット数の全ビット数に対する割合として計算される、請求項1に記載の楽曲処理方法。
  4. 前記類似度は、2つの特徴パターンの間で符号値の一致するビットと符号値の一致しないビットの二項分布における発生確率を用いて計算される、請求項1に記載の楽曲処理方法。
  5. 前記類似度は、2つの特徴パターンの間で符号値が連続して一致する一致部分の最大長を用いて計算される、請求項1に記載の楽曲処理方法。
  6. さらに、類似度の大きい2つの楽曲データの特徴パターンに対応する前記符号化開始位置を用いて、いずれかの楽曲データ又は当該楽曲データに関連するメタデータのオフセットを補正するステップを含む、請求項1に記載の楽曲処理方法。
  7. 前記符号化開始位置を決定するステップにおいて、異なるウィンドウ幅を用いて複数の前記符号化開始位置を決定し、
    前記特徴パターンを生成するステップにおいて、複数の前記符号化開始位置に基づいて、1つの楽曲データに対し複数の前記特徴パターンを生成する、
    請求項1に記載の楽曲処理方法。
  8. 前記類似度を計算するステップにおいて、前記楽曲データについて生成された前記複数の特徴パターンの各々前記他の楽曲データの特徴パターンとの間の類似度を計算し、
    前記楽曲処理方法は、
    前記複数の特徴パターンのうち、計算された前記類似度が最も大きい特徴パターンに対応する前記符号化開始位置を用いて、いずれかの楽曲データ又は当該楽曲データに関連するメタデータのオフセットを補正するステップ;
    さらに含む、請求項7に記載の楽曲処理方法。
  9. 楽曲データのうち時間軸上の所定のウィンドウ幅における平均音量が当該楽曲データの全体又は一部分の平均音量を初めて上回るウィンドウ位置に対応する符号化開始位置を決定する開始位置決定部と;
    前記楽曲データ内の前記符号化開始位置から一定の区間ごとに、音量の変化に応じて符号値を決定する符号値決定部と;
    前記符号値決定部により決定された複数の区間にわたる一連の前記符号値を用いて、前記楽曲データの音量変化の特徴を表す特徴パターンを生成する特徴パターン生成部と;
    前記楽曲データについて生成された前記特徴パターンと他の楽曲データの特徴パターンとの間の類似度を計算し、及び、計算された前記類似度に基づいて前記楽曲データと前記他の楽曲データとの間の同一性を判定し、又は計算された前記類似度をユーザに呈示することにより前記楽曲データと前記他の楽曲データとの間の同一性をユーザに判定させる楽曲同定部と;
    を備える楽曲処理装置。
  10. 情報処理装置を制御するコンピュータを:
    楽曲データのうち時間軸上の所定のウィンドウ幅における平均音量が当該楽曲データの全体又は一部分の平均音量を初めて上回るウィンドウ位置に対応する符号化開始位置を決定する開始位置決定部と;
    前記楽曲データ内の前記符号化開始位置から一定の区間ごとに、音量の変化に応じて符号値を決定する符号値決定部と;
    前記符号値決定部により決定された複数の区間にわたる一連の前記符号値を用いて、前記楽曲データの音量変化の特徴を表す特徴パターンを生成する特徴パターン生成部と;
    前記楽曲データについて生成された前記特徴パターンと他の楽曲データの特徴パターンとの間の類似度を計算し、及び、計算された前記類似度に基づいて前記楽曲データと前記他の楽曲データとの間の同一性を判定し、又は計算された前記類似度をユーザに呈示することにより前記楽曲データと前記他の楽曲データとの間の同一性をユーザに判定させる楽曲同定部と;
    として機能させるための、プログラム。
JP2008226344A 2008-09-03 2008-09-03 楽曲処理方法、楽曲処理装置、及びプログラム Expired - Fee Related JP4816699B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2008226344A JP4816699B2 (ja) 2008-09-03 2008-09-03 楽曲処理方法、楽曲処理装置、及びプログラム
EP09251941A EP2161715A3 (en) 2008-09-03 2009-08-05 Music processing method, music processing apparatus and program
US12/537,451 US8548960B2 (en) 2008-09-03 2009-08-07 Music processing method and apparatus to use music data or metadata of music data regardless of an offset discrepancy
CN2009101720475A CN101667420B (zh) 2008-09-03 2009-09-03 音乐处理方法及音乐处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008226344A JP4816699B2 (ja) 2008-09-03 2008-09-03 楽曲処理方法、楽曲処理装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2010060836A JP2010060836A (ja) 2010-03-18
JP4816699B2 true JP4816699B2 (ja) 2011-11-16

Family

ID=41426247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008226344A Expired - Fee Related JP4816699B2 (ja) 2008-09-03 2008-09-03 楽曲処理方法、楽曲処理装置、及びプログラム

Country Status (4)

Country Link
US (1) US8548960B2 (ja)
EP (1) EP2161715A3 (ja)
JP (1) JP4816699B2 (ja)
CN (1) CN101667420B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9146925B2 (en) * 2007-05-04 2015-09-29 Manuel Ignacio Tijerino User defined internet jukebox kiosks set top box
CN103187070B (zh) * 2011-12-28 2016-03-30 宇龙计算机通信科技(深圳)有限公司 基于移动终端的音频文件处理方法及系统
EP2665095A1 (en) 2012-05-16 2013-11-20 GE Energy Power Conversion UK Limited Power electronic devices
JP6070936B2 (ja) * 2013-01-31 2017-02-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法及びプログラム
US20220147365A1 (en) * 2015-01-21 2022-05-12 Pure Storage, Inc. Accelerating Segment Metadata Head Scans For Storage System Controller Failover
JP6677038B2 (ja) 2016-03-24 2020-04-08 ヤマハ株式会社 データの位置決定方法、データの位置決定装置及びコンピュータプログラム
US11740862B1 (en) * 2022-11-22 2023-08-29 Algoriddim Gmbh Method and system for accelerated decomposing of audio data using intermediate data

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2601448B2 (ja) * 1985-09-19 1997-04-16 株式会社リコー 音声認識方法及びその装置
JPS6347800A (ja) * 1986-08-15 1988-02-29 松下電器産業株式会社 デルタ変調における音声符・復号化方法
JPH04367899A (ja) * 1991-06-14 1992-12-21 Ricoh Co Ltd 音声認識装置のagc制御方式
JP3700890B2 (ja) * 1997-07-09 2005-09-28 ソニー株式会社 信号識別装置及び信号識別方法
US6490556B2 (en) * 1999-05-28 2002-12-03 Intel Corporation Audio classifier for half duplex communication
US6947728B2 (en) * 2000-10-13 2005-09-20 Matsushita Electric Industrial Co., Ltd. Mobile phone with music reproduction function, music data reproduction method by mobile phone with music reproduction function, and the program thereof
JP4027051B2 (ja) * 2001-03-22 2007-12-26 松下電器産業株式会社 楽曲登録装置、楽曲登録方法、及びそのプログラムと記録媒体
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7203647B2 (en) * 2001-08-21 2007-04-10 Canon Kabushiki Kaisha Speech output apparatus, speech output method, and program
DE10223735B4 (de) * 2002-05-28 2005-05-25 Red Chip Company Ltd. Verfahren und Vorrichtung zum Ermitteln von Rhythmuseinheiten in einem Musikstück
US7386357B2 (en) * 2002-09-30 2008-06-10 Hewlett-Packard Development Company, L.P. System and method for generating an audio thumbnail of an audio track
US7081579B2 (en) * 2002-10-03 2006-07-25 Polyphonic Human Media Interface, S.L. Method and system for music recommendation
US20040194612A1 (en) * 2003-04-04 2004-10-07 International Business Machines Corporation Method, system and program product for automatically categorizing computer audio files
JP4479191B2 (ja) * 2003-08-25 2010-06-09 カシオ計算機株式会社 音声認識装置、音声認識方法及び音声認識処理プログラム
US20050154987A1 (en) * 2004-01-14 2005-07-14 Isao Otsuka System and method for recording and reproducing multimedia
US7563971B2 (en) * 2004-06-02 2009-07-21 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition with weighting of energy matches
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
JP2007166090A (ja) * 2005-12-12 2007-06-28 Matsushita Electric Ind Co Ltd コンテンツ再生/編集装置、コンテンツ再生/編集方法、コンテンツ再生/編集プログラム及びコンテンツ再生/編集プログラムを格納した記録媒体
JP4487958B2 (ja) 2006-03-16 2010-06-23 ソニー株式会社 メタデータ付与方法及び装置
JP2007292827A (ja) * 2006-04-21 2007-11-08 Dainippon Printing Co Ltd 音響信号検索装置
CN101093661B (zh) * 2006-06-23 2011-04-13 凌阳科技股份有限公司 一种音高跟踪和播放方法及其系统
US20080130908A1 (en) * 2006-12-05 2008-06-05 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Selective audio/sound aspects
JP5007563B2 (ja) 2006-12-28 2012-08-22 ソニー株式会社 音楽編集装置および方法、並びに、プログラム
US7956274B2 (en) * 2007-03-28 2011-06-07 Yamaha Corporation Performance apparatus and storage medium therefor

Also Published As

Publication number Publication date
EP2161715A2 (en) 2010-03-10
US8548960B2 (en) 2013-10-01
CN101667420A (zh) 2010-03-10
EP2161715A3 (en) 2011-03-30
US20100057734A1 (en) 2010-03-04
CN101667420B (zh) 2012-08-29
JP2010060836A (ja) 2010-03-18

Similar Documents

Publication Publication Date Title
JP4816699B2 (ja) 楽曲処理方法、楽曲処理装置、及びプログラム
JP4640407B2 (ja) 信号処理装置、信号処理方法及びプログラム
US7132595B2 (en) Beat analysis of musical signals
Benetos et al. Automatic music transcription: challenges and future directions
Gómez et al. Towards computer-assisted flamenco transcription: An experimental comparison of automatic transcription algorithms as applied to a cappella singing
US7288710B2 (en) Music searching apparatus and method
JP4465626B2 (ja) 情報処理装置および方法、並びにプログラム
JP4644250B2 (ja) テスト信号に内在する和音の種類を決定するための装置および方法
US7179981B2 (en) Music structure detection apparatus and method
Kroher et al. Automatic transcription of flamenco singing from polyphonic music recordings
US8885841B2 (en) Audio processing apparatus and method, and program
JP2014006480A (ja) 情報処理装置、情報処理方法及びプログラム
JP2004184510A (ja) 楽曲データ作成装置及び方法
Wang et al. Robust and efficient joint alignment of multiple musical performances
JP2015031738A (ja) コード進行推定検出装置及びコード進行推定検出プログラム
US20230351989A1 (en) Information processing system, electronic musical instrument, and information processing method
Foster et al. Sequential complexity as a descriptor for musical similarity
CN111863030A (zh) 音频检测方法及装置
JP5085577B2 (ja) プレイリスト作成装置、楽曲再生装置、プレイリスト作成方法およびプレイリスト作成プログラム
Shi et al. Modeling and Digitizing Reproducing Piano Rolls.
CN105630831A (zh) 哼唱检索方法及系统
CN103531220A (zh) 歌词校正方法及装置
Wang Computational Methods for the Alignment and Score-Informed Transcription of Piano Music
Pauwels et al. Integrating musicological knowledge into a probabilistic framework for chord and key extraction
US20230005510A1 (en) Information processing device and method, and program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110815

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140909

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140909

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees