JP4465626B2 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP4465626B2
JP4465626B2 JP2006278351A JP2006278351A JP4465626B2 JP 4465626 B2 JP4465626 B2 JP 4465626B2 JP 2006278351 A JP2006278351 A JP 2006278351A JP 2006278351 A JP2006278351 A JP 2006278351A JP 4465626 B2 JP4465626 B2 JP 4465626B2
Authority
JP
Japan
Prior art keywords
beat
section
music
feature amount
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006278351A
Other languages
English (en)
Other versions
JP2007156434A (ja
Inventor
由幸 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006278351A priority Critical patent/JP4465626B2/ja
Priority to EP06823177.8A priority patent/EP1947638B1/en
Priority to US11/813,411 priority patent/US8101845B2/en
Priority to PCT/JP2006/322273 priority patent/WO2007055238A1/ja
Priority to CN2006800043354A priority patent/CN101116134B/zh
Priority to KR1020077015580A priority patent/KR20080065910A/ko
Publication of JP2007156434A publication Critical patent/JP2007156434A/ja
Application granted granted Critical
Publication of JP4465626B2 publication Critical patent/JP4465626B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/135Autocorrelation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は情報処理装置および方法、並びにプログラムに関し、特に、転調のある楽曲の波形を解析する情報処理装置および方法、並びにプログラムに関する。
従来より、楽曲の構造を解析するための種々の方法が提案されている。具体的には、図1の上側に示すような、楽曲の波形を解析することにより、楽曲は、図1の下側に示すように、図中左から右を時間方向とするとき、“イントロ”から開始して、“サビ”、“間奏”、“Aメロ”、“Bメロ”、“サビ”、“サビ”、“間奏”、・・・の順に構成されていることが解析される。そして、それらの解析の結果を基に、楽曲の中で、サビとなる区間がどこであるかを識別したりする。
なお、以下、楽曲の中ほどから曲想の変化する部分であって、特に、曲の最も盛り上がる部分をサビと称し、拍と同様に、拍子を作る単位のことをビート(beat)と称する。すなわち、ビート(拍)は、一定の時間的間隔をもって数えられるもので、小節の中でのビート(拍)の位置によりアクセントの強弱(すなわち、強拍/弱拍)が生まれ、その組み合わせにより、各種の拍子が作られる。
また、入力されてくる音声データの特徴量を抽出し、その特徴量間の類似度を計算して繰り返し区間をリストアップし、リストアップされた繰り返し区間を統合し、転調をともなう繰り返し区間の検出を行って、それらの転調をともなう繰り返し区間を統合し、統合した繰り返し区間の中から、サビ区間として適当なものを選択する方法もある(例えば、特許文献1)。
特開2004−233965号公報
しかしながら、転調のある楽曲の波形を解析する場合、転調に対応するための演算量が増えることにより、楽曲の波形の解析に時間がかかるという問題があった。
例えば、特開2004−233965号公報に開示されている方法は、転調をともなう繰り返し区間の検出を行うことにより、サビ区間として適当なものを選択しているが、適当なサビ区間を選択するまでに時間がかかってしまうことがある。
本発明はこのような状況に鑑みてなされたものであり、より少ない演算量で、転調のある楽曲の波形を解析することができるようにするものである。
本発明の一側面は、転調のある楽曲の波形をビートごとに区切った第1の区間における、前記ビートに関係する第1の特徴量を抽出する第1の抽出手段と、抽出された前記第1の特徴量の周波数成分から位相成分を除去する除去手段と、位相成分が除去された前記第1の特徴量に基づいて、ある第1の区間と、他の第1の区間との相関を示す自己相関情報を生成する生成手段とを備える情報処理装置である。
前記自己相関情報に基づいて、前記ビートを、複数の相関性の高いビートが繰り返されている第2の区間ごとに分割する分割手段と、分割された前記第2の区間における、前記楽曲の音楽的な特徴を示す第2の特徴量を抽出する第2の抽出手段と、前記第2の特徴量に基づいて、分割された前記第2の区間における前記楽曲の曲構成を識別する識別手段とを備えるようにすることができる。
前記除去手段は、離散フーリエ変換により、前記第1の特徴量の周波数成分から位相成分を除去するようにすることができる。
前記識別手段は、前記曲構成として、サビである区間を識別するようにすることができる。
前記第1の特徴量は、前記第1の区間における、所定のオクターブ分の各音のエネルギーであるようにすることができる。
前記第2の特徴量は、前記第2の区間における、音量、音源に関する情報、またはある周波数帯の利得であるようにすることができる。
前記第2の特徴量は、前記第2の区間の長さ、前記第2の区間が出現した回数、または前記第2の区間が連続して繰り返された回数であるようにすることができる。
前記生成手段は、位相成分が除去された前記第1の特徴量に基づいて、所定のビートごとに、ある第1の区間との相関を算出することにより、前記自己相関情報を生成するようにすることができる。
前記除去手段は、シャッフルされた前記第1の特徴量の周波数成分から位相成分を除去するようにすることができる。
前記除去手段は、前記各音のエネルギーをシフトさせてから、前記第1の特徴量の周波数成分から位相成分を除去するようにすることができる。
本発明の一側面は、転調のある楽曲の波形をビートごとに区切った区間における、前記ビートに関係する特徴量を抽出する抽出ステップと、抽出された前記特徴量の周波数成分から位相成分を除去する除去ステップと、位相成分が除去された前記特徴量に基づいて、ある区間と、他の区間との相関を示す自己相関情報を生成する生成ステップとを含む情報処理方法である。
本発明の一側面は、転調のある楽曲の波形をビートごとに区切った区間における、前記ビートに関係する特徴量を抽出する抽出ステップと、抽出された前記特徴量の周波数成分から位相成分を除去する除去ステップと、位相成分が除去された前記特徴量に基づいて、ある区間と、他の区間との相関を示す自己相関情報を生成する生成ステップとをコンピュータに実行させるプログラムである。
本発明の一側面においては、転調のある楽曲の波形をビートごとに区切った第1の区間における、前記ビートに関係する第1の特徴量が抽出され、抽出された前記第1の特徴量の周波数成分から位相成分が除去され、位相成分が除去された前記第1の特徴量に基づいて、ある第1の区間と、他の第1の区間との相関を示す自己相関情報が生成される。
以上のように、本発明の一側面によれば、少ない演算量で、転調のある楽曲の波形を解析することができる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書または図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書または図面に記載されていることを確認するためのものである。従って、明細書または図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の一側面の情報処理装置(例えば、図2のパーソナルコンピュータ1)は、転調のある楽曲の波形をビートごとに区切った第1の区間における、ビートに関係する第1の特徴量(例えば、ビート特徴量)を抽出する第1の抽出手段(例えば、図3のビート特徴量抽出部41)と、抽出された第1の特徴量の周波数成分から位相成分を除去する除去手段(例えば、図3のビート特徴量除去部42)と、位相成分が除去された第1の特徴量に基づいて、ある第1の区間と、他の第1の区間との相関を示す自己相関情報(例えば、図15の自己相関マップ)を生成する生成手段(例えば、図3の自己相関マップ生成部43)とを備える。
自己相関情報に基づいて、ビートを、複数の相関性の高いビートが繰り返されている第2の区間ごとに分割する分割手段(例えば、図3の区間分割部44)と、分割された第2の区間における、楽曲の音楽的な特徴を示す第2の特徴量(例えば、音楽特徴量)を抽出する第2の抽出手段(例えば、図3の音楽特徴量抽出部45)と、第2の特徴量に基づいて、分割された第2の区間における楽曲の曲構成(例えば、サビ)を識別する識別手段(例えば、図3のサビ識別部46)とを備えるようにすることができる。
除去手段は、離散フーリエ変換により、第1の特徴量の周波数成分から位相成分を除去するようにすることができる。
識別手段は、曲構成として、サビである区間を識別するようにすることができる。
第1の特徴量は、第1の区間における、所定のオクターブ(例えば、7オクターブ)分の各音(例えば、C,C#,D,D#,E,F,F#,G,G#,A,A#,Bであるコード)のエネルギーであるようにすることができる。
第2の特徴量は、第2の区間における、音量、音源に関する情報、またはある周波数帯の利得であるようにすることができる。
第2の特徴量は、第2の区間の長さ、第2の区間が出現した回数、または第2の区間が連続して繰り返された回数であるようにすることができる。
生成手段は、位相成分が除去された第1の特徴量に基づいて、所定のビートごとに、ある第1の区間との相関を算出することにより、自己相関情報(例えば、図23および図24の自己相関マップ)を生成するようにすることができる。
除去手段は、シャッフルされた第1の特徴量の周波数成分から位相成分を除去するようにすることができる。
除去手段は、各音のエネルギーをシフトさせてから、第1の特徴量の周波数成分から位相成分を除去するようにすることができる。
本発明の一側面の情報処理方法またはプログラムは、転調のある楽曲の波形をビートごとに区切った区間における、ビートに関係する特徴量を抽出する抽出ステップ(例えば、図4のステップS2の処理)と、抽出された特徴量の周波数成分から位相成分を除去する除去ステップ(例えば、図4のステップS3の処理)と、位相成分が除去された特徴量に基づいて、ある区間と、他の区間との相関を示す自己相関情報を生成する生成ステップ(例えば、図4のステップS4の処理)とを含む。
本発明の一側面のプログラムは、記録媒体(例えば、図2のリムーバブルメディア21)に記録することができる。
以下、図面を参照しながら本発明の実施の形態について説明する。
図2は、パーソナルコンピュータ1のハードウェアの構成の例を説明するブロック図である。
パーソナルコンピュータ1は、楽曲のデータを記録し、その楽曲のデータから再生される楽曲の波形を解析するための所定の処理を行う機器であり、本発明の情報処理装置の一例である。
図2の例のパーソナルコンピュータ1において、CPU(Central Processing Unit)11は、ROM(Read Only Memory)12に記憶されているプログラム、または記録部18からRAM(Random Access Memory)13にロードされたプログラムに従って各種の処理を実行する。RAM13にはまた、CPU11が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU11、ROM12、およびRAM13は、バス14を介して相互に接続されている。このバス14にはまた、入出力インターフェース15も接続されている。
入出力インターフェース15には、キーボード、マウスなどよりなる入力部16、スピーカ、LCD(Liquid Crystal Display)などのディスプレイなどよりなる出力部17、ハードディスクなどより構成される記録部18、並びにインターネットなどのネットワークを介しての他の機器との通信処理を制御する通信部19が接続されている。
入出力インターフェース15にはまた、必要に応じてドライブ20が接続され、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア21が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記録部18にインストールされる。
なお、パーソナルコンピュータ1のハードウェアの構成は、図2の例に限定されず、後述する図3の機能的構成を少なくとも有していればよい。
図3は、図2のパーソナルコンピュータ1のCPU11により実行されるソフトウェアの機能的構成例を示すブロック図である。
楽曲構造解析部31は、(転調のある)楽曲の波形を解析するための所定の処理を行う。
楽曲構造解析部31は、ビート特徴量抽出部41、自己相関マップ生成部42、区間分割部43、音楽特徴量抽出部44、およびサビ識別部45を含むようにして構成される。
ビート特徴量抽出部41は、ビート特徴量抽出の処理を行って、ビートごとに抽出される特徴量であるビート特徴量を抽出する。ビート特徴量抽出部41は、抽出したビート特徴量をビート特徴量除去部42に供給する。なお、ビート特徴量抽出の処理の詳細は後述する。
ビート特徴量除去部42は、ビート特徴量抽出部41から供給されるビート特徴量の位相成分を除去する。ビート特徴量除去部42は、位相成分が除去されたビート特徴量を自己相関マップ生成部43に供給する。
自己相関マップ生成部43は、ビート特徴量除去部42から供給される、位相成分が除去されたビート特徴量を基に、自己相関マップ生成の処理を行って、自己相関マップを生成する。自己相関マップ生成部43は、生成した自己相関マップを区間分割部44に供給する。なお、自己相関マップ生成の処理の詳細は後述する。
区間分割部44は、自己相関マップ生成部43から供給される自己相関マップを基に、楽曲の波形が同一のフレーズを複数回繰り返している区間ごとに分割する(セグメンテーションする)。
音楽特徴量抽出部45は、同一の(似ている)フレーズごとに分割されたそれぞれの区間(の楽曲の波形)から、音楽的な特徴量である音楽特徴量を抽出する。音楽特徴量抽出部45は、抽出した音楽特徴量をサビ識別部46に供給する。
また、音楽特徴量抽出部45は、同一の(似ている)フレーズごとに分割されたそれぞれの区間(の楽曲の波形)から、音楽特徴量以外のその他の特徴量を抽出する。音楽特徴量抽出部45は、抽出したその他の特徴量をサビ識別部46に供給する。
サビ識別部46は、音楽特徴量抽出部45から供給される音楽特徴量またはその他の特徴量を基に、同一の(似ている)フレーズごとに分割されたそれぞれの区間(の楽曲の波形)から、サビである区間を識別する。
なお、本実施の形態では、パーソナルコンピュータ1は、上述した図2のハードウェア構成を有しているので、楽曲構造解析部31は、例えば、図2のCPU11が実行するアプリケーションソフトウェアとして構成されるが、それ以外にも、パーソナルコンピュータ1のハードウェア構成を図2の構成とは異ならせることで、楽曲構造解析部31は、ハードウェア単体として構成することもできるし、ソフトウェアとハードウェアの組み合わせとして構成することもできる。
ところで、上述したように、楽曲の波形から、その楽曲の曲構成を解析することにより、その楽曲のサビとなる区間を識別することができる。したがって、次に、図4のフローチャートを参照して、楽曲構造解析部31による、サビ識別の処理について説明する。
ステップS1において、楽曲構造解析部31は、楽曲の波形からビートを検出する。例えば、ステップS1において、楽曲構造解析部31は、MP3(MPEG Audio Layer-3)やAAC(Advanced Audio Coding)などの方式で音声圧縮された音声信号より再生される楽曲の波形から、テンポ、拍子、または小節などの位置を検出する。
図5は、楽曲の波形から検出されるビートの例を示す図である。
図5の上側で示される楽曲の波形から検出されるビートは、図5の下側に示すように、楽曲の波形を複数に分割している、図中垂直方向の線により区切られた区間により示されている。すなわち、それらの線のうち、4つおきに示されている太い線は、小節の先頭を示し、その太線により区切られた区間の中の、さらに細い線で区切られた4つの区間のそれぞれが、テンポ(4分音符の長さ)を示している。すなわち、図5に示される楽曲の波形は、図中下側の波形を分割する線により区切られた区間ごとに付されている数字(1乃至4)で示されるように、4ビートの楽曲となる。
すなわち、例えば、楽曲構造解析部31は、図5で示すように、図中上側に示す楽曲の波形から、図中下側に示すビートを検出する。
図4のフローチャートに戻り、ステップS2において、ビート特徴量抽出部41は、ビート特徴量抽出の処理を行って、ビート特徴量を抽出する。
図6は、楽曲の波形のビートごとに抽出されるビート特徴量について説明する図である。
図6に示される楽曲の波形においては、図5の下側と同様に、楽曲の波形がビートごとに分割されており(図6に示す例では12区間に分割されている)、ビート特徴量抽出部41は、それらの分割されているビートごとに、それぞれ、ビート特徴量を抽出する。
ここで、ステップS2における、ビート特徴量抽出部41による、ビート特徴量抽出の処理の詳細について、図7のフローチャートを参照して説明する。
ステップS11において、ビート特徴量抽出部41は、ビートごとに分割されている楽曲の波形から、例えば、ビートごとに7オクターブ分の各音のエネルギーを算出する。
図8は、ビート特徴量抽出部41による、ビート特徴量抽出の処理について説明する図である。
図8で示すように、例えば、7オクターブ分の各音のエネルギーを算出する場合、オクターブ1乃至オクターブ7(以下、O1乃至O7とも称する)のそれぞれの、C,C#,D,D#,E,F,F#,G,G#,A,A#,Bであるコードのエネルギーを算出することになる。ここで、1オクターブには、周波数の低い方から、C(ド),C#,D(レ),D#,E(ミ),F(ファ),F#,G(ソ),G#,A(ラ),A#,B(シ)の12の音程(音)が含まれる。例えば、オクターブ1(O1)のC,C#,D,D#,E,F,F#,G,G#,A,A#,Bの12の音程を、それぞれ、C1,C#1,D1,D#1,E1,F1,F#1,G1,G#1,A1,A#1,B1と称し、オクターブ2(O2)のC,C#,D,D#,E,F,F#,G,G#,A,A#,Bの12の音程を、それぞれ、C2,C#2,D2,D#2,E2,F2,F#2,G2,G#2,A2,A#2,B2と称する。また、オクターブ3(O3)乃至オクターブ7(O7)についても同様である。
すなわち、ビート特徴量抽出部41は、例えば、ビートごとに分割されている楽曲の波形から、C1乃至B7のそれぞれのエネルギーを算出する。
ここで、7オクターブ分の各音(C1乃至B7)のエネルギーを算出する方法であるが、例えば、ビートごとに分割されている楽曲の波形を、音程および時間により解析することで、各音のエネルギーを算出する。次に、図9および図10を参照して、7オクターブ分の各音のエネルギーを算出する方法について説明する。
図9は、音程と時間による各音(C1乃至B7)のエネルギーの分布の例を示す図である。
図9で示される例において、横軸方向は時間を示し、図中左から右方向に時間が進むことを示している。また、縦軸方向は音程を示し、図中下から上方向になるにつれて音程が高くなる(周波数が高くなる)ことを示す。
図中の黒で示される領域と白で示される領域とがあるが、黒で示される領域ほど、エネルギーが強いことを示し、図中の白で示される領域ほどエネルギーが弱くなることを示している。なお、図9の例では、説明を分かり易くするために、エネルギーの強さを黒と白の2色により表現しているが、実際には、さらに細かくエネルギーの強さの分布を表現するようにしてもよい。
図中横方向の6本の点線は、説明を分かり易くするために引かれた線であり、これらの点線により区切られている7つの区間のそれぞれが1オクターブ分を示し、すなわち、7つの区間により、O1乃至O7の7オクターブに分割されている。
例えば、図9で示される例において、図中下から1番目乃至3番目の区間であるO1乃至O3のそれぞれでは、各音のエネルギーは、とびとびに分布しているが、図中下から4番目乃至7番目の区間であるO4乃至O7のそれぞれでは、各音のエネルギーは、ほぼ全体的に分布していることになる。
ビート特徴量抽出部41は、ビートごとに7オクターブ分のエネルギーを算出する場合、図10に示すように、ビート特徴量を抽出するビートの時間範囲における信号を切り出し、その切り出した信号のエネルギーを時間により平均する。その結果、ビート特徴量抽出部41は、図10の右側のグラフで示すような、各音(C1乃至B7)のエネルギーを算出することができる。
図7のフローチャートに戻り、ステップS12において、ビート特徴量抽出部41は、算出された各音のエネルギーに重み付けをする。例えば、ステップS12において、ビート特徴量抽出部41は、図8に示すように、算出された7オクターブ分の各音(C1乃至B7)のエネルギーに、それぞれ重み付けをする。
ここで、各音(C1乃至B7)のエネルギーに重み付けをする方法であるが、ビート特徴量抽出部41は、例えば、ガウス分布などにより重みを算出し、算出された重みを正規化することにより、各音(C1乃至B7)における重みを特定して、重み付けをする。
具体的には、ガウス分布による重みW(N)は、式(1)により算出される。
W(N)=Exp(−(N−Gm)×(N−Gm)/(2×Gv×Gv))・・・(1)
なお、式(1)において、Gmは、最も重みの高い音程を示し、Gvは、重みの広がりを示しており、それぞれ所定の値が設定される。また、Nは、音程の数を示し、すなわち、音程の数(例えば、図8の場合、C1乃至B7)だけガウス分布による重みW(N)が算出されることになる。そして、算出された重みW(N)は、正規化されることになる。
このように、各音(C1乃至B7)に対して、重み付けを行うことにより、例えば、高い周波数帯の音や低い周波数帯の音などの関係のない音を取り除くことができる。
図7のフローチャートに戻り、ステップS13において、ビート特徴量抽出部41は、ビート特徴量を抽出して、ビート特徴量抽出の処理は終了する。
例えば、ステップS13において、ビート特徴量抽出部41は、図8に示すように、重み付けがされたC1乃至B7の中から、C1,C2,C3,C4,C5,C6,C7を加算することにより、Cであるコードのエネルギーを抽出し、C#1,C#2,C#3,C#4,C#5,C#6,C#7を加算することにより、C#であるコードのエネルギーを抽出する。また、同様に、ビート特徴量抽出部41は、重み付けされたC1乃至B7の中から、D1乃至D7を加算することにより、Dであるコードのエネルギーを抽出し、D#1乃至D#7を加算することにより、D#であるコードのエネルギーを抽出し、E1乃至B7も同様に加算することにより、E乃至Bであるコードのそれぞれのエネルギーが抽出される。そして、ビート特徴量抽出部41は、図8に示すように、ビート特徴量として、C,C#,D,D#,E,F,F#,G,G#,A,A#,Bの12音分のエネルギーを抽出する。
すなわち、ビート特徴量抽出部41は、ステップS11乃至ステップS13の処理により、ビートごとに分割されている楽曲の波形のそれぞれの区間におけるビート特徴量を算出する。
なお、ビート特徴量抽出部41が抽出するビート特徴量は、上述した例に限らず、例えば、ステップS13の処理における加算の処理を行わずに、そのまま84(12×7)個のエネルギーを使用するなど、ビートごとに分割されている区間ごとの特徴量であればよい。
図4のフローチャートに戻り、ステップS3において、ビート特徴量除去部42は、ビート特徴量抽出部41から供給されるビート特徴量の位相成分を除去し、位相成分が除去されたビート特徴量を自己相関マップ生成部43に供給する。
例えば、ステップS3において、ビート特徴量除去部42は、ビートごとに分割されている楽曲の波形から、相関を算出する区間を特定する。ビート特徴量除去部42は、特定された区間における抽出されたビート特徴量に対して、離散フーリエ変換(DFT(Discrete Fourier Transform))を施すことにより、抽出されたビート特徴量の位相成分を除去する。
図11は、あるビート特徴量と、他のビート特徴量との相関について説明する図である。
図11で示される例において、ビートごとに分割されている楽曲の波形のそれぞれのビート特徴量を、それぞれ、楽曲の波形の下側のC,C#,D,D#,E,F,F#,G,G#,A,A#,Bである12音分のコード(図11の例では、C,Bのコード名のみを記載している)を示している12個の四角で表現している。
ある楽曲の波形においては、例えば、位置Xを含んでいる区間(のビート特徴量)と、位置Yを含んでいる区間(のビート特徴量)との相関(異なる2箇所の相関)を算出する場合、位置Xを含んでいる区間から時間方向に後ろとなる、図中左下がり斜線でハッチングされた4区間(4ビート)分のビート特徴量と、位置Yを含んでいる区間から時間方向に後ろとなる、図中右下がり斜め線でハッチングされた4区間(4ビート)分のビート特徴量との相関を算出する。
このとき、例えば、ビート特徴量除去部42は、相関を算出する、図中左下がり斜線および右下がり斜め線によりハッチングされた4区間分のビート特徴量のそれぞれに対して、離散フーリエ変換を施すことにより、それらのビート特徴量の位相成分を除去する。
すなわち、例えば、ビート特徴量除去部42は、図12に示すように、図11の左下がり斜線でハッチングされた4区間(4ビート)のビート特徴量に対して、離散フーリエ変換を施して位相成分を除去することにより、変換前に、48(12個×4区間)個あったビート特徴量を、25(12×4/2+1)個に減少させる。
同様に、例えば、ビート特徴量除去部42は、図11の右下がり斜線でハッチングされた4区間(4ビート)分のビート特徴量に対して、離散フーリエ変換を施して位相成分を除去することにより、ビート特徴量を、48個から25個に減少させる。
このとき、離散フーリエ変換により得られたビート特徴量(例えば、25個のビート特徴量)は、図13に示すように、例えば、“ドミソド”をキーCやキーD(キーCと比較してキーが2個上に上がっている)で演奏したときなどにおいて、CやDなどの調によらず一定となる。すなわち、転調のある楽曲において、離散フーリエ変換により得られたビート特徴量は、転調とは関係なく一定であるので、この25個のビート特徴量同士の相関を1度計算することにより、転調に対応した相関の計算を行うことができる。その結果、相関に関する演算量を減らすことができるので、より少ない演算量で、転調のある楽曲の波形を解析することができる。
なお、ビート特徴量の相関を算出する場合の区間であるが、上述した4区間(4ビート)に限らず、例えば、1,8,または10などであってもよく、また、その区間も、基準となる位置(例えば、図11のX,Y)から時間方向に後方とは限らず、前方や前後を含むようにしてもよい。すなわち、ビート特徴量の相関を算出する区間は、例えば、図11において、位置Xを含んでいる区間から前方3区間(3ビート)と、後方6区間(6ビート)の合計8区間(8ビート)のビート特徴量としてもよい。
また、上述した例において、ビート特徴量除去部42は、離散フーリエ変換により、ビート特徴量の位相成分を除去するとして説明したが、本発明はそれに限らず、ビート特徴量の位相成分を除去できる方法であればよい。
図4のフローチャートに戻り、ステップS4において、自己相関マップ生成部43は、ビート特徴量除去部42から供給される、位相成分が除去されたビート特徴量を基に、自己相関マップ生成の処理を行って、自己相関マップを生成する。
ここで、ステップS4における、自己相関マップ生成部43による、自己相関マップ生成の処理の詳細について、図14のフローチャートを参照して説明する。
ステップS21において、自己相関マップ生成部43は、ビート特徴量除去部42から供給される、図11に示すような、位置Xを含んでいる4区間(図中左下がり斜線でハッチングされた区間)の位相成分が除去されたビート特徴量と、位置Yを含んでいる4区間(図中右下がり斜線でハッチングされた区間)の位相成分が除去されたビート特徴量との相関を算出する。
換言すれば、自己相関マップ生成部43は、転調のある楽曲に対応するために、数ビート分のビート特徴量を離散フーリエ変換した結果のうち、ノルム成分のみを用いて相関を算出しているとも言える。
具体的には、ビート特徴量の相関は、例えば、式(2)により算出される。
Figure 0004465626
なお、式(2)において、例えば、Xは、図11の位置Xを含んでいる4区間(4ビート)の位相成分が除去されたビート特徴量を示し、Yは、図11の位置Yを含んでいる4区間(4ビート)の位相成分が除去されたビート特徴量を示す。
ステップS22において、自己相関マップ生成部43は、算出された各ビート間の相関に基づいて、自己相関マップを生成する。
図15は、自己相関マップ生成部43により生成される、自己相関マップの例を示す図である。
図15で示される自己相関マップの例において、水平方向の軸は、ある楽曲(の1曲中)の開始から終了までのビートを表しており、その時間の方向は、図中左から右に向かう方向とされている。また、垂直方向の軸は、水平方向の軸で示した楽曲と同一の楽曲(の1曲中)の開始から終了までのビートを表しており、その時間の方向は、図中上から下に向かう方向とされている。すなわち、水平方向の軸は、図中右に行くほど、その楽曲の終わりの方となり、垂直方向の軸は、図中下に行くほど、その楽曲の終わりの方となる。なお、水平方向の軸と、垂直方向の軸とは、同一の楽曲のビートを表しているので、その軸の長さは同一となっている。
また、図中の黒で示されている領域は、水平方向の軸と垂直方向の軸により特定される楽曲の各ビートの相関が高いことを示し、図中の白で示されている領域は、水平方向の軸と垂直方向の軸により特定される楽曲の各ビートの相関が小さいことを示す。なお、当然ながら、図中の正方形で示す自己相関マップの左上から右下に伸びる対角線は、水平方向の軸と垂直方向の軸により特定される楽曲のビートが同一となる箇所であるので、図中の黒い線(対角線)で示すように相関が高いことになる。
図15の自己相関マップの例は、例えば、式(2)により算出された、ビート特徴量の相関に基づいて、ビート間の相関の高い部分を黒で示し、ビート間の相関の小さい部分を白で表していることになる。すなわち、自己相関マップは、ある楽曲において同じフレーズとなる部分(相関のある部分)を、黒い線により表している図となる。
図4のフローチャートに戻り、ステップS5において、区間分割部44は、自己相関マップ生成部43から供給される自己相関マップを基に、楽曲の波形が同一のフレーズ(似ているフレーズ)を複数回繰り返している区間ごとに分割する(セグメンテーションする)。
具体的には、図16の例で示されるように、図15の自己相関マップの例において、上から1番目の点線Aで囲まれる領域では、ほぼ同様の(似ている)模様となる右下斜め線が4回出現しており、その出現している区間を区間Aとし、上から2番目の点線Cで囲まれる領域では、ほぼ同様の模様となる右下斜め線が2回出現しており、その出現している区間を区間Cとする。また、同様に、上から3番目の点線Bで囲まれる領域では、ほぼ同様の模様となる右下斜め線が2回出現しており、その出現している区間を区間Bとし、上から4番目の点線Dで囲まれる領域では、ほぼ同様の模様となる右下斜め線が2回出現しており、その出現している区間を区間Dとする。さらに、図示はしないが、同様に、ほぼ同様の模様となる右下斜め線が出現している区間を、それぞれ、区間E,区間F,区間G,・・・とする。
このように、同一のフレーズを複数回繰り返している区間ごとに分割された図16の自己相関マップを、図16の水平方向の軸で示す楽曲のビートに合わせて表現すると、図17のように表現することができる。すなわち、図17は、似ているフレーズとなる区間ごとに分割された楽曲(の波形)を示す。
図17において、楽曲は、図16で分割した区間に対応して、A,B,C,D,E,B,B、C,・・・である区間の順に、それぞれに分割されている。なお、その時間の方向は、図中左から右に向かう方向となり、それぞれの区間においては、より長い区間の方が、その区間が長い時間再生されることを示し、逆に、より短い区間の方が、その区間が短い時間再生されることを示している。
図4のフローチャートに戻り、ステップS6において、音楽特徴量抽出部45は、同一の(似ている)フレーズごとに分割されたそれぞれの区間(の楽曲の波形)から、音楽特徴量を抽出し、抽出した音楽特徴量をサビ識別部46に供給する。
ここで、音楽特徴量抽出部45により抽出される音楽特徴量は、例えば、音量、音源に関する情報、ある周波数帯の利得、周波数のバランス、音の多さ、ドラムやベースなどのリズム楽器の割合、または、ボーカルが存在するかなどの音楽的な特徴量となる。
図18は、楽曲の波形の分割された区間ごとに抽出される音楽特徴量について説明する図である。
図18に示される分割された区間は、図17と同様に、図16の自己相関マップを分割した区間に対応して分割されており(A,B,C,D,E,B,B,C,・・・である区間の順に、それぞれに分割されている)、音楽特徴量抽出部45は、それらの分割されている区間ごとに、それぞれ、例えば、音量などの音楽特徴量を抽出する。
図4のフローチャートに戻り、また、ステップS6において、音楽特徴量抽出部45は、同一の(似ている)フレーズごとに分割されたそれぞれの区間(の楽曲の波形)から、音楽特徴量以外のその他の特徴量を抽出し、抽出したその他の特徴量をサビ識別部46に供給する。
ここで、音楽特徴量抽出部45により抽出されるその他の特徴量は、例えば、分割されたある区間の長さ、1曲中にある区間が何回出現するかの回数、または、ある区間が繰り返される回数などの特徴量となる。
図19は、楽曲の分割された区間ごとに抽出される、音楽特徴量以外のその他の特徴量について説明する図である。
図19で示される例において、音楽特徴量抽出部45は、その他の特徴量として、区間Bの長さなどのセグメントの長さ(ビート単位)、1曲中に区間Bが何回出現するかを表している1曲中での同じセグメントの出現回数(繰り返し回数)、区間Bが繰り返されている回数を表している連続繰り返し回数などを抽出する。
また、その他の特徴量は、図19を参照して説明した以外でも、例えば、1曲中のセグメントの相対位置(例えば、5分の曲において、あるセグメントが1分から始まる場合は、1/5=0.2)、または直前または直後に出現するセグメントのバリエーションの多さなどであってもよい。
なお、詳細は後述するが、音楽特徴量およびその他の特徴量を、より多く抽出することにより、例えば、サビ識別部46は、楽曲の曲構造を識別する精度をより向上させることができる。
なお、音楽特徴量抽出部45は、同一の(似ている)フレーズごとに分割されたそれぞれの区間(の楽曲の波形)から、音楽特徴量またはその他の特徴量のうち、いずれか一方を抽出し、抽出したいずれか一方の特徴量をサビ識別部46に供給するようにしてもよい。
図4のフローチャートに戻り、ステップS7において、サビ識別部46は、音楽特徴量抽出部45から供給される音楽特徴量またはその他の特徴量を基に、同一の(似ている)フレーズごとに分割されたそれぞれの区間(の楽曲の波形)から、サビである区間を識別して、サビ識別の処理は終了する。
例えば、ステップS7において、サビ識別部46は、図20で示すように、抽出された分割されたそれぞれの区間ごとの音楽特徴量(X1)とその他の特徴量(X2)を基に、それぞれの区間における“サビらしさ”(y(%))を算出することにより、サビである区間を識別する。
具体的には、例えば、サビ識別部46は、音楽特徴量(X1)、その他の特徴量(X2)と、正解となるサビデータ(例えば、ユーザにより設定される、ある楽曲のどこがサビとなるかを示すデータ)を用いて、サビを識別するための学習することにより、所定の関数(例えば、“サビらしさ”を演算する関数)を生成する。サビ識別部46は、音楽特徴量抽出部45から供給される音楽特徴量(X1)およびその他の特徴量(X2)を、その生成された所定の関数によって演算することにより、それぞれの区間における“サビらしさ”(y(%))を算出して、サビである区間を識別する。
なお、サビ識別部46が算出する“サビらしさ”(y(%))であるが、上述した方法に限らず、サビである確率を算出することのできる方法であればよい。
図21は、サビ識別部46による、サビである区間の識別の詳細について説明する図である。
図21で示される例において、楽曲(の波形)は、図17などと同様に、A,B,C,D,E,B,B,C,・・・である区間の順に、それぞれの区間が分割されている。サビ識別部46は、例えば、分割されたそれぞれの区間において、“区間Aのサビらしさ”が0%、“区間Bのサビらしさ”が60%、“区間Cのサビらしさ”が10%、“区間Dのサビらしさ”が30%、“区間Eのサビらしさ”が40%、“区間Bのサビらしさ”が70%、“区間Bのサビらしさ”が80%、“区間Cのサビらしさ”が15%、・・・を、それぞれ算出する。
そして、サビ識別部46は、例えば、算出された“サビらしさ”の平均が最も高い区間をサビである区間として識別する。例えば、サビ識別部46は、図21で示すように、区間Bのそれぞれの“サビらしさ”が、60%,70%,80%,・・・となり、“サビさしさ”の平均が最も高いので、区間Bをサビである区間として識別する。
以上のようにして、楽曲構造解析部31は、より少ない演算量で、転調のある楽曲の波形から、その楽曲の曲構成を識別することができる。
例えば、パーソナルコンピュータ1の、例えば、ハードディスクなどからなる記録部18に記録されている膨大な数の楽曲のデータより得られる楽曲の波形から、より少ない演算量で、その楽曲の曲構成からサビである区間を識別することにより、楽曲を選択するときに、曲の頭から再生させるのではなく、サビのみを再生することができる。その結果、ユーザは、例えば、曲の一番盛り上がるサビの部分を視聴して、所望の楽曲を検索したりすることができる。
また、より少ない演算量で、その楽曲の曲構成からサビである区間を識別することができるので、例えば、容量が少ない記録媒体に、楽曲のサビの区間のみを切り出して記録させることで、より多くの楽曲のデータを記録することができる。
なお、上述した例においては、楽曲の波形から、曲構成として“サビ”を識別するとして説明したが、本発明はそれに限定されず、“サビ”の代わりに、例えば、“イントロ”、“間奏”、“Aメロ”、“Bメロ”などを識別するようにしてもよい。
ところで、自己相関マップ生成部43による、自己相関マップの生成の処理であるが、上述した処理(図14の自己相関マップ生成の処理)に限定されず、位相成分が除去されたビート特徴量を基に、自己相関マップを生成することができる方法であればよい。例えば、図4のステップS5の処理における、区間分割部44によるセグメンテーションの処理において、“サビ”である区間を識別するだけでよい場合(すなわち、“Aメロ”,“Bメロ”である区間を識別する必要がない場合)、通常、“サビ”の長さとして考えることのできる長さである、所定のビート以上(例えば、20ビート以上など)の区間にのみ、分割することができればよいことになる。すなわち、自己相関マップからは、所定のビート以上の長さの繰り返しのみが検出することができればよいことになる。そこで、まず、片側(例えば、後述する図23の垂直方向の軸)において、所定のビートごとに自己相関マップを生成し、その後、相関が高い(すなわち、繰り返しの可能性がある)箇所の前後のみ、相関を計算することにより、さらに“サビ”を識別する処理の負荷を低減することができる。
したがって、次に、図22のフローチャートを参照して、“サビ”である区間を識別するだけでよい場合の、図4のステップS4における、自己相関マップ生成部43による、自己相関マップ生成の処理の詳細について説明する。
ステップS31において、自己相関マップ生成部43は、片側のNビートごとに、ビート間の相関を算出する。例えば、ステップS31において、自己相関マップ生成部43は、後述する図23の垂直方向の軸においてNビートごとに、ビート特徴量除去部42から供給される、図11に示すような、位置Xを含んでいる4区間(図中左下がり斜線でハッチングされた区間)の位相成分が除去されたビート特徴量と、位置Yを含んでいる4区間(図中右下がり斜線でハッチングされた区間)の位相成分が除去されたビート特徴量との相関を算出する。
具体的には、後述する図23の垂直方向の軸におけるNビートごとのビート特徴量の相関は、例えば、上述した、式(2)により算出される。
ステップS32において、自己相関マップ生成部43は、算出された各ビート間の相関に基づいて、自己相関マップを生成する。
図23は、自己相関マップ生成部43により生成される、片側のNビートごとの自己相関マップの例を示す図である。
図23で示される自己相関マップの例は、図15と同様に、水平方向の軸は、ある楽曲(の1曲中)の開始から終了までのビートを表し、垂直方向の軸は、水平方向の軸で示した楽曲と同一の楽曲(の1曲中)の開始から終了までのビートを表しており、水平方向の軸は、図中右に行くほど、その楽曲の終わりの方となり、垂直方向の軸は、図中下に行くほど、その楽曲の終わりの方となる。また、図中の黒で示されている領域は、水平方向の軸と垂直方向の軸により特定される楽曲の各ビートの相関が高いことを示し、図中の白で示されている領域は、水平方向の軸と垂直方向の軸により特定される楽曲の各ビートの相関が小さいことを示す。
図23の自己相関マップの例では、垂直方向の軸におけるNビートごとに、ビート特徴量の相関を算出しているので、相関の高い黒で示される領域は、垂直方向の軸におけるNビートごとにしか現れないことになる。逆に言えば、図23の自己相関マップの例では、あるNビートと、その次のNビートとの間では、ビート特徴量の相関を算出していないので、必ず白い領域で示されることになる。
すなわち、図23の自己相関マップの例は、黒い点で示される箇所では、位相成分の除去されたビート特徴量同士の相関が高いことになる。
なお、上述したように、図23の自己相関マップにおいては、通常、“サビ”として考えられる長さが、例えば、20ビート以上である場合、ユーザは、予め、N=20(ビート)を設定しておくことになる。
図22のフローチャートに戻り、ステップS33において、自己相関マップ生成部43は、生成された自己相関マップにおける、相関のある箇所から前方に相関を算出する。
図24は、片側のNビートごとの自己相関マップの例を示す図である。
図24で示される自己相関マップの例の軸は、図23の自己相関マップの例と同様であるので、その説明は省略する。
図24で示される自己相関マップの例は、図23の自己相関マップの例において黒い点で示される箇所から、前方にNビートの相関と、後述する後方にNビートの相関を算出して、相関の高い領域を黒で示し、相関の小さい領域を白で示したときの図となる。
具体的には、例えば、自己相関マップ生成部43は、図23の自己相関マップの例において、垂直方向の軸における1番目のNビート上の黒い点で示される箇所から、図中の矢印a1で示す方向に、Nビートの相関を算出することにより、上述した、図15の自己相関マップの例と同様に、図24の自己相関マップを生成することになる。
図22のフローチャートに戻り、ステップS34において、自己相関マップ生成部43は、生成された自己相関マップにおける、相関のある箇所から後方に相関を算出する。
具体的には、例えば、自己相関マップ生成部43は、図23の自己相関マップの例において、垂直方向の軸における2番目のNビート上の黒い点で示される箇所から、図中の矢印a2で示す方向に、Nビートの相関を算出することにより、上述した、図15の自己相関マップの例と同様に、図24の自己相関マップを生成することになる。
すなわち、図24で示すように、自己相関マップ生成部43は、Nビートごとにビート特徴量の相関を算出し、算出した相関の高かった箇所の前後の最大Nビートを、高い相関の続く範囲でのみ相関を計算し続けることで、自己相関マップを生成する。
このように、まず、片側(例えば、図23の垂直方向の軸)において、所定のビートごとに自己相関マップ(図23の自己相関マップ)を生成し、その後、相関が高い箇所の前後のみ、相関を計算して自己相関マップ(図24の自己相関マップ)を生成することにより、さらにサビ識別の処理の負荷を低減し、高速にサビ識別の処理を行うことができる。
ところで、上述した、ステップS3の処理において、ビート特徴量除去部42は、ビート特徴量抽出部41から供給されるビート特徴量をシャッフルしてから、シャッフルされたビート特徴量から、位相成分を除去するようにしてもよい。
図25は、ビート特徴量のシャッフルについて説明する図である。
図25で示される例において、図中の4つの四角は、図12などと同様に、ビートごとに分割されている楽曲の波形のビート特徴量を表しており、4つの四角は、それぞれ、12個の四角で表している、C,C#,D,D#,E,F,F#,G,G#,A,A#,Bである12音分のコード(図25の例では、C,Bのコード名のみを記載している)からなる。
例えば、ビート特徴量除去部42は、この4つの四角を、図中左から右方向に、最初のビート、2番目、3番目、4番目と称する場合、2番目と3番目とをシャッフルしてから、シャッフルされたビート特徴量に対して、離散フーリエ変換などを施すことにより、抽出されたビート特徴量の位相成分を除去する。
このように、ビート特徴量をシャッフルすることで、自己相関マップ(サビなどの曲構成を識別する処理)の精度を上げることができる。
なお、上述した例においては、図25の2番目と3番目の四角をシャッフルするとして説明したが、本発明においてはそれに限らず、例えば、1番目乃至4番目の四角のそれぞれをシャッフルするようにしてもよい。
また、例えば、自己相関マップ(サビなどの曲構成を識別する処理)の精度を上げるために、離散フーリエ変換などにより、ビート特徴量の位相成分を除去してから、各ビートの相関を算出した後に、自己相関マップの片方(例えば、図15の水平方向の軸または垂直方向の軸)のビート特徴量を11回シフトさせながら、再度相関を算出するようにしてもよい。
図26は、ビート特徴量のシフトについて説明する図である。
図26で示される例においては、図中左から1番目の四角(以下、1番目の四角と称し、同様に、2番目の四角、3番目の四角、・・・、12番目の四角と称する)は、図12などと同様に、ビートごとに分割されている楽曲の波形のビート特徴量を表しており、さらにその四角は、その四角の中の12個の四角で表している、C,C#,D,D#,E,F,F#,G,G#,A,A#,Bである12音分のコードからなる。
例えば、まず、ビート特徴量除去部42は、1番目の四角で表すビート特徴量に対して、離散フーリエ変換などを施すことにより、ビート特徴量の位相成分を除去する。自己相関マップ生成部43は、位相成分が除去された1番目の四角を基に、ビート特徴量の相関を算出する。
次に、1番目の四角から、12音分のコードを図中下方向に1つシフトさせることにより、ビート特徴量は、2番目の四角で表すように、図中下から、C#,D,D#,E,F,F#,G,G#,A,A#,B,Cの順にシフトすることになる。
このとき、例えば、ビート特徴量除去部42は、2番目の四角で表すビート特徴量に対して、離散フーリエ変換などを施すことにより、ビート特徴量の位相成分を除去する。自己相関マップ生成部43は、位相成分が除去された2番目の四角を基に、ビート特徴量の相関を算出する。
同様に、ビート特徴量の12音分のコードを1つずつ順に下方向にシフトさせることにより、例えば、ビート特徴量除去部42は、3番目乃至11番目の四角(図示せず)で表すビート特徴量に対して、離散フーリエ変換などを施すことにより、ビート特徴量の位相成分を除去し、自己相関マップ生成部43は、位相成分が除去された3番目乃至11番目の四角を基に、ビート特徴量の相関を算出する。
そして最後に、11番目の四角から、12音分のコードを図中下方向に1つシフトさせることにより、12番目の四角(図中右から1番目の四角)で表すように、図中下から、B,C,C#,D,D#,E,F,F#,G,G#,A,A#の順にシフトすることになる。
このとき、例えば、ビート特徴量除去部42は、12番目の四角で表すビート特徴量に対して、離散フーリエ変換などを施すことにより、ビート特徴量の位相成分を除去する。自己相関マップ生成部43は、位相成分が除去された12番目の四角を基に、ビート特徴量の相関を算出する。
このように、ビート特徴量を11回シフトさせながら、相関を算出することにより、自己相関マップ生成部43は、より精度の高い自己相関マップを生成することができる。
なお、図26では、説明を分かり易くするために、1区間(1ビート)のビート特徴量のシフトについて説明したが、例えば、4区間(4ビート)などであっても、同様にビート特徴量をシフトさせることにより、自己相関マップの精度をさらに上げることができる。
ところで、本実施の形態では、ビートを検出する処理(図4のステップS1の処理)において、楽曲の波形(音声信号)から検出されるビート(テンポ、拍子、小節の先頭など)の検出精度を上げることで、例えば、セグメンテーションの処理(図4のステップS5の処理)を行う場合、分割される各区間の境界は小節の先頭としたほうがいいので、そのような小節の先頭を正確に求めることで、正確にセグメンテーションを行うことができる。そこで、次に、図27乃至図40を参照して、楽曲の波形からテンポ、拍子、小節の先頭(以下、ビートデータと称する)を検出する処理について説明する。
図27は、図2のパーソナルコンピュータ1のCPU11により実行されるソフトウェアの機能的構成の他の例を示すブロック図である。
なお、図27では、図3と同様の箇所には、同一の符号が付してあり、処理が同じ部分に関しては、その説明は繰り返しになるので省略する。すなわち、図27において、楽曲構造解析部31は、図3の楽曲構造解析部31と比較して、ビート検出部101が追加して設けられている。
ビート検出部101は、楽曲の波形からビートデータを検出する。例えば、ビート検出部101は、MP3やAACなどの方式で音声圧縮された音声信号より再生される楽曲の波形から、テンポ、拍子、または小節の先頭などのビートデータを検出する。
次に、図28に示されるように、楽曲の波形から、ビート、すなわち、拍のそれぞれの位置を検出するビート検出部101について説明する。図28において、“1:1,1:2,1:3,1:4,2:1,2:2,2:3,2:4,3:1,3:2,3:3,3:4,・・・”(この「1:1」などの数は、図中右下に記すように、「小節:拍」を表現している)のそれぞれの数に対する縦線は、楽曲の波形における拍の先頭のそれぞれの位置を示す。図28において、それぞれの数に対する縦線で示される位置から、その次の縦線の位置までの範囲は、楽曲の波形における拍の範囲を示す。
なお、隣接する2つの縦線の間で示される長さは、例えば、4分音符の長さを示し、テンポに相当する。また、“1:1”,“2:1”,“3:1”,・・・である数に対する縦線で示される位置は、小節の先頭を示す。
つまり、ビート検出部101は、図28に示すような音声信号による楽曲の波形から、図中の縦線で示す各拍や各小節の先頭、または図中隣接する2つの縦線の間で示される長さであるテンポなどを、ビートデータとして検出する。
図29は、ビート検出部101の構成の一例を示すブロック図である。ビート検出部101は、アタック情報抽出部111、基本ビート周期検出部112、テンポ決定部113、楽曲特徴量抽出部114、テンポ修正部115、ビート特徴量抽出部116、拍子決定部117、および小節先頭決定部118を含むようにして構成される。
アタック情報抽出部111は、楽曲の波形を示す音声信号から時系列のアタック情報を抽出する。ここで、時系列のアタック情報とは、人間にビートを感じさせる音量の変化を時間に沿ってデータ化したものである。図30で示されるように、アタック情報は、時間に対する、人間の感じる音量を示す音量感で表される。
例えば、アタック情報抽出部111は、それぞれの時刻における、音声信号による音声のレベルを示すアタック情報を音声信号から抽出する。
また、例えば、図31で示されるように、アタック情報抽出部111は、音声信号による音声を複数のオクターブの成分に分けて、さらにそれぞれのオクターブにおける12平均率のそれぞれの高さの12の音のエネルギーを求めることで、オクターブごとの12の音のそれぞれのエネルギーを示す12音解析による時間−音程データを求める。アタック情報抽出部111は、各時刻における、12の音と複数のオクターブとについて音のエネルギーを積算し、その結果をアタック情報とする。
また、例えば、アタック情報抽出部111は、音声信号による音声を複数のオクターブの成分に分けて、さらにそれぞれのオクターブにおける12平均率のそれぞれの高さの12の音の鳴り始めのタイミングを検出する。例えば、アタック情報抽出部111は、それぞれの音のエネルギーの時間方向の差分が予め定めた閾値より大きい場合、その音の鳴り始めであるとする。
そして、アタック情報抽出部111は、音の鳴り始めを1とし、それ以外を0として、その値を複数のオクターブのそれぞれの12の音について積算し、その結果をアタック情報とする。
図31において、丸は、音の鳴り始めの位置を示す。音の鳴り始めを1とし、それ以外を0として、これを積算してアタック情報を求めた場合、アタック情報は、複数のオクターブのそれぞれの12の音において、鳴り始めが多い場合には、大きい値となり、鳴り始めが少ない場合には、小さい値となる。
さらに、例えば、アタック情報抽出部111は、音声信号による音声を複数のオクターブの成分に分けて、さらにそれぞれのオクターブにおける12平均率のそれぞれの高さの12の音のエネルギーの変化を求める。例えば、音のエネルギーの変化は、音のエネルギーの時間方向の差分として計算される。アタック情報抽出部111は、各時刻における、音のエネルギーの変化を、複数のオクターブのそれぞれの12の音について積算し、その結果をアタック情報とする。
図29に戻り、アタック情報抽出部111は、このようなアタック情報を、基本ビート周期検出部112、テンポ修正部115、および拍子決定部117に供給する。
基本ビート周期検出部112は、コードの検出の対象となっている楽曲において、最も基本となっている音の長さを検出する。例えば、楽曲において最も基本となっている音は、4分音符、8分音符、または16分音符で表される音である。
以下、楽曲において、最も基本となる音の長さを基本ビート周期と称する。
基本ビート周期検出部112において、時系列の情報であるアタック情報を通常の波形と見立てて基本ピッチ(音程)抽出を行うことで基本ビート周期が求められる。
例えば、図32で示されるように、基本ビート周期検出部112は、時系列の情報であるアタック情報をショートタイムフーリエ変換(STFT(Short-Time Fourier Transform))する。アタック情報をショートタイムフーリエ変換することにより、周波数におけるエネルギーの強さを時系列に示す結果が得られる。
すなわち、基本ビート周期検出部112において、アタック情報の時間的な長さに対して十分に短い期間である窓の位置をアタック情報に対してずらしながら、その窓におけるアタック情報の部分をフーリエ変換し、そのフーリエ変換の結果を時系列に配置することで、それぞれの周波数におけるエネルギーの強さを時系列に示す結果が求められる。
ショートタイムフーリエ変換の結果、他の周波数のエネルギーに比較して強いエネルギーの周波数が、基本ビート周期の候補である周期として検出される。図32の下側において、濃度は、エネルギーの強さを示す。
基本ビート周期検出部112は、アタック情報のショートタイムフーリエ変換の結果検出された周期のうち最も優位のものを基本ビート周期とする。
すなわち、基本ビート周期検出部112は、アタック情報のショートタイムフーリエ変換の結果検出された周期のうちから、予め用意した重みである基本ビートらしさと、アタック情報のショートタイムフーリエ変換の結果とを照らし合わせて、基本ビートらしさの高い周期を基本ビート周期とする。
より具体的には、基本ビート周期検出部112は、予め定めた周波数方向の重みである基本ビートらしさで、アタック情報のショートタイムフーリエ変換の結果得られた周波数ごとのエネルギーを重み付けして、重み付けにより得られた値のうち最も大きい値が得られた周期を基本ビート周期とする。
周波数方向の重みである基本ビートらしさを用いることにより、基本ビート周期とはなり得ない極めて低い周波数の周期や極めて高い周波数の周期が、基本ビート周期とされることを防止することができる。
図29に戻り、基本ビート周期検出部112は、このように抽出した基本ビート周期をテンポ決定部113に供給する。
楽曲特徴量抽出部114は、音声信号に所定の信号処理を適用することにより、楽曲から所定の数の特徴量(以下、楽曲特徴量と称する)を抽出する。例えば、楽曲特徴量抽出部114は、音声信号を複数のオクターブの成分に分けて、さらにそれぞれのオクターブにおける12平均率のそれぞれの高さの12の音の信号を求めて、それぞれのオクターブにおけるそれぞれの12の音の信号に所定の信号処理を適用することにより、楽曲特徴量を抽出する。
例えば、楽曲特徴量抽出部114は、楽曲特徴量として、それぞれのオクターブにおけるそれぞれの12の音の信号の、単位時間当たりのピークの数を求める。
また、例えば、楽曲特徴量抽出部114は、楽曲特徴量として、それぞれのオクターブにおけるそれぞれの12の音の信号の、音程方向のエネルギーの分散を求める。
さらにまた、例えば、楽曲特徴量抽出部114は、楽曲特徴量として、それぞれのオクターブにおけるそれぞれの12の音の信号から、低域、中域、および高域のエネルギーのバランスを求める。
また、例えば、楽曲特徴量抽出部114は、楽曲特徴量として、それぞれのオクターブにおけるそれぞれの12の音の信号から、ステレオである音声信号の左右のチャンネルの信号の相関の大きさなどを求める。
楽曲特徴量抽出部114は、このように抽出した楽曲特徴量をテンポ決定部113に供給する。
テンポ決定部113は、楽曲特徴量とテンポとによる学習によって予め構成され、楽曲特徴量抽出部114から供給された楽曲特徴量から、テンポを推定する。以下、推定されたテンポを推定テンポと称する。
テンポ決定部113は、推定テンポと、基本ビート周期検出部112から供給された基本ビート周期とから、基本ビート周期の2のX乗倍(・・・1/8倍、1/4倍、1/2倍、1倍、2倍、4倍、8倍・・・)の中からテンポを決定する。例えば、楽曲の特徴量から回帰解析で推定された推定テンポに対して、推定テンポ×21/2と推定テンポ÷21/2との範囲に収まるように、基本ビート周期を2倍するかまたは1/2倍して得られた値がテンポとされる。
例えば、図33で示されるように、テンポ決定部113は、基本ビート周期検出部112から供給された基本ビート周期と、推定テンポ÷21/2で求められる周期とを比較して、推定テンポ÷21/2で求められる周期より基本ビート周期(図33の上側の白丸で示される基本ビート周期)が長い場合、基本ビート周期を1/2倍する。
テンポ決定部113は、基本ビート周期検出部112から供給された基本ビート周期と、推定テンポ×21/2で求められる周期とを比較して、推定テンポ×21/2で求められる周期より基本ビート周期(図33の下側の白丸で示される基本ビート周期)が短い場合、基本ビート周期を2倍する。
テンポ決定部113は、推定テンポ×21/2と推定テンポ÷21/2との範囲に収まるように、1/2倍したか若しくは2倍したか、または繰り返し1/2倍したか若しくは繰り返し2倍した基本ビート周期(図33の黒丸で示される基本ビート周期)をテンポとする。
なお、テンポ決定部113は、基本ビート周期が推定テンポ×21/2と推定テンポ÷21/2との範囲に収まる場合、そのままの基本ビート周期をテンポとする。
図29に戻り、テンポ決定部113は、このように決定したテンポをテンポ修正部115に供給する。
テンポ修正部115は、アタック情報抽出部111から供給されるアタック情報により、テンポ決定部113において決定されたテンポをより細かく修正する。
まず、テンポ修正部115は、ビートの位相を修正する。
すなわち、図34で示されるように、テンポ修正部115は、アタック情報に対して決定されたテンポの周期で、拍の範囲ごとに、楽曲全体にわたりアタック情報を足し合わせる。
例えば、テンポ修正部115は、楽曲全体にわたり、テンポの周期で決められる拍の範囲について、最初の拍の範囲乃至最後の拍の範囲のそれぞれにおける、最初のアタック情報のサンプルを足し合わせて、その結果を、拍の範囲の最初の合計値とする。次に、テンポ修正部115は、楽曲全体にわたり、テンポの周期で決められる拍の範囲について、最初の拍の範囲乃至最後の拍の範囲のそれぞれにおける、2番目のアタック情報のサンプルを足し合わせて、その結果を、拍の範囲の2番目の合計値とする。
同様に、テンポ修正部115は、楽曲全体にわたり、テンポの周期で決められる拍の範囲について、最初の拍の範囲乃至最後の拍の範囲のそれぞれにおける、3番目乃至最後のアタック情報のサンプルを、拍の範囲における順ごとに足し合わせて、その結果のそれぞれを、拍の範囲の3番目乃至最後の合計値とする。
そして、テンポ修正部115は、アタック情報に対するテンポの周期の位相をずらして、同様に、拍の範囲ごとに、楽曲全体にわたりアタック情報を足し合わせる。
テンポ修正部115は、アタック情報に対するテンポの周期の位相を、アタック情報に対するテンポの周期の位相をずらして得られた合計値のうち、最も大きい合計値の得られた位相に修正する。すなわち、テンポ修正部115は、拍の位置を、最も大きい合計値の得られた、アタック情報に対するテンポの周期の位置に修正する。
また、テンポ修正部115は、テンポを修正する。
すなわち、図35で示されるように、テンポ修正部115は、テンポの周期を、その周期に対して十分短い所定の長さだけ縮めるか、または伸ばして、その縮められるかまたは伸ばされたテンポの周期で、テンポの周期ごとに、楽曲全体にわたりアタック情報を足し合わせる。
この場合も、テンポ修正部115は、楽曲全体にわたり、テンポの周期で決められる拍の範囲について、最初の拍の範囲乃至最後の拍の範囲のそれぞれにおける、最初乃至最後のアタック情報のサンプルを、拍の範囲における順ごとに足し合わせて、その結果のそれぞれを、拍の範囲の最初乃至最後の合計値とする。
テンポ修正部115は、テンポの周期を所定の長さだけ縮めるか、または伸ばして、その縮められるかまたは伸ばされたテンポの周期ごとに、楽曲全体にわたりアタック情報を足し合わせて、拍の範囲の最初乃至最後の合計値を求める。
テンポ修正部115は、元の長さか、縮められるか、または伸ばされたテンポの周期のうち、最も大きい合計値の得られた長さにテンポの周期を修正する。
テンポ修正部115は、このようなビートの位相の修正とテンポの修正とを必要に応じて繰り返して、最終的なテンポを決定する。例えば、テンポ修正部115は、ビートの位相の修正と、テンポの修正とを、それぞれ2回など、予め決められた回数だけ繰り返して、最終的なテンポを決定する。
図29に戻り、テンポ修正部115は、最終的に決定されたテンポを示す拍データを、ビート特徴量抽出部116および小節先頭決定部118に供給する。
ビート特徴量抽出部116は、テンポ修正部115から供給される拍データに基づいて、セグメント(1拍)ごとに、音楽特徴量やコードなどの楽曲特徴量を抽出する。
例えば、ビート特徴量抽出部116は、図36に示される楽曲の波形から、図中縦線で分けられているビートごと(図36に示す例では12区間に分割されている)に、楽曲特徴量を抽出する。
なお、ビート特徴量抽出部116により抽出される楽曲特徴量は、例えば、上述した、楽曲特徴量抽出部114により抽出される楽曲特徴量と同様に、12音解析の結果により得られる信号に所定の信号処理を適用することで抽出される。
図29に戻り、ビート特徴量抽出部116は、このように抽出したビートごとの楽曲特徴量を小節先頭決定部118に供給する。
拍子決定部117は、アタック情報抽出部111から供給されるアタック情報に基づいて、例えば、4/4拍子、3/4拍子、6/8拍子などの拍子を決定する。
ここで、拍子の決定方法であるが、例えば、ショートタイムフーリエ変換を施したアタック情報の倍音構造から拍子を求めることができる。例えば、図37で示されるように、拍子決定部117は、基本ビート周期検出部112と同様に、時系列の情報であるアタック情報をショートタイムフーリエ変換する。これにより、周波数におけるエネルギーの強さを時系列に示す結果が得られる。
つまり、図37の例に示すように、アタック情報にショートタイムフーリエ変換を施すことで得られる結果により、ピークが現れた周波数が検出されるので、その周波数を利用して拍子を決定する。例えば、図中左側に示している4/4拍子において、8分音符、4分音符、2分音符、全音符のそれぞれの関係は、図中丸印で示すように、8分音符の周波数の半分が4分音符の周波数となり、図中三角印で示すように、4分音符の周波数の半分が2分音符の周波数となり、図中バツ印で示すように、2分音符の周波数の半分が全音符の周波数となる。言い換えれば、4分音符の周期は、8分音符の周期の2倍であり、2分音符の周期は、4分音符の周期の2倍であり、全音符の周期は、2分音符の2倍であるとも言える。
また、同様に、例えば、図中中央に示している3/4拍子において、4分音符、1小節、2小節のそれぞれの関係は、図中丸印で示すように、4分音符の周波数の1/3が1小節の周波数となり、図中バツ印で示すように、1小節の周波数の半分が2小節の周波数となる。
さらにまた、同様に、図中右側に示している6/8拍子において、8分音符、4分音符、付点4分音符、1小節のそれぞれの関係は、図中丸印で示すように、8分音符の周波数の半分が4分音符の周波数となり、図中バツ印で示すように、4分音符の周波数の2/3が付点4分音符の周波数となり、4分音符の周波数の1/3が1小節の周波数となる。
つまり、拍子決定部117は、ピークが現れた周波数におけるエネルギーの間隔のパターン、すなわち、ショートタイムフーリエ変換を施したアタック情報の倍音構造から、拍子を決定する。
図38は、拍子決定部117による、具体的な拍子の決定方法の例を説明する図である。
図38においては、図中左側に示すような、横軸方向を時間とし、縦軸方向を周波数とするグラフ(以下、時間−周波数グラフと称する)、時間−周波数グラフの右側に示すような、横軸方向をエネルギーとし、縦軸方向を周波数とするグラフ(以下、エネルギー−周波数グラフと称する)、エネルギー−周波数グラフの右側に示すような、横軸方向をエネルギーとし、縦軸方向をログ周波数とするグラフ(以下、エネルギー−ログ周波数グラフと称する)の3つのグラフが示されている。
図38において、まず、拍子決定部117は、アタック情報にショートタイムフーリエ変換を施すことにより得られる、時間−周波数グラフにおける周波数を時間方向に足し合わせることで、エネルギー−周波数グラフを得る。次に、拍子決定部117は、エネルギー−周波数グラフにおける周波数軸をログ周波数軸に変換して、エネルギー−ログ周波数グラフを得る。
そして、拍子決定部117は、エネルギー−ログ周波数グラフに示されるログ周波数ごとのエネルギーに対して、高速フーリエ変換(FFT(Fast Fourier Transform))を施すことにより得られるパワー成分である特徴量と、予め用意した拍子のパターンとを照らし合わせて、拍子を決定する。
図29に戻り、拍子決定部117は、このように決定した拍子を小節先頭決定部118に供給する。
小節先頭決定部118には、テンポ修正部115から拍データが供給され、ビート特徴量抽出部116からビートごとの楽曲特徴量が供給され、拍子決定部117から拍子が供給される。小節先頭決定部118は、それらの拍データ、ビートごとの特徴量、および拍子に基づいて、小節の先頭を決定する。
ここで、小節の先頭の決定方法であるが、例えば、小節の先頭では、その他の部分と比較して、コードが変化し易い、音楽的に安定したコード(例えば、いわゆるスリーコードなど)の出現確率が高い、音程がはっきり安定している、音量的にアクセントがあるなどといった特徴がある。
小節先頭決定部118は、これらの小節の先頭の特徴を利用して、各ビートについて小節の先頭らしさを推定する。なお、小節先頭決定部118は、例えば、各ビートの特徴量やコードなどによる学習によって予め構成され、拍データ、ビートごとの楽曲特徴量、および拍子から、小節の先頭らしさを推定する。
次に、図39の例に示されるように、小節先頭決定部118は、求めた小節の先頭らしさを、楽曲全体または特定の範囲において拍子の1小節あたりの音符の数ごと(例えば、4/4拍子なら4つごと、3/4拍子なら3つごと、6/8拍子なら6つごとなど)に足し合わせる。つまり、図39の例では、4/4拍子であるので4つごとに足し合わされる。より具体的には、1つ目のビート、5つ目のビート、9つ目のビート、・・・(以下、1/4拍目と称する)の小節の先頭らしさが足し合わされ、2つ目のビート、6つ目のビート、10個目のビート、・・・(以下、2/4拍目と称する)の小節の先頭らしさが足し合わされ、3つ目のビート、7つ目のビート、11個目のビート、・・・(以下、3/4拍目と称する)の小節の先頭らしさが足し合わされ、4つ目のビート、8つ目のビート、12個目のビート、・・・(以下、4/4拍目と称する)の小節の先頭らしさが足し合わされる。
そして、図40の例に示されるように、小節先頭決定部118は、4/4拍子であるので4つごとに足し合わされた小節の先頭らしさを比較して、最も小節の先頭らしさが高くなった箇所のビートを小節の先頭であると決定する。より具体的には、図40の例では、1/4拍目の小節の先頭らしさの値を足し合わせた合計の値が35.6、2/4拍目の小節の先頭らしさの値を足し合わせた合計の値が12.6、3/4拍目の小節の先頭らしさの値を足し合わせた合計の値が21.5、4/4拍目の小節の先頭らしさの値を足し合わせた合計の値が13.3となり、1/4拍目の合計の値が最も先頭らしさの値が高いので、小節先頭決定部118は、1/4拍目を小節の先頭であると決定する。
このように、ビート検出部101は、楽曲の波形(音声信号)から、テンポ、拍子、小節の先頭などのビートデータを検出し、出力する。つまり、ビート検出部101は、例えば、ビートを検出する処理(図4のステップS1の処理)で、上述した方法によりビートデータを求めることができるので、より正確にビートを検出することが可能となる。その結果、例えば、セグメンテーションの処理(図4のステップS5の処理)において、正確にセグメンテーションを行うことができ、ひいてはサビを識別する処理(図4のステップS7の処理)において、サビである区間をより正確に識別することが可能となる。
ここで、従来の手法と本発明の手法のそれぞれにより、転調のある楽曲の波形を解析した場合の演算量(乗加算回数)を比較する。なお、比較するときの条件を同じにするために、例えば、楽曲の長さを5分、テンポを120、相関計算に用いるビートの数を8ビートとしてそれぞれの演算量を比較する。
まず、従来の手法により転調のある楽曲の波形を解析した場合、相関を算出するための平均とノルムを算出するときの演算量a1は、以下の通りになる。
演算量a1=(ビートの数)×(8ビート分)×(12音)×(2(平均とノルム))=5×120×8×12×2=115,200(回)
また、相関を算出する場合の演算量a2は、以下の通りとなる。
演算量a2=(ビートの数)×(ビートの数/2+1)×(8ビート分)×(12音)×(12回シフト)=5×120×299×8×12×12=206,668,800(回)
すなわち、従来の手法の演算量Aは、以下の通りとなる。
演算量A=演算量a1+演算量a2=115,200+206,668,800=206,784,000(回)
次に、本発明の手法により転調のある楽曲の波形を解析した場合、離散フーリエ変換により位相成分を除去して、相関を算出するための平均とノルムを算出するときの演算量b1は、以下の通りになる。
演算量b1=(ビートの数)×((8ビート分)×(12音))2(離散フーリエ変換の計算)+(ビートの数)×(離散フーリエ変換後の特徴量)×(2(平均とノルム))=5×120×(8×12)2+5×120×47×2=5,529,600+56,400=5,586,000(回)
また、相関を算出する場合の演算量b2は、以下の通りとなる。
演算量b2=(ビートの数)×(ビートの数/2+1)×(離散フーリエ変換後の特徴量)=5×120×299×47=8,431,800(回)
すなわち、本発明の手法の演算量Bは、以下の通りとなる。
演算量B=演算量b1+演算量b2=5,586,000+8,431,800=14,017,800(回)
したがって、従来手法の演算量Aと本発明の手法の演算量Bとを比較した場合、206,784,000(回)と14,017,800(回)となるので、本発明の手法の演算量Bは、従来手法の演算量Aの1/14以下の演算量(乗加算回数)、実際には、離散フーリエ変換に高速なアルゴリズムを用いることにより、N2以下の乗加算回数により計算をすることができるので、より計算回数が少なくなり、より迅速に、自己相関マップを生成することができる。その結果、より迅速に、例えば、楽曲構造やサビの識別などの処理を行うことができる。
以上のように、本発明によれば、少ない演算量で、転調のある楽曲の波形を解析することができる。
また、本発明によれば、より少ない演算量で、転調のある楽曲の波形から、その楽曲の曲構成を識別することができる。
上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
この記録媒体は、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disk))を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、若しくは半導体メモリなどよりなる図2のリムーバブルメディア21により構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記録されている図2のROM12や記録部18などで構成される。
また、上述した一連の処理を実行させるプログラムは、必要に応じてルータ、モデムなどのインターフェースを介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を介してコンピュータにインストールされるようにしてもよい。
なお、本明細書において、記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
従来の楽曲の曲構造を解析する方法を説明する図である。 パーソナルコンピュータのハードウェアの構成の例を説明するブロック図である。 パーソナルコンピュータのCPUにより実行されるソフトウェアの機能的構成例を示すブロック図である。 楽曲構造解析部による、サビ抽出の処理について説明するフローチャートである。 楽曲の波形から検出されるビートの例を示す図である。 楽曲の波形のビートごとに抽出されるビート特徴量について説明する図である。 ビート特徴量抽出部による、ビート特徴量抽出の処理の詳細について説明するフローチャートである。 ビート特徴量抽出部による、ビート特徴量抽出の処理について説明する図である。 音程と時間による各音(C1乃至B7)のエネルギーの分布の例を示す図である。 7オクターブ分の各音のエネルギーを解析する方法について説明する図である。 あるビート特徴量と、他のビート特徴量との相関について説明する図である。 ビート特徴量を除去する処理について説明する図である。 ビート特徴量を除去する処理について説明する図である。 自己相関マップ生成部による、自己相関マップ生成の処理の詳細について説明するフローチャートである。 自己相関マップ生成部により生成される、自己相関マップの例を示す図である。 自己相関マップにおける区間の分割について説明する図である。 楽曲における区間の分割について説明する図である。 楽曲の波形の分割された区間ごとに抽出される音楽特徴量について説明する図である。 楽曲の分割された区間ごとに抽出される、音楽特徴量以外のその他の特徴量について説明する図である。 サビ識別部による、サビである区間の識別について説明する図である。 サビ識別部による、サビである区間の識別の詳細について説明する図である。 自己相関マップ生成部による、自己相関マップ生成の処理の詳細について説明するフローチャートである。 片側のNビートごとの自己相関マップの例を示す図である。 片側のNビートごとの自己相関マップの例を示す図である。 ビート特徴量のシャッフルについて説明する図である。 ビート特徴量のシフトについて説明する図である。 パーソナルコンピュータのCPUにより実行されるソフトウェアの機能的構成の他の例を示すブロック図である。 楽曲の波形から検出されるビートの例を示す図である。 ビート検出部の構成の一例を示すブロック図である。 アタック情報の抽出について説明する図である。 アタック情報の抽出について説明する図である。 基本ビート周期の検出について説明する図である。 テンポの決定について説明する図である。 テンポの修正について説明する図である。 テンポの修正について説明する図である。 楽曲特徴量の抽出について説明する図である。 拍子の決定について説明する図である。 拍子の決定について説明する図である。 小節の先頭の決定について説明する図である。 小節の先頭の決定について説明する図である。
符号の説明
1 パーソナルコンピュータ, 11 CPU, 12 ROM, 13 RAM, 16 入力部, 17 出力部, 18 記録部, 19 通信部, 20 ドライブ, 21 リムーバブルメディア, 31 楽曲構造解析部, 41 ビート特徴量抽出部, 42 ビート特徴量除去部, 43 自己相関マップ生成部, 44 区間分割部, 45 音楽特徴量抽出部, 46 サビ識別部, 101 ビート検出部, 111 アタック情報抽出部, 112 基本ビート周期検出部, 113 テンポ決定部, 114 楽曲特徴量抽出部, 115 テンポ修正部, 116 ビート特徴量抽出部, 117 拍子決定部, 118 小節先頭決定部

Claims (12)

  1. 転調のある楽曲の波形をビートごとに区切った第1の区間における、前記ビートに関係する第1の特徴量を抽出する第1の抽出手段と、
    抽出された前記第1の特徴量の周波数成分から位相成分を除去する除去手段と、
    位相成分が除去された前記第1の特徴量に基づいて、ある第1の区間と、他の第1の区間との相関を示す自己相関情報を生成する生成手段と
    を備える情報処理装置。
  2. 前記自己相関情報に基づいて、前記ビートを、複数の相関性の高いビートが繰り返されている第2の区間ごとに分割する分割手段と、
    分割された前記第2の区間における、前記楽曲の音楽的な特徴を示す第2の特徴量を抽出する第2の抽出手段と、
    前記第2の特徴量に基づいて、分割された前記第2の区間における前記楽曲の曲構成を識別する識別手段と
    を備える請求項1の情報処理装置。
  3. 前記除去手段は、離散フーリエ変換により、前記第1の特徴量の周波数成分から位相成分を除去する
    請求項1の情報処理装置。
  4. 前記識別手段は、前記曲構成として、サビである区間を識別する
    請求項2の情報処理装置。
  5. 前記第1の特徴量は、前記第1の区間における、所定のオクターブ分の各音のエネルギーである
    請求項1の情報処理装置。
  6. 前記第2の特徴量は、前記第2の区間における、音量、音源に関する情報、またはある周波数帯の利得である
    請求項2の情報処理装置。
  7. 前記第2の特徴量は、前記第2の区間の長さ、前記第2の区間が出現した回数、または前記第2の区間が連続して繰り返された回数である
    請求項6の情報処理装置。
  8. 前記生成手段は、位相成分が除去された前記第1の特徴量に基づいて、所定のビートごとに、ある第1の区間との相関を算出することにより、前記自己相関情報を生成する
    請求項4の情報処理装置。
  9. 前記除去手段は、シャッフルされた前記第1の特徴量の周波数成分から位相成分を除去する
    請求項1の情報処理装置。
  10. 前記除去手段は、前記各音のエネルギーをシフトさせてから、前記第1の特徴量の周波数成分から位相成分を除去する
    請求項5の情報処理装置。
  11. 転調のある楽曲の波形をビートごとに区切った区間における、前記ビートに関係する特徴量を抽出する抽出ステップと、
    抽出された前記特徴量の周波数成分から位相成分を除去する除去ステップと、
    位相成分が除去された前記特徴量に基づいて、ある区間と、他の区間との相関を示す自己相関情報を生成する生成ステップと
    を含む情報処理方法。
  12. 転調のある楽曲の波形をビートごとに区切った区間における、前記ビートに関係する特徴量を抽出する抽出ステップと、
    抽出された前記特徴量の周波数成分から位相成分を除去する除去ステップと、
    位相成分が除去された前記特徴量に基づいて、ある区間と、他の区間との相関を示す自己相関情報を生成する生成ステップと
    をコンピュータに実行させるプログラム。
JP2006278351A 2005-11-08 2006-10-12 情報処理装置および方法、並びにプログラム Expired - Fee Related JP4465626B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2006278351A JP4465626B2 (ja) 2005-11-08 2006-10-12 情報処理装置および方法、並びにプログラム
EP06823177.8A EP1947638B1 (en) 2005-11-08 2006-11-08 Information Processing Device and Method, and Program
US11/813,411 US8101845B2 (en) 2005-11-08 2006-11-08 Information processing apparatus, method, and program
PCT/JP2006/322273 WO2007055238A1 (ja) 2005-11-08 2006-11-08 情報処理装置および方法、並びにプログラム
CN2006800043354A CN101116134B (zh) 2005-11-08 2006-11-08 信息处理设备、方法及程序
KR1020077015580A KR20080065910A (ko) 2005-11-08 2006-11-08 정보처리장치 및 방법과 프로그램

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005323153 2005-11-08
JP2006278351A JP4465626B2 (ja) 2005-11-08 2006-10-12 情報処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2007156434A JP2007156434A (ja) 2007-06-21
JP4465626B2 true JP4465626B2 (ja) 2010-05-19

Family

ID=38023240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006278351A Expired - Fee Related JP4465626B2 (ja) 2005-11-08 2006-10-12 情報処理装置および方法、並びにプログラム

Country Status (6)

Country Link
US (1) US8101845B2 (ja)
EP (1) EP1947638B1 (ja)
JP (1) JP4465626B2 (ja)
KR (1) KR20080065910A (ja)
CN (1) CN101116134B (ja)
WO (1) WO2007055238A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7723601B2 (en) * 2007-03-22 2010-05-25 Qualcomm Incorporated Shared buffer management for processing audio files
JP4906565B2 (ja) * 2007-04-06 2012-03-28 アルパイン株式会社 メロディー推定方法及びメロディー推定装置
JP2009015119A (ja) * 2007-07-06 2009-01-22 Sanyo Electric Co Ltd サビ位置検出装置
JP4811433B2 (ja) 2007-09-05 2011-11-09 ソニー株式会社 画像選択装置、画像選択方法、およびプログラム
EP2088518A1 (en) * 2007-12-17 2009-08-12 Sony Corporation Method for music structure analysis
JP4973537B2 (ja) * 2008-02-19 2012-07-11 ヤマハ株式会社 音響処理装置およびプログラム
KR101424974B1 (ko) * 2008-03-17 2014-08-04 삼성전자주식회사 복수의 반복되는 부분들을 가진 음악 데이터의 첫 번째부분만을 재생하는 방법 및 장치
JP5463655B2 (ja) * 2008-11-21 2014-04-09 ソニー株式会社 情報処理装置、音声解析方法、及びプログラム
JP5206378B2 (ja) 2008-12-05 2013-06-12 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP5282548B2 (ja) * 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
US8878041B2 (en) * 2009-05-27 2014-11-04 Microsoft Corporation Detecting beat information using a diverse set of correlations
JP2012103603A (ja) 2010-11-12 2012-05-31 Sony Corp 情報処理装置、楽曲区間抽出方法、及びプログラム
WO2012091936A1 (en) * 2010-12-30 2012-07-05 Dolby Laboratories Licensing Corporation Scene change detection around a set of seed points in media data
JP5333517B2 (ja) * 2011-05-26 2013-11-06 ヤマハ株式会社 データ処理装置およびプログラム
EP2791935B1 (en) * 2011-12-12 2016-03-09 Dolby Laboratories Licensing Corporation Low complexity repetition detection in media data
JP2014006480A (ja) * 2012-06-27 2014-01-16 Sony Corp 情報処理装置、情報処理方法及びプログラム
JP6071274B2 (ja) * 2012-06-29 2017-02-01 Pioneer DJ株式会社 小節位置判定装置およびプログラム
JP2014010275A (ja) * 2012-06-29 2014-01-20 Sony Corp 情報処理装置、情報処理方法及びプログラム
CN102866645A (zh) * 2012-09-20 2013-01-09 胡云潇 一种基于音乐特征控制节拍动作的运动家具及其控制方法
EP2772904B1 (en) * 2013-02-27 2017-03-29 Yamaha Corporation Apparatus and method for detecting music chords and generation of accompaniment.
CN104217729A (zh) 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
GB201310861D0 (en) * 2013-06-18 2013-07-31 Nokia Corp Audio signal analysis
US9613605B2 (en) * 2013-11-14 2017-04-04 Tunesplice, Llc Method, device and system for automatically adjusting a duration of a song
US9501568B2 (en) * 2015-01-02 2016-11-22 Gracenote, Inc. Audio matching based on harmonogram
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) * 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
JP2018170678A (ja) * 2017-03-30 2018-11-01 株式会社ライブ・アース ライブ映像処理システム、ライブ映像処理方法及びプログラム
EP3428911B1 (en) * 2017-07-10 2021-03-31 Harman International Industries, Incorporated Device configurations and methods for generating drum patterns
JP6847237B2 (ja) * 2017-08-29 2021-03-24 AlphaTheta株式会社 楽曲解析装置および楽曲解析プログラム
CN108108457B (zh) * 2017-12-28 2020-11-03 广州市百果园信息技术有限公司 从音乐节拍点中提取大节拍信息的方法、存储介质和终端
US11749240B2 (en) * 2018-05-24 2023-09-05 Roland Corporation Beat timing generation device and method thereof
DE112019005201T5 (de) * 2018-10-19 2021-07-22 Sony Corporation Datenverarbeitungsvorrichtung, datenverarabeitungsverfahren unddatenverarbeitungsprogramm
GB2580937B (en) * 2019-01-31 2022-07-13 Sony Interactive Entertainment Europe Ltd Method and system for generating audio-visual content from video game footage
JP7318253B2 (ja) 2019-03-22 2023-08-01 ヤマハ株式会社 楽曲解析方法、楽曲解析装置およびプログラム
JP7298702B2 (ja) * 2019-09-27 2023-06-27 ヤマハ株式会社 音響信号解析方法、音響信号解析システムおよびプログラム
JP2022033579A (ja) * 2020-08-17 2022-03-02 ヤマハ株式会社 楽曲構造解析装置
CN112489681A (zh) * 2020-11-23 2021-03-12 瑞声新能源发展(常州)有限公司科教城分公司 节拍识别方法、装置及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5248845A (en) * 1992-03-20 1993-09-28 E-Mu Systems, Inc. Digital sampling instrument
JP3049989B2 (ja) * 1993-04-09 2000-06-05 ヤマハ株式会社 演奏情報分析装置および和音検出装置
US5986199A (en) * 1998-05-29 1999-11-16 Creative Technology, Ltd. Device for acoustic entry of musical data
US6787689B1 (en) * 1999-04-01 2004-09-07 Industrial Technology Research Institute Computer & Communication Research Laboratories Fast beat counter with stability enhancement
DE10123281C1 (de) 2001-05-14 2002-10-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion
DE10123366C1 (de) 2001-05-14 2002-08-08 Fraunhofer Ges Forschung Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
DE10157454B4 (de) 2001-11-23 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments
DE10232916B4 (de) 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
US7378586B2 (en) * 2002-10-01 2008-05-27 Yamaha Corporation Compressed data structure and apparatus and method related thereto
JP4243682B2 (ja) 2002-10-24 2009-03-25 独立行政法人産業技術総合研究所 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
WO2004038694A1 (ja) 2002-10-24 2004-05-06 National Institute Of Advanced Industrial Science And Technology 楽曲再生方法及び装置並びに音楽音響データ中のサビ区間検出方法
DE10313875B3 (de) 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
JP4650662B2 (ja) 2004-03-23 2011-03-16 ソニー株式会社 信号処理装置および信号処理方法、プログラム、並びに記録媒体
JP4649859B2 (ja) 2004-03-25 2011-03-16 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
US7026536B2 (en) * 2004-03-25 2006-04-11 Microsoft Corporation Beat analysis of musical signals
US7032742B2 (en) * 2004-04-02 2006-04-25 Hartness International, Inc. Differential drive spiral accumulator apparatus
DE102004028693B4 (de) 2004-06-14 2009-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE102004047068A1 (de) 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Gruppieren von zeitlichen Segmenten eines Musikstücks
DE102004049457B3 (de) 2004-10-11 2006-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
DE102004049478A1 (de) 2004-10-11 2006-04-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Glättung eines Melodieliniensegments
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
JP4949687B2 (ja) * 2006-01-25 2012-06-13 ソニー株式会社 ビート抽出装置及びビート抽出方法

Also Published As

Publication number Publication date
WO2007055238A1 (ja) 2007-05-18
CN101116134B (zh) 2011-01-19
KR20080065910A (ko) 2008-07-15
CN101116134A (zh) 2008-01-30
US8101845B2 (en) 2012-01-24
EP1947638A1 (en) 2008-07-23
US20090287323A1 (en) 2009-11-19
EP1947638B1 (en) 2014-04-16
EP1947638A4 (en) 2012-11-28
JP2007156434A (ja) 2007-06-21

Similar Documents

Publication Publication Date Title
JP4465626B2 (ja) 情報処理装置および方法、並びにプログラム
US7649137B2 (en) Signal processing apparatus and method, program, and recording medium
US7601907B2 (en) Signal processing apparatus and method, program, and recording medium
US9542917B2 (en) Method for extracting representative segments from music
JP5463655B2 (ja) 情報処理装置、音声解析方法、及びプログラム
US9040805B2 (en) Information processing apparatus, sound material capturing method, and program
JP4767691B2 (ja) テンポ検出装置、コード名検出装置及びプログラム
US20130112065A1 (en) Musical harmony generation from polyphonic audio signals
WO2007010637A1 (ja) テンポ検出装置、コード名検出装置及びプログラム
JP3789326B2 (ja) テンポ抽出装置、テンポ抽出方法、テンポ抽出プログラム及び記録媒体
JP6743425B2 (ja) 音信号処理方法および音信号処理装置
JP2012506061A (ja) デジタル音楽音響信号の分析方法
JP4722738B2 (ja) 楽曲分析方法及び楽曲分析装置
JP2017161572A (ja) 音信号処理方法および音信号処理装置
JP2010054535A (ja) コード名検出装置及びコード名検出用コンピュータ・プログラム
JP4695781B2 (ja) 音響信号の符号化方法
JP7224013B2 (ja) コード認識方法、コード認識プログラム、及びコード認識システム
Dittmar et al. Automatic music transcription with user interaction
Sauer Design and Evaluation of a Simple Chord Detection Algorithm
Michał Automatic detection and correction of detuned singing system for use with query-by-humming applications
JP2017161573A (ja) 音信号処理方法および音信号処理装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100128

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100210

R151 Written notification of patent or utility model registration

Ref document number: 4465626

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees