JP6017687B2 - オーディオ信号分析 - Google Patents

オーディオ信号分析 Download PDF

Info

Publication number
JP6017687B2
JP6017687B2 JP2015519368A JP2015519368A JP6017687B2 JP 6017687 B2 JP6017687 B2 JP 6017687B2 JP 2015519368 A JP2015519368 A JP 2015519368A JP 2015519368 A JP2015519368 A JP 2015519368A JP 6017687 B2 JP6017687 B2 JP 6017687B2
Authority
JP
Japan
Prior art keywords
accent
beat
signal
beat time
tempo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015519368A
Other languages
English (en)
Other versions
JP2015525895A (ja
Inventor
アンッティ・ヨハンネス エロネン
アンッティ・ヨハンネス エロネン
Original Assignee
ノキア テクノロジーズ オーユー
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー, ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2015525895A publication Critical patent/JP2015525895A/ja
Application granted granted Critical
Publication of JP6017687B2 publication Critical patent/JP6017687B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/021Indicator, i.e. non-screen output user interfacing, e.g. visual or tactile instrument status or guidance information using lights, LEDs, seven segments displays
    • G10H2220/081Beat indicator, e.g. marks or flashing LEDs to indicate tempo or beat positions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/021Indicator, i.e. non-screen output user interfacing, e.g. visual or tactile instrument status or guidance information using lights, LEDs, seven segments displays
    • G10H2220/086Beats per minute [bpm] indicator, i.e. displaying a tempo value, e.g. in words or as numerical value in beats per minute
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/015PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Description

本発明はオーディオ信号分析に関し、特に音楽拍子分析に関する。
発明の背景
音楽用語では、音楽拍子は音楽中の強勢すなわちアクセントの反復パターンを含む。音楽拍子は、小節パルスと、それぞれ最長と最短のパルス持続時間を意味するビートパルスとテータムパルスとを含むものとして記述することができる。
ビートパルスは、音楽の基本時間単位を与え、ビートパルスレート(テンポ)は、楽曲を聞きながらほとんどの人が床で足を踏み鳴らすであろうレートと考えられている。楽曲中のビートパルスの発生の特定、すなわちいわゆるビートトラッキングは、多くの実用的アプリケーションにおいて望ましい。そのようなアプリケーションには、参照トラックに類似した音楽を検索する音楽推薦アプリケーション、例えばプレイリスト中の楽曲間で途切れのないビートミックスによる移行が必要なディスクジョッキー(DJ)アプリケーション、自動ルーピング技術が含まれる。
ビートトラッキングシステム及び方法は、楽曲やその一部の中のビートの時間位置を含むビートシーケンスを生成する。
後述のある種の概念を理解するために、次の用語が有用である。
ピッチ:音符の基本周波数(f0)の生理的な相関物
ピッチクラスとしても知られるクロマ:共通ピッチクラスに属する整数オクターブ離れた音楽ピッチ。西洋音楽では、12のピッチクラスが用いられる。
ビート又はタクトゥス:音楽の基本時間単位であり、楽曲を聞きながらほとんどの人が床で足を踏み鳴らすであろうレートと考えることができる。この用語は1つのビートに属する音楽部分を指すときにも用いられる。
テンポ:ビート又はタクトゥスパルスのレートであり、通常はビート数毎分(BPM)単位で表される。
小節:ある持続時間内のあるビート数として定義される時間区分。例えば、4/4拍子の音楽では、各小節は4つのビートを含む。
アクセント(に基づく)音声分析:オーディオ信号を分析して音楽内のイベント及び/又は変化を検出する。例としては、これらには限られないが、個々のあらゆる音声イベントの開始、特に長ピッチ音の発音、音色の大きさの突然の変化、和声の変化がある。以下にさらに詳細を述べる。
人間は、音楽内の強勢が置かれた瞬間であるアクセントからパルスの規則的なパターンを推測することによって音楽拍子を知覚していると考えられている。音楽内の異なるイベントによりアクセントが生じる。例として、音色の大きさの変化、和声の変化、そして一般的にはすべての音声イベントの開始がある。特に、長ピッチ音の発音によりアクセントが生じる。自動テンポ、ビート、或はダウンビート推定器は、ある程度は人間による音楽拍子の知覚を模倣しようとするかもしれない。これには、音楽アクセントを測定し、1以上のパルスの周期を推定し、推定パルスの位相を求め、テンポに対応する韻律レベル又はその他の利用する韻律レベルを選択するステップが含まれる。アクセントは音楽内のイベントに関係しているため、アクセントに基づく音声分析と言えば、音楽内のイベント及び/又は変化の検出を意味する。そのような変化は、信号の音量、スペクトル、及び/又はピッチ成分に関係するかもしれない。例として、アクセントに基づく分析は、信号からスペクトルの変化を検出したり、信号から新規度又は発音検出関数を計算したり、信号から個々の発音を検出したり、例えばクロマ特性を用いて信号のピッチ及び/又は和声成分の変化を検出したりすることに関係するかもしれない。スペクトル変化検出を行う場合、様々な変換やフィルタバンク分解を用いることができる。例えば高速フーリエ変換、マルチレートフィルタバンク、或は基本周波数f0やピッチサリエンス推定器すら用いることができる。簡単な例として、信号上の短いフレーム内の周波数帯域群にわたって信号の短時間エネルギーを計算し、2つの隣接フレーム毎にその間のユークリッド距離等の差分を計算することによって、アクセント検出を行ってもよい。様々な音楽の種類について頑健性を向上させるため、多くの異なるアクセント信号分析方法が開発されてきた。
以下に記載するシステム及び方法は、次の文献に記載された背景知識に基づいており、これらの文献を参照によりここに援用する。
[1] Cemgil A. T. et al., "On tempo tracking: tempogram representation and Kalman filtering." J. New Music Research, 2001.
[2] Eronen, A. and Klapuri, A., "Music Tempo Estimation with k-NN regression," IEEE Trans. Audio, Speech and Language Processing, Vol. 18, No. 1, Jan 2010.
[3] Seppanen, Eronen, Hiipakka. "Joint Beat & Tatum Tracking from Music Signals", International Conference on Music Information Retrieval, ISMIR 2006 and Jarno Seppanen, Antti Eronen, Jarmo Hiipakka: Method, apparatus and computer program product for providing rhythm information from an audio signal. Nokia November 2009: US 7612275.
[4] Antti Eronen and Timo Kosonen, "Creating and sharing variations of a music file" - United States Patent Application 20070261537.
[5] Klapuri, A., Eronen, A., Astola, J., " Analysis of the meter of acoustic musical signals," IEEE Trans. Audio, Speech, and Language Processing, Vol. 14, No. 1, 2006.
[6] Jehan, Creating Music by Listening, PhD Thesis, MIT, 2005. http://web.media.mit.edu/~tristan/phd/pdf/Tristan_PhD_MIT.pdf
[7] D. Ellis, "Beat Tracking by Dynamic Programming", J. New Music Research, Special Issue on Beat and Tempo Extraction, vol. 36 no. 1, March 2007, pp. 51-60. (10pp) DOI: 10.1080/09298210701653344.
[8] A. Klapuri, "Multiple fundamental frequency estimation by summing harmonic amplitudes," in Proc. 7th Int. Conf. Music Inf. Retrieval (ISMIR-06), Victoria, Canada, 2006.
本発明の第1の態様によれば、
オーディオ信号中の音楽アクセントを表す第1のアクセント信号(a1)を生成するための第1のアクセント信号モジュールと、
前記オーディオ信号中の音楽アクセントを表す第2の異なるアクセント信号(a2)を生成するための第2のアクセント信号モジュールと、
前記第1のアクセント信号から第1のビート時間シーケンス(b1)を推定するための第1のビートトラッキングモジュールと、
前記第2のアクセント信号から第2のビート時間シーケンス(b2)を推定するための第2のビートトラッキングモジュールと、
前記第1及び第2のビート時間シーケンス(b1)(b2)のいずれが前記アクセント信号の一方又は両方の中のピークに最も近く対応しているかを特定するためのシーケンス選択器と
を含む装置が提供される。
この装置は、音楽信号中のビートの位置を特定するための、頑健かつ単純な計算によるシステム及び方法を提供する。特に、この装置は、電子音楽からクラシックやロック音楽に至る幅広い音楽スタイルに対応するビートトラッキングの頑健かつ正確な方法を提供する。特に、電子ダンス音楽はより正確に処理される。
前記第1のアクセント信号モジュールは、基本周波数(f0)サリエンス分析に基づいてクロマアクセント特性を抽出することによって前記第1のアクセント信号(a1)を生成するように構成されていてもよい。
前記装置は、前記オーディオ信号の推定テンポ(BPMest)を前記第1のアクセント信号(a1)を用いて生成するように構成されたテンポ推定器をさらに含んでいてもよい。
前記第1のビートトラッキングモジュールは、前記第1のアクセント信号(a1)及び前記推定テンポ(BPMest)を用いて前記第1のビート時間シーケンスを推定するように構成されていてもよい。
前記第2のアクセント信号モジュールは、前記オーディオ信号の帯域幅の所定のサブバンドを用いて前記第2のアクセント信号(a2)を生成するように構成されていてもよい。前記所定のサブバンドは、200Hz未満であってもよい。
前記第2のアクセント信号モジュールは、前記オーディオ信号のマルチレートフィルタバンク分解を実行し、前記フィルタの所定の1つからの出力を用いてアクセント信号を生成することによって前記第2のアクセント信号(a2)を生成するように構成されていてもよい。
前記装置は、前記推定テンポ(BPMest)の整数表現を取得するための手段をさらに含んでいてもよく、前記第2のビートトラッキングモジュールは、前記第2のアクセント信号(a2)及び前記整数表現を用いて前記第2のビート時間シーケンス(b2)を生成するように構成されていてもよい。
前記推定テンポ(BPMest)の前記整数表現は、四捨五入テンポ推定関数(round(BPMest))、テンポ推定天井関数(ceil(BPMest))、テンポ推定床関数(floor(BPMest))のいずれかを用いて計算されてもよい。
前記装置は、天井関数及び床関数を前記推定テンポ(BPMest)に対して実行してそれぞれ切り上げテンポ推定値(ceil(BPMest))及び切り下げテンポ推定値(floor(BPMest))を生成する手段をさらに含んでいてもよく、前記第2のビートトラッキングモジュールは、前記第2のアクセント信号(a2)及び前記切り上げ及び切り下げテンポ推定値の別々のものを用いて第2及び第3のビート時間シーケンス(b2)(b3)を生成するように構成されていてもよく、前記シーケンス選択器は、前記第1、第2、第3のビート時間シーケンスのいずれが前記アクセント信号の一方または両方の中のピークに最も近く対応しているかを特定するように構成されていてもよい。
前記第2のビートトラッキングモジュールは、前記切り上げ及び切り下げテンポ推定値のそれぞれについて、前記推定値を用いて初期ビート時間シーケンス(bt)を生成し、それを参照ビート時間シーケンス(bi)と比較し、所定の類似度アルゴリズムを用いて前記第2及び第3のビート時間シーケンスを生成するように構成されていてもよい。
前記第2のビートトラッキングモジュールにより用いられる前記所定の類似度アルゴリズムは、あるオフセット位置の範囲にわたって前記初期ビート時間シーケンス(bt)と前記参照ビート時間シーケンス(bi)とを比較して当該範囲内での最良マッチを特定することを含んでいてもよく、前記生成された第2/第3のビート時間シーケンスが、前記最良マッチをもたらした前記参照ビート時間シーケンス(bi)のオフセットバージョンを含むようにしてもよい。
前記参照ビート時間シーケンス(bi)は、一定のビート間隔を有していてもよい。前記参照ビート時間シーケンス(bi)は、Xを前記推定テンポの整数推定表現、nを整数とすると、t = 0, 1/ (X/60), 2/ (X/60) ........n/(Xt/60)として生成されてもよい。
前記アルゴリズムで用いられるオフセット位置の範囲は、Xを前記推定テンポの整数推定表現とすると、0と1.1/(X/60)との間であってもよい。前記アルゴリズムにおける比較に用いられる前記オフセット位置は、0.1/(BPMest/60)の刻み幅を有していてもよい。
前記シーケンス選択器は、前記ビート時間シーケンスのいずれが前記第2のアクセント信号中のピークに最も近く対応するかを特定するように構成されていてもよい。
前記シーケンス選択器は、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の値に依存する要約統計量又は要約値を計算し、最大要約統計量又は要約値をもたらすビート時間シーケンスを選択するように構成されていてもよい。
前記シーケンス選択器は、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の平均値を計算し、最大平均値をもたらすビート時間シーケンスを選択するように構成されていてもよい。
共通の内容のオーディオ信号をそれぞれ有する複数のビデオクリップを受信するための手段と、前記選択されたビートシーケンス中のビートを用いて前記ビデオクリップの利用可能な編集点を特定するためのビデオ編集モジュールとを含む、上記定義の何れかに記載の装置がさらに提供されてもよい。前記ビデオ編集モジュールはさらに、1以上の編集点で複数のビデオクリップを連結して連結ビデオクリップを生成するように構成されていてもよい。
本発明の第2の態様によれば、オーディオ信号中の音楽アクセントを表す第1のアクセント信号(a1)を生成することと、前記オーディオ信号中の音楽アクセントを表す第2の異なるアクセント信号(a2)を生成することと、前記第1のアクセント信号から第1のビート時間シーケンス(b1)を推定することと、前記第2のアクセント信号から第2のビート時間シーケンス(b2)を推定することと、前記第1及び第2のビート時間シーケンス(b1)(b2)のいずれが前記アクセント信号の一方又は両方の中のピークに最も近く対応しているかを特定することとを含む方法が提供される。
前記第1のアクセント信号(a1)は、基本周波数(f0)サリエンス分析に基づいてクロマアクセント特性を抽出することによって生成されてもよい。
前記方法は、前記オーディオ信号の推定テンポ(BPMest)を前記第1のアクセント信号(a1)を用いて生成することをさらに含んでいてもよい。
前記第1のビート時間シーケンスは、前記第1のアクセント信号(a1)及び前記推定テンポ(BPMest)を用いて生成されてもよい。
前記第2のアクセント信号(a2)は、前記オーディオ信号の帯域幅の所定のサブバンドを用いて生成されてもよい。
前記第2のアクセント信号(a2)は、200Hz未満の所定のサブバンドを用いて生成されてもよい。
前記第2のアクセント信号(a2)は、前記オーディオ信号のマルチレートフィルタバンク分解を実行し、前記フィルタの所定の1つからの出力を用いて生成されてもよい。
前記方法は、前記推定テンポ(BPMest)の整数表現を取得することと、前記第2のアクセント信号(a2)及び前記整数表現を用いて前記第2のビート時間シーケンス(b2)を生成することをさらに含んでいてもよい。
前記推定テンポ(BPMest)の前記整数表現が、四捨五入テンポ推定関数(round(BPMest))、テンポ推定天井関数(ceil(BPMest))、テンポ推定床関数(floor(BPMest))のいずれかを用いて計算されてもよい。
前記方法は、天井関数及び床関数を前記推定テンポ(BPMest)に対して実行してそれぞれ切り上げテンポ推定値(ceil(BPMest))及び切り下げテンポ推定値(floor(BPMest))を生成することと、前記第2のアクセント信号(a2)及び前記切り上げ及び切り下げテンポ推定値の別々のものを用いて第2及び第3のビート時間シーケンス(b2)(b3)を生成することと、前記第1、第2、第3のビート時間シーケンスのいずれが前記アクセント信号の一方または両方の中のピークに最も近く対応しているかを特定することとをさらに含んでいてもよい。前記切り上げ及び切り下げテンポ推定値のそれぞれについて、前記推定値を用いて初期ビート時間シーケンス(bt)を生成し、所定の類似度アルゴリズムを用いて前記第2及び第3のビート時間シーケンスを生成するために、前記初期ビート時間シーケンスを参照ビート時間シーケンス(bi)と比較してもよい。
前記所定の類似度アルゴリズムを用いた比較ステップは、あるオフセット位置の範囲にわたって前記初期ビート時間シーケンス(bt)と前記参照ビート時間シーケンス(bi)とを比較して当該範囲内での最良マッチを特定することを含んでいてもよく、前記生成された第2/第3のビート時間シーケンスが、前記最良マッチをもたらした前記参照ビート時間シーケンス(bi)のオフセットバージョンを含むようにしてもよい。
前記参照ビート時間シーケンス(bi)は、一定のビート間隔を有していてもよい。
前記参照ビート時間シーケンス(bi)は、Xを前記推定テンポの整数推定表現、nを整数とすると、t = 0, 1/ (X/60), 2/ (X/60) ........n/(X60)として生成されてもよい。
前記アルゴリズムで用いられるオフセット位置の範囲は、Xを前記推定テンポの整数推定表現とすると、0と1.1/(X/60)との間であってもよい。前記アルゴリズムにおける比較に用いられる前記オフセット位置は、0.1/(BPMest/60)の刻み幅を有していてもよい。
前記特定ステップは、前記ビート時間シーケンスのいずれが前記第2のアクセント信号中のピークに最も近く対応するかを特定することを含んでいてもよい。
前記特定ステップは、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の値に依存する要約統計量又は要約値を計算することと、最大要約統計量又は要約値をもたらすビート時間シーケンスを選択することとを含んでいてもよい。
前記特定ステップは、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の平均値を計算することと、最大平均値をもたらすビート時間シーケンスを選択することとを含んでいてもよい。
また、上記のビート特定方法を用いる方法であって、共通の内容のオーディオ信号をそれぞれ有する複数のビデオクリップを受信することと、前記選択されたビートシーケンス中のビートを用いて前記ビデオクリップの利用可能な編集点を特定することとを含む方法が提供されてもよい。この方法は、1以上の編集点で複数のビデオクリップを連結して連結ビデオクリップを生成することをさらに含んでいてもよい。
本発明の第3の態様によれば、コンピュータ装置により実行されると、上記定義の何れかに記載の方法を実行するように前記コンピュータ装置を制御する命令を含む、コンピュータプログラムが提供される。
本発明の第4の態様によれば、コンピュータ可読コードを記憶した不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読コードは、コンピュータ装置により実行されると、前記コンピュータ装置に、オーディオ信号中の音楽アクセントを表す第1のアクセント信号(a1)を生成することと、前記オーディオ信号中の音楽アクセントを表す第2の異なるアクセント信号(a2)を生成することと、前記第1のアクセント信号から第1のビート時間シーケンス(b1)を推定することと、前記第2のアクセント信号から第2のビート時間シーケンス(b2)を推定することと、前記第1及び第2のビート時間シーケンス(b1)(b2)のいずれが前記アクセント信号の一方又は両方の中のピークに最も近く対応しているかを特定することとを含む方法を実行させる、不揮発性コンピュータ可読記憶媒体が提供される。
本発明の第5の態様によれば、少なくとも1つのプロセッサと、コンピュータ可読コードを記憶した少なくとも1つのメモリとを有する装置であって、前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、オーディオ信号中の音楽アクセントを表す第1のアクセント信号(a1)を生成させ、前記オーディオ信号中の音楽アクセントを表す第2の異なるアクセント信号(a2)を生成させ、前記第1のアクセント信号から第1のビート時間シーケンス(b1)を推定させ、前記第2のアクセント信号から第2のビート時間シーケンス(b2)を推定させ、前記第1及び第2のビート時間シーケンス(b1)(b2)のいずれが前記アクセント信号の一方又は両方の中のピークに最も近く対応しているかを特定させる、装置が提供される。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、基本周波数(f0)サリエンス分析に基づいてクロマアクセント特性を抽出することによって前記第1のアクセント信号(a1)を生成させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、前記オーディオ信号の推定テンポ(BPMest)を前記第1のアクセント信号(a1)を用いて生成させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、前記第1のアクセント信号(a1)及び前記推定テンポ(BPMest)を用いて前記第1のビート時間シーケンスを生成させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、前記オーディオ信号の帯域幅の所定のサブバンドを用いて前記第2のアクセント信号(a2)を生成させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、200Hz未満の所定のサブバンドを用いて前記第2のアクセント信号(a2)を生成させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、前記オーディオ信号のマルチレートフィルタバンク分解を実行し、前記フィルタの所定の1つからの出力を用いて前記第2のアクセント信号(a2)を生成させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、前記推定テンポ(BPMest)の整数表現を取得させ、前記第2のアクセント信号(a2)及び前記整数表現を用いて前記第2のビート時間シーケンス(b2)を生成させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、前記推定テンポ(BPMest)の前記整数表現を、四捨五入テンポ推定関数(round(BPMest))、テンポ推定天井関数(ceil(BPMest))、テンポ推定床関数(floor(BPMest))のいずれかを用いて計算させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、天井関数及び床関数を前記推定テンポ(BPMest)に対して実行させてそれぞれ切り上げテンポ推定値(ceil(BPMest))及び切り下げテンポ推定値(floor(BPMest))を生成させ、前記第2のアクセント信号(a2)及び前記切り上げ及び切り下げテンポ推定値の別々のものを用いて第2及び第3のビート時間シーケンス(b2)(b3)を生成させ、前記第1、第2、第3のビート時間シーケンスのいずれが前記アクセント信号の一方または両方の中のピークに最も近く対応しているかを特定させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、前記切り上げ及び切り下げテンポ推定値のそれぞれについて、前記推定値を用いて初期ビート時間シーケンス(bt)を生成させ、所定の類似度アルゴリズムを用いて前記第2及び第3のビート時間シーケンスを生成するために、前記初期ビート時間シーケンスを参照ビート時間シーケンス(bi)と比較させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、あるオフセット位置の範囲にわたって前記初期ビート時間シーケンス(bt)と前記参照ビート時間シーケンス(bi)とを比較して当該範囲内での最良マッチを特定させ、前記生成された第2/第3のビート時間シーケンスが、前記最良マッチをもたらした前記参照ビート時間シーケンス(bi)のオフセットバージョンを含むようにさせてもよい。
前記参照ビート時間シーケンス(bi)は、一定のビート間隔を有していてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、Xを前記推定テンポの整数表現、nを整数とすると、前記参照ビート時間シーケンス(bi)を、t = 0, 1/ (X/60), 2/ (X/60) ........n/(X60)として生成させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、Xを前記推定テンポの整数表現とすると、0と1.1/(X/60)との間のオフセット位置の範囲を前記アルゴリズムで用いさせてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、前記アルゴリズムにおける比較に0.1/(BPMest/60)の刻み幅を有するオフセット位置を用いさせてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、前記ビート時間シーケンスのいずれが前記第2のアクセント信号中のピークに最も近く対応するかを特定させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の値に依存する要約統計量又は要約値を計算させ、最大要約統計量又は要約値をもたらすビート時間シーケンスを選択させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の値の平均値を計算させ、最大平均値をもたらすビート時間シーケンスを選択させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、共通の内容のオーディオ信号をそれぞれ有する複数のビデオクリップを受信させ、前記選択されたビートシーケンス中のビートを用いて前記ビデオクリップの利用可能な編集点を特定させてもよい。
前記コンピュータ可読コードは実行されると、前記少なくとも1つのプロセッサを制御して、1以上の編集点で複数のビデオクリップを連結して連結ビデオクリップを生成させてもよい。
本発明の実施形態を、添付図面を参照しつつ非限定的な例により以下に説明する。図面において、
本発明の実施形態に係る音楽分析サーバと複数の端末とを含むネットワークの模式図である。 図1に示す端末の1つの斜視図である。 図2に示す端末の構成要素の模式図である。 共通の音楽イベントで用いられた場合の図1の端末を示す模式図である。 図1に示す分析サーバの構成要素の模式図である。 図1に示す分析サーバにより実行される処理段階を示すブロック図である。 図6に示す処理段階の1サブ段階で実行される処理段階を示すブロック図である。 図6に示す処理段階で実行される3つの処理段階をより詳細に示すブロック図である。 第1のアクセント信号の計算方法の概要を示した図である。 文献[3]に記載された方法の一部、特に、マルチレートフィルタバンクによるオーディオ信号分解を用いた第2のアクセント信号(a2)の取得にかかわる部分を示した図である。 文献[3]に記載された方法の一部、特に、マルチレートフィルタバンクによるオーディオ信号分解を用いた第2のアクセント信号(a2)の取得にかかわる部分を示した図である。 文献[3]に記載された方法の一部、特に、マルチレートフィルタバンクによるオーディオ信号分解を用いた第2のアクセント信号(a2)の取得にかかわる部分を示した図である。
実施形態の詳細説明
以下に記載する実施形態は、音楽作品又はその一部におけるビートの時間位置を特定するための、音楽及びその音楽拍子の分析を主とする音声分析のためのシステム及び方法に関する。このプロセスは一般的にビートトラッキングとして知られている。上述の通り、ビートは、音楽推薦アルゴリズム、DJアプリケーション、自動ループ等の様々な実用アプリケーションで利用できる、音楽的に有意な点を表すと考えられている。以下に記載する特定の実施形態は、ビデオクリップに関連するオーディオトラック内で特定されたビートの位置をビデオアングル切り替え可能点として用いて自動的にビデオクリップをカットするビデオ編集システムに関する。
図1において、音楽分析サーバ500(以下「分析サーバ」)がネットワーク300に接続されていることが示されており、このネットワーク300は、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、或はインターネット等の任意のデータネットワークであってよい。分析サーバ500は、自動ビデオ編集のためのビートトラッキングを行うために、受信したビデオクリップに関連する音声を分析するように構成されている。この点については後に詳述する。
使用される外部端末100、102、104は、関連するオーディオトラックを有するビデオクリップをアップロードするために、ネットワーク300を介して分析サーバ500と通信する。本形態の場合、端末100、102、104は、ビデオデータをキャプチャ、記憶、ネットワーク300を介してアップロード及びダウンロードするための、ビデオカメラ及びオーディオキャプチャ(すなわちマイク)ハードウェア及びソフトウェアを含む。
図2において、前記端末の1つ端末100が示されているが、他の端末102、104も同様又は類似していると想定している。端末100の外側には、タッチパネルディスプレイ102と、ハードウェアキー104と、後ろ向きカメラ105と、スピーカ118と、ヘッドフォンポート120とが設けられている。
図3に、端末100の構成要素の模式図を示す。端末100は、制御部106と、表示部108及び触覚インターフェース部110とからなるタッチパネルディスプレイ102と、ハードウェアキー104と、カメラ132と、メモリ112と、RAM114と、スピーカ118と、ヘッドフォンポート120と、無線通信モジュール122と、アンテナ124と、バッテリー116とを有する。制御部106は、他の構成要素(バッテリー116を除く)の動作を制御するために、それらのそれぞれに接続されている。
メモリ112は、リードオンリーメモリ(ROM)、ハードディスクドライブ(HDD)、或はソリッドステートドライブ(SSD)等の不揮発性メモリであってもよい。メモリ112は、まずオペレーティングシステム126を記憶しており、またソフトウェアアプリケーション128を記憶していてもよい。RAM114は、データの一時記憶のために制御部106によって使用される。オペレーティングシステム126は、RAM114との協働により制御部106によって実行された場合に、端末の各ハードウェア要素の動作を制御するコードを含んでいてもよい。
制御部106は、任意の形態を取ってよい。例えば、1つのマイクロコントローラや、複数のマイクロコントローラや、1つのプロセッサや、複数のプロセッサであってもよい。
端末100は、携帯電話又はスマートフォン、携帯情報端末(PDA)、携帯メディアプレーヤー(PMP)、携帯コンピュータ、或はソフトウェアアプリケーションを実行してオーディオ出力を提供できる他の任意のデバイスであってもよい。いくつかの実施形態においては、端末100は、無線通信モジュール122及びアンテナ124を用いてセルラー通信を行ってもよい。無線通信モジュール122は、GSM(登録商標)、CDMA(Code Division Multiple Access)、UMTS(Universal Mobile Telecommunications System)、Bluetooth(登録商標)、IEEE 802.11(Wi-Fi)等のいくつかのプロトコルを用いて通信するように構成されていてもよい。
タッチパネルディスプレイ102の表示部108は、端末のユーザに対して画像や文字を表示するためのものであり、触覚インターフェース部110は、ユーザからタッチ入力を受け付けるためのものである。
メモリ112は、オペレーティングシステム126及びソフトウェアアプリケーション128を記憶するとともに、音楽及びビデオファイル等のマルチメディアファイルも記憶してもよい。ウェブブラウザ、ラジオ及び音楽プレーヤー、ゲーム、ユーティリティアプリケーション等、多様なソフトウェアアプリケーションを端末にインストールしてもよい。端末に記憶されたソフトウェアアプリケーションのいくつか又はすべてがオーディオ出力を提供してもよい。アプリケーションにより提供されるオーディオ信号は、端末の1つ又は複数のスピーカ118によって、或は、ヘッドフォン又はスピーカがヘッドフォンポート120に接続されている場合は、ヘッドフォンポート120に接続されたヘッドフォン又はスピーカによって、サウンドに変換されてもよい。
いくつかの実施形態において、端末100は、端末に記憶されていない外部ソフトウェアアプリケーションにも関連付けられていてもよい。これらのアプリケーションは、遠隔サーバデバイスに記憶されたアプリケーションであってもよく、部分的に又はすべて遠隔サーバデバイス上で実行されてもよい。これらのアプリケーションを、クラウドがホストするアプリケーションと呼んでもよい。端末100は、遠隔サーバデバイスに記憶されたソフトウェアアプリケーションを利用するため、遠隔サーバデバイスと通信可能であってもよい。これには、外部ソフトウェアアプリケーションにより提供されたオーディオ出力を受信することが含まれていてもよい。
いくつかの実施形態において、ハードウェアキー104は、専用の音量制御キー又はスイッチである。ハードウェアキーは例えば、2つの隣接するキー、1つのロッカースイッチ、或は回転式ダイアルを含んでいてもよい。いくつかの実施形態において、ハードウェアキー104は端末100の側部に位置している。
メモリ112に記憶された前記ソフトウェアアプリケーション128の1つは、関連するオーディオトラックを含むキャプチャされたビデオクリップを分析サーバ500にアップロードするように構成された専用アプリケーション(「アプリ」)である。
分析サーバ500は、端末100、102、104からビデオクリップを受信し、例えば音楽的に有意な点でクリップ同士をつなげるために、自動ビデオ処理及び編集のための関連する各オーディオトラックのビートトラッキングを行うように構成されている。分析サーバ500は、関連する各オーディオトラックのビートトラッキングを行う代わりに、1以上のビデオクリップのオーディオトラックの一部を組み合わせることにより得られた共通オーディオトラック内でビートトラッキングを行うように構成されていてもよい。
図4を参照して、以下に実用例を記載する。端末100、102、104がそれぞれ、ステージエリア1及びスピーカ3により表された音楽コンサートのイベントで使用されている様子が示されている。各端末100、102、104は、それぞれのビデオカメラを用いてイベントをキャプチャしていると想定している。端末100、102、104の位置が異なるため、それぞれのビデオクリップは異なるものになるであろうが、全端末が共通の時間の間キャプチャしているとすれば、オーディオトラックは共通のものになるであろう。
端末100、102、104のユーザはその後、上述のアプリを用いて又は当該端末が同期しているコンピュータから、ビデオクリップを分析サーバ500にアップロードする。同時に、ユーザは、イベントの記述を入力するか又はプルダウンメニューから登録済みイベントを選択することによりイベントを特定するように促される。その他の考えられる特定方法としては、例えば、端末100、102、104からの関連するGPSデータを用いてキャプチャ位置を特定することが挙げられる。
分析サーバ500において、端末100、102、104から受信したビデオクリップは、共通のイベントに関連するものとして特定される。そして、その後各ビデオクリップを分析することにより、自動ビデオ編集のための有用なビデオアングル切り替え点として用いられるビートを特定することができる。
図5において、分析サーバ500のハードウェア要素が示されている。これらには、制御部202、入力及び出力インターフェース204、メモリ206、及び受信したビデオおよびオーディオクリップを記憶するための大容量記憶装置208が含まれる。制御部202は、その他の構成要素の動作を制御するために、それらのそれぞれに接続されている。
メモリ206(及び大容量記憶装置208)は、リードオンリーメモリ(ROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等の不揮発性メモリであってもよい。メモリ206は、まずオペレーティングシステム210を記憶しており、またソフトウェアアプリケーション212を記憶していてもよい。RAM(図示略)は、データの一時記憶のために制御部202によって使用される。オペレーティングシステム210は、RAMとの協働により制御部202によって実行された場合に、各ハードウェア要素の動作を制御するコードを含んでいてもよい。
制御部202は、任意の形態を取ってよい。例えば、1つのマイクロコントローラや、複数のマイクロコントローラや、1つのプロセッサや、複数のプロセッサであってもよい。
ソフトウェアアプリケーション212は、関連するオーディオ信号を処理してビートトラッキングを行うことを含む、ビデオ処理を制御し実行するように構成されている。これに代えて、ソフトウェアではなくハードウェアレベルの実装又はハードウェアおよびソフトウェアの両方の組み合わせを用いてこの処理を実行することもできる。
ビートトラッキングプロセスを、図6を参照して説明する。
少なくとも概念的には、ステップ6.1及び6.6から始まる2つの処理経路があることが分かるであろう。各処理段階に割り当てられる参照番号は、処理の順番を示すものではない。いくつかの実装においては、高速実行を可能にするように処理経路が並列に実行されるかもしれない。大まかに言えば、3つのビート時間シーケンスが、入力されたオーディオ信号、特にオーディオ信号から導出されたアクセント信号から生成される。そして、選択段階において、3つのビート時間シーケンスのうちどれがアクセント信号の1つに最もよくマッチすなわちフィットするかを特定し、このシーケンスを、ビデオ処理アプリケーションにとどまらずビートトラッキングが有用でありうる任意のアプリケーションにとって、最も有用で正確なものと考える。
以下に、各処理段階について順に検討する。

〔第1の(クロマ)アクセント信号段階〕
この方法は、ステップ6.1及び6.2において、第1のアクセント信号(a1)を基本周波数(F0)サリエンス推定に基づいて計算することにより始められる。クロマアクセント信号であるこのアクセント信号(a1)は、参考文献[2]に記載されるようにして抽出される。クロマアクセント信号(a1)は、時間の関数として音楽的変化を表し、また、F0情報に基づいて抽出されるため、信号内の和声及びピッチの情報が強調されている。ただし、クロマアクセント信号を基本周波数(F0)サリエンス推定に基づいて計算する代わりに、その他のアクセント信号表現及び計算方法を用いることもできる。例えば、参考文献[5] や参考文献[7]に記載されたアクセント信号を利用することができる。
図9に、第1のアクセント信号の計算方法の概要を示す。第1のアクセント信号の計算方法においては、クロマ特性を用いる。クロマ特性の抽出の仕方には様々なものがあるが、例えば、高速フーリエ変換のビン強度を対応するピッチクラスに単純に加算する方法や、定Q変換を用いる方法がある。ここに記載する方法においては、マルチ基本周波数(F0)推定器を用いてクロマ特性を計算する。F0推定は、例えば参考文献[8]に提案された方法により行うことができる。この方法への入力は、44.1kHzのサンプリングレートでサンプルされ16ビットの分解能を有するものであってもよい。入力信号をある程度の重なりを持たせつつフレームに分けることによりフレーミングを施してもよい。ここに記載する実装においては、50%の重なりを持たせた93msのフレームを用いた。この方法においてはまず、信号フレームのスペクトルを白色化し、それから各F0候補の強度すなわちサリエンスを推定する。F0候補の強度は、その協和音の振幅の加重和として計算される。推定に使用する基本周波数の範囲は、80〜640Hzである。各フレームについてのF0推定ステップの出力は、基本周波数候補の強度のベクトルである。ここで、基本周波数は線形周波数スケール上で表現されている。音楽信号分析により合うように、基本周波数のサリエンスを音楽周波数スケール上に変換する。ここでは特に、1オクターブにつき36ビンに対応する、半音の三分の一に当たる分解能を有する周波数スケールを用いる。半音域の三分の一のそれぞれについて、システムはサリエンス値が最大の基本周波数成分を求めてそれだけを保持する。36次元のクロマベクトルxb(k)(kはフレームインデックス、b = 1, 2, …, b0はピッチクラスインデックス、b0 = 36)を得るために、オクターブ等価クラスを全ピッチ域にわたり合算する。平均値を減算し、kフレームの各クロマ係数の標準偏差で除算することにより、クロマベクトルの正規化行列:
Figure 0006017687
を得る。
次のステップは、正規化クロマ行列:
Figure 0006017687
を用いた音楽アクセントの推定である。このアクセント推定は参考文献[5]で提案された方法に似ているが、ここでは周波数帯に代えてピッチクラスを用いる。時間分解能を向上させるため、クロマ係数の時間曲線をまず整数因子で補間してもよい。ここでは因子8による補間を行った。サンプル間に0を加える単純な補間方法を用いてもよい。ここで用いたパラメータによれば、補間後に得られるサンプリングレートはf=172Hzである。この後、6次バターワースローパスフィルタ(LPF)を適用することにより平滑化ステップが実行される。このLPFのカットオフ周波数は、fLP=10Hzである。平滑化後の信号をz(n)で表す。次のステップは、微分計算と半波整流(HWR)を含む。
[式1]
Figure 0006017687
ここでHWR(x)=max(x,0)である。次のステップでは、z(n)の加重平均及びその半波整流微分値:
Figure 0006017687
が形成される。結果として次の信号が得られる。
[式2]
Figure 0006017687
式2において、因子:
Figure 0006017687
によりz(n)とその半波整流微分値とのバランスを制御している。ここに記載する実装においては、この値はρ=0.6である。本発明の一実施形態においては、帯域bを線形に平均化することにより、上記アクセント信号分析に基づいてアクセント信号a1を得る。このようなアクセント信号は、時間の中での音楽的強調すなわちアクセントの量を表している。
第1のビートトラッキング段階
ステップ6.3において、オーディオ信号のテンポ(以下「BPMest」)を、参考文献[2]に記載された方法を用いて推定する。テンポ推定の最初のステップは、周期性分析である。アクセント信号(a1)に対して周期性分析を行う。周期性推定には一般化自己相関関数(GACF)を用いる。信号の異なる時間位置における周期性推定を得るために、連続するフレームにおいてGACFを計算する。フレームの長さはWであり、隣接するフレーム間には16%の重なりがある。ウィンドウ機能は用いていない。m番目のフレームにおけるGACFへの入力ベクトルをamで表す。
[式3]
Figure 0006017687
ここでTは転置を表す。入力ベクトルは、その長さが2倍になるようにゼロでパディングされ、よってその長さは2Wになる。GACFは次のように定義されてもよい。
[式4]
γm(τ) = IDFT(|DFT(am)|p)
ここで、DFT及びIDFTはそれぞれ離散フーリエ変換及びその逆変換を表す。周波数領域圧縮量は、係数pを用いて制御する。周期(ラグ)τにおける周期性の強度はγm(τ)で表される。
他のGACF用周期性推定器として、例えば、オンセット間間隔ヒストグラミング、自己相関関数(ACF)、コムフィルタバンクがある。式4にp=2を設定すれば、従来のACFが得られる。パラメータpは、異なるアクセント特性に対して最適化する必要があるかもしれない。これは例えば、異なるpの値で試して周期性推定の正確性を評価することにより行ってもよい。正確性評価は例えば、テンポ情報を付与したデータのサブセットでテンポ推定の正確性を評価することにより行うことができる。最も正確性が高くなる値を、使用する値として選択してもよい。ここで用いるクロマアクセント特性については、例えば、p=0.65という値を用いることができる。この値は、用いられる上記アクセント特性に対するこの種の実験で、よい結果を生むことが分かっている。
周期性推定の後には、隣接するフレームからの周期性ベクトルのシーケンスが存在する。楽曲又は音楽の一部について1つの代表的テンポを得るために、時間上の周期性ベクトルの点ごとの中央値を計算してもよい。周期性ベクトル中央値を、γmed(τ)により表してもよい。さらに、周期性ベクトル中央値を正規化してトレンドを排除してもよい。
[式5]
Figure 0006017687
トレンドは、ラグが大きい場合にウィンドウが縮小することにより発生する。周期性ベクトルのサブレンジを、最終的な周期性ベクトルとして選択してもよい。サブレンジとして、例えば0.06〜2.2sの周期に対応するビンの範囲を取ってもよい。さらに、最終的な周期性ベクトルは、スカラー平均を取り除いて各周期性ベクトルのスカラー標準偏差を一定に正規化することにより正規化してもよい。正規化後の周期性ベクトルを、s(τ)で表す。時間上の周期性ベクトル中央値を取る代わりに、フレーム中の周期性ベクトルを出力して別々にテンポ推定を施すこともできる。
そして、周期性ベクトルs(τ)に基づいてテンポ推定を実行する。テンポ推定は、k最近傍回帰分析を用いて行われる。他のテンポ推定方法を用いてもよく、例えば、様々なテンポの以前の分布により重み付けされうる最大周期性値を求めることに基づく方法でもよい。
この周期性ベクトルの未知のテンポをTで表す。テンポ推定は、再サンプリングされたテストベクトルs(τ)の生成から始めてもよい。rは再サンプリング比を表す。再サンプリング動作は、テストベクトルを伸ばす又は縮めるために用いてもよく、この動作が結果を向上させることが判明しているケースもある。テンポの値は連続的であるため、このような再サンプリングにより、似たような形をした周期性ベクトルが訓練データから見つかる確率が上がる可能性がある。比rを用いて再サンプリングされたテストベクトルは、テンポT/rに対応するものになるだろう。適切な比の群としては、例えば0.87〜1.15の間で線形に等間隔な57の比でもよい。再サンプリングされたテストベクトルは、120BPMのテンポを有する音楽の抜粋部分について、104〜138BPMの範囲のテンポに対応する。
テンポ推定は、各訓練ベクトルt(τ)と再サンプリングされたテストベクトルs(τ)とのユークリッド距離の計算を含む。
[式6]
Figure 0006017687
式6において、m=1, ..., Mは、訓練ベクトルのインデックスである。各訓練インスタンスmについて、
最小距離d(m)=mind(m,r)
を記憶してもよい。また、最小距離
Figure 0006017687
につながる再サンプリング比を記憶してもよい。そして、d(m)のk個の最小値につながるk最近傍に基づいてテンポを推定してもよい。最近傍iに対応する参照すなわち注目テンポをTann(i)で表す。テストベクトルテンポの推定値を、
Figure 0006017687
として得る。
テンポ推定値は、最近傍テンポ推定値
Figure 0006017687
の平均値又は中央値として得ることができる。さらに、中央値の計算に重み付けを用いて、テストベクトルに最も近い訓練インスタンスにより大きい重みを与えてもよい。例えば、重みwiは次のように計算することができる。
[式7]
Figure 0006017687
ここで、i=1,・・・,kである。パラメータθを用いて重み付けの勾配を制御してもよい。例えば、θ=0.01という値を用いることができる。そして、テンポ推定値BPMestは、重みwiを用いて、テンポ推定値
Figure 0006017687
の重み付け中央値として計算することができる。
さらに図6を参照すると、ステップ6.4において、ステップ6.3で得られたBPMest及びステップ6.2で得られたクロマアクセント信号(a1)に基づいてビートトラッキングが実行される。この第1のビートトラッキング段階6.4の結果は、ビート時間インスタントを示す第1のビート時間シーケンス(b1)である。このために、ここでは参考文献[7]に記載されたものに似た動的計画法ルーチンを用いる。この動的計画法ルーチンでは、第1のクロマアクセント信号(a1)中のピークにマッチする第1のビート時間シーケンス(b1)を特定し、連続するビート間でビート周期を変えられるようにする。BPM推定値に基づいてビート時間を得る方法は他にもある。例えば、隠れマルコフモデル、カルマンフィルタ、或は様々なヒューリスティック手法を用いることができる。動的計画法ルーチンの利点は、潜在的なすべてのビートシーケンスを効果的に検索できることである。
例えば、ビートトラッキング段階6.4において、BPMestを求め、多くのビート時間が第1のアクセント信号(a1)中の大きい値に対応するようにビート時間シーケンスを求めようと試みる。参考文献[7]に示唆されるように、アクセント信号はまずガウス窓を用いて平滑化される。ガウス窓の半値幅がBPMestに対応するビート周期の1/32に等しくなるように設定してもよい。
平滑化の後、動的計画法ルーチンは、平滑化されたアクセント信号値(a1)に対して時間に沿って進められていく。時間インデックスをnで表す。各インデックスnについて、最良の先行ビート候補を求める。最良の先行ビートは、遷移スコア及び累積スコアの積を最大化することにより、過去のウィンドウの中で求められる。すなわち、このアルゴリズムは、
δ(n)=max1(ts(1)・cs(n+1))
を計算する(ts(1)は遷移スコア、cs(n+1)は累積スコア)。検索ウィンドウの範囲は、l = -round(-2P), …, -round(P/2)である(PはBPMestに対応するサンプルの周期)。遷移スコアは、次のように定義されてもよい。
[式9]
Figure 0006017687
ここで、l = -round(-2P), …, -round(P/2)であり、パラメータθ=8は、前のビート位置がビート周期Pから外れるにつれて遷移スコアが小さくなる傾斜の度合いを制御している。累積スコアは、
cs(n)=αδ(n)+(1-α) α1(n)
として記憶される。パラメータαは、過去のスコアとローカルマッチとのバランスを維持するために用いられる。その値はα=0.8である。このアルゴリズムではまた、最良の先行ビートのインデックスを、
Figure 0006017687
として記憶する。ここで、
Figure 0006017687
である。
音楽の抜粋部の末尾において、末尾から1ビート周期以内の最良累積スコアが選択され、そのスコアをもたらしたビートシーケンスB1全体を、記憶された先行ビートインデックスを用いてトレースバックする。最良累積スコアは、末尾から1ビート周期以内の累積スコア値の極大値の最大値として選択することができる。そのようなスコアが見つからない場合は、最良累積スコアは、閾値を超える最後の極大値として選択される。ここでの閾値は、累積スコアの極大値の累積スコア中央値の0.5倍である。
ステップ6.4で得られたビートシーケンスは、BPMestの更新に用いることができる。本発明のいくつかの実施形態においては、BPMestは、動的計画法ビートトラッキングステップから得られたビート時間に基づいて計算されたビート周期中央値に基づいて更新される。
ステップ6.3で生成されるBPMestの値は、最小BPMと最大BPMの間の連続的実数値であり、最小BPMと最大BPMは、出力されうる最小及び最大BPM値に対応する。この段階においては、BPMの最小値及び最大値は、k最近傍に基づくテンポ推定器の訓練データ中に存在する最小及び最大BPM値により制限される。

〔天井関数及び床関数を用いたBPMestの修正〕
電子音楽にはよく整数BPM設定が用いられる。この理解に基づき、ステップ6.5において、天井関数及び床関数をBPM est に適用する。既知のことであろうが、天井関数及び床関数はそれぞれ、上下直近の整数、すなわち、次の最小及び前の最大整数を与える。したがって、この段階6.5の結果は、floor(BPMest)及びceil(BPMest)で表される2組のデータになる。
floor(BPMest)及びceil(BPMest)の値は、第2の処理経路におけるBPM値として用いられ、そこでは次に記載する低音アクセント信号、すなわち、低周波数成分が支配的なアクセント信号に対してビートトラッキングが実行される。

〔マルチレートアクセント計算〕
ステップ6.6において、第2のアクセント信号(a2)が、参考文献[3]に記載されたアクセント信号分析方法を用いて生成される。第2のアクセント信号(a2)は、計算効率の良いマルチレートフィルタバンクによる信号分解に基づいている。F0サリエンスに基づくアクセント信号(a1)と比較して、第2のアクセント信号(a2)は、入力された音楽信号の打楽器及び/又は低周波成分により関係し、和声情報が強調されないように生成される。特に、ステップ6.7において、参考文献[3]に記載されるように、ステップ6.6で用いられた最低周波数バンドフィルタからのアクセント信号を選択して、第2のアクセント信号(a2)ではバスドラムの打撃やその他の低周波イベントが強調されるようにする。サブバンドの典型的な上限は187.5Hzであるが、より大まかな数字として200Hzを与えてもよい。これは、電子ダンス音楽はしばしばバスドラムによる安定したビートにより特徴づけられるという理解の結果である。
図10から12は、参考文献[3]に記載された方法の一部、特に、マルチレートフィルタバンクによるオーディオ信号分解を用いた第2のアクセント信号(a2)の取得にかかわる部分を示す。特に、このプロセスの使用について記載した米国特許7612275号も参照する。図10において、信号分析器の一部が示されており、ここには再サンプリング器222及びアクセントフィルタバンク226が含まれる。再サンプリング器222は、固定サンプリングレートでオーディオ信号220を再サンプリングする。固定サンプリングレートは、例えばアクセントフィルタバンク226の属性に基づいてあらかじめ定められていてもよい。オーディオ信号220が再サンプリング器222で再サンプリングされるので、任意のサンプリングレートを有するデータを分析器に供給してもよく、また、再サンプリング器222はアクセントフィルタバンク226での使用に適当な固定レート信号を生成するために必要な任意のアップサンプリングやダウンサンプリングを実行できるため、アクセントフィルタバンク226での使用に適当なサンプリングレートへの変換を行うことができる。再サンプリング器222の出力を、再サンプリングされたオーディオ入力と考えてもよい。よって、何かしらの音声分析を行う以前に、オーディオ信号220は再サンプリング器222により、例えば20〜30kHzの範囲から選ばれたサンプリングレートに変換される。一実施形態においては、24kHzによる実装例を用いる。この選ばれたサンプリングレートが望ましいのは、分析は特定の周波数域に対して行われるからである。分析の成功には忠実度の高さは必須ではないので、再サンプリングは、線形補間等の比較的低質のアルゴリズムで行うことができる。よって一般的に、任意の標準的な再サンプリング方法を問題なく適用することができる。
アクセントフィルタバンク226は再サンプリング器222と連通しており、再サンプリング器22から再サンプリングされたオーディオ入力224を受信する。アクセントフィルタバンク226は、再サンプリングされたオーディオ入力224を後続の分析に適当な形式に変換するための信号処理を実装している。アクセントフィルタバンク226は、再サンプリングされたオーディオ入力224を処理してサブバンドアクセント信号228を生成する。各サブバンドアクセント信号228は、再サンプリングされたオーディオ入力224の特定周波数域に対応する。よって、サブバンドアクセント信号228は、各サブバンドにおいて知覚されたアクセントの推定値を表している。サブバンドアクセント信号228は大きくダウンサンプリングされているため、オーディオ信号220の元の情報の多くはアクセントフィルタバンク226で失われる。なお、図10には4つのサブバンドアクセント信号228を示したが、任意の数のサブバンドアクセント信号228を用いることができる。ただしこの応用例においては、周波数が最も低いサブバンドアクセント信号を取得することのみに関心を置いている。
図11に、アクセントフィルタバンク226の実施形態例をより詳細に示す。ただし一般的には、アクセントフィルタバンク226は、入力データをダウンサンプリングできる任意の手段又はデバイスとして実現されてもよい。ここで用いるダウンサンプリングという用語は、データ圧縮を行うために、サンプリングされたデータをさらに処理しつつサンプリングレートを低くすることと定義される。よって、一実施形態例においては、そのようなデータ圧縮を行うために、間引きサブバンドフィルタバンク及びアクセント推定器として働くアクセントフィルタバンク226が用いられる。適当な間引きサブバンドフィルタバンクの例としては、下記のように直交ミラーフィルタがある。
図11に示すように、再サンプリングされたオーディオ信号224は、まずサブバンドフィルタバンク230によってサブバンドオーディオ信号232に分けられ、そして各帯域につき別々に、対応するパワー推定素子234によってサブバンドのパワーを示すパワー推定信号が計算される。または、絶対信号サンプル値に基づくレベル推定値を用いてもよい。そして、各帯域について、対応するアクセント計算素子236によってサブバンドアクセント信号228を計算してもよい。ビートトラッキングアルゴリズムの計算効率は、かなりの程度、アクセントフィルタバンク226におけるフロントエンド処理によって決定される。これは、オーディオ信号のサンプリングレートが比較的高いため、サンプル当りの処理の数が多くなくても、一秒当たりの処理の数は多くなるからである。したがって、この実施形態においては、サブバンドフィルタバンク230は、入力オーディオ信号を内部的にダウンサンプリング(すなわち間引き)しうるように実装される。さらに、パワー推定により、ある時間ウィンドウにわたる平均パワー推定値が与えられ、これによりもう一度ダウンサンプリングされた信号が出力される。
上述の通り、オーディオサブバンドの数は任意に変更してもよい。しかしながら、4つの定義された信号帯域を有する実施形態例を具体的に示したのは、十分に詳細を記載するためと、よい計算性能を発揮するからである。ここで記載している実施形態例において、入力サンプリングレートが24kHzだとすると、周波数帯域は例えば、0〜187.5Hz、187.5〜750Hz、750〜3000Hz、3000〜12,000Hzであってもよい。このような周波数帯域構成は、連続するフィルタリング及びダウンサンプリングフェーズにより実装することができ、そこで各段階においてサンプリングレートは4分の1に減らされる。例えば、図12において、サブバンドアクセント信号(a)を生成する段階では、24kHzから6kHzにダウンサンプリングされ、サブバンドアクセント信号(b)を生成する段階では、6kHzから1.5kHzにダウンサンプリングされ、サブバンドアクセント信号(c) を生成する段階では、1.5kHzから375Hzにダウンサンプリングされる。または、より極端なダウンサンプリングを実行してもよい。本実施形態においては、分析結果はいかなる方法でも音声信号に変換し直されることはないので、サブバンド信号の実際の質は重要ではない。したがって、音の韻律属性(metrical property)が保持される限りにおいて、ナイキスト理論により許容されるであろうよりも低いサンプリングレートにダウンサンプリングする際に発生しうるエイリアシングを考慮に入れることなく、信号をさらに間引きすることができる。
図12は、アクセントフィルタバンク226の一実施形態例をより詳細に示す。アクセントフィルタバンク226は、再サンプリングされたオーディオ信号224を、直交ミラーフィルタ(QMF)238を介した直交ミラーフィルタリングによって、7つの周波数帯域(この例では、12kHz、6kHz、3kHz、1.5kHz、750Hz、375Hz、125Hz)に分割する。QMF102からの7つの1オクターブサブバンド信号は、4つの2オクターブサブバンド信号(a)〜(d)に合成される。この実施形態例においては、2つの高周波側合成サブバンド信号(すなわち、(a)及び(b))が、それぞれ15及び3サンプル遅延され(それぞれz<-15 >及びz<-3>で)、サブバンド間の信号群遅延を等化する。パワー推定素子234及びアクセント計算素子236は、各サブバンドについてサブバンドアクセント信号228を生成する。
本応用例においては、信号内のバスドラムビート及び/又はその他の低周波イベントを表す最低周波数サブバンド信号のみを扱っている。出力前に、最低周波数サブバンドアクセント信号は、サンプルを最大サンプル値で除算することにより正規化することもできる。平均除去や分散正規化等のその他の正規化方法を適用することもできる。正規化された最低周波数サブバンドアクセント信号は、a2として出力される。

〔第2のビートトラッキング段階〕
図6のステップ6.8において、第2及び第3のビート時間シーケンス(Bceil)(Bfloor)が生成される。
この処理段階への入力には、第2のアクセント信号(a2)及びステップ6.5で生成されたfloor(BPMest)及びceil(BPMest)の値が含まれる。こうする理由は、音楽が電子ダンス音楽である場合、ビート時間シーケンスがfloor(BPMest)又はceil(BPMest)での(a2)中のピークと整合する可能性がかなり高いからである。
(a2)、floor(BPMest)、ceil(BPMest)を用いてビートトラッキングを行う方法は様々なものがある。ここでは、第2のビートトラッキング段階6.8は、次のように実行される。
図7において、参考文献[7]に記載された動的計画法ビートトラッキング方法が、第2のアクセント信号(a2)を用いて実行される。第2のアクセント信号(a2)は、floor(BPMest)とceil(BPMest)のそれぞれを用いて別々に適用される。これにより、図7に示すように、参照符号7.1及び7.4により示される動的計画法ビートトラッキングステップを含む2つの処理経路が提供される。
次の段落は、1つのパスのみ、具体的には、floor(BPMest)に適用されるパスのみの処理について記載するが、ceil(BPMest)に適用されるもう一方のパスでも同じ処理が実行されることは理解されるであろう。前述の場合と同様に、2つの処理経路に関係する参照符号は、いかなる意味においても処理の順番を示すものではなく、両パスを並列に実行することもできる。
ステップ7.1における動的計画法ビートトラッキング方法は、初期ビート時間シーケンスbtを与える。次に、ステップ7.2において、理想ビート時間シーケンスbiが次のように計算される。
bi = 0, 1/ (floor(BPMest) / 60), 2/ (floor(BPMest) / 60), etc.
次に、ステップ7.3において、biを少量オフセットした場合の初期ビート時間シーケンスbtと理想ビート時間シーケンスbiの間の最良マッチを求める。このマッチを求めるために、参考文献[1]に記載された基準を用いて2つのビート時間シーケンスの類似度を測定する。参考文献[1]で提案されたテンポトラッキングの正確性をR、0から1.1/ (floor(BPMest) / 60)の範囲で刻み幅0.1/ (floor(BPMest) / 60)の偏差をdevとし、スコアR(bt, bi + dev)を評価する。刻み幅はパラメータであり、可変である。Matlabの表現では、スコアRは次のように計算することができる。
function R=beatscore_cemgil(bt, at)
sigma_e=0.04; % expected onset spread
% match nearest beats
id=nearest(at(:)',bt(:));
% compute distances
d=at-bt(id);
% compute tracking index
s=exp(-d.^2/(2*sigma_e^2));
R=2*sum(s)/(length(bt)+length(at));
ルーチンへの入力'bt'はbtであり、各イテレーションでの入力'at'は、bi + devである。関数'nearest'は、2つのベクトル中の最も近い値を求め、'bt'中の'at'に最も近い値のインデックスを返す。Matlabの表現では、この関数は次のように表現することができる。
function n = nearest(x,y)
% x row vector
% y column vector:
% indices of values nearest to x's in y
x = ones(size(y,1),1)*x;
[junk,n] = min(abs(x-y));
出力はビート時間シーケンスbi + devmaxであり、devmaxは最大スコアRをもたらす偏差である。ただしここで、R以外のスコアを用いることもできる。スコアが、2つのビートシーケンスの類似度の指標であることが望ましい。
上記の通り、ステップ7.4、7.5、7.6において、この処理はceil(BPMest)についても実行され、この場合は上記段落のfloor(BPMest)の値がceil(BPMest)の値に変更される。
ステップ7.3及び7.6からの出力は、2つのビート時間シーケンス、すなわちceil(BPMest)に基づくBceil及びfloor(BPMest)に基づくBfloorである。これらのビートシーケンスは、一定のビート間隔を有する。すなわち、2つの隣接ビートの周期は、ビート時間シーケンス全体で一定である。

〔ビート時間シーケンスの選択〕
図6に戻ると、第1及び第2のビートトラッキング段階6.4及び6.8の結果として、次の3つのビート時間シーケンスが得られている。
クロマアクセント信号及び実際のBPM値BPMestに基づくb1
ceil(BPMest)に基づくbceil
floor(BPMest)に基づくbfloor
残る処理段階6.9、6.10、6.11では、これらの内どれが得られたアクセント信号を最もよく説明するものかを判断する。このために、アクセント信号a1又はa2の一方または両方を用いることができる。マルチレートアクセント信号の最低周波数帯域を表すa2のみを用いた場合に、より正確で頑健な結果が観察された。
図8に示す通り、次のようにスコアリングシステムを用いる。まず、b1、bceil、bfloorのそれぞれにおいて、ビート時間に対応する時間におけるアクセント信号a2の平均値を別々に計算する。ステップ6.11において、アクセント信号a2の平均値が最も大きいビート時間シーケンスが最良マッチと判断され、ステップ6.12における出力ビート時間シーケンスとして選択される。平均値の代わりに、幾何平均、調和平均、中央値、最大値、総和等の他の指標を用いることもできる。
実装の詳細として、平均アクセント信号値を計算する際に、ビートインデックスにおいて、最大でアクセント信号サンプリング周期の+/−10倍の小さい一定の偏差が許容される。すなわち、平均スコアを求める際に、システムはある偏差の範囲で繰り返し処理を実行し、各イテレーションにおいて、ビートインデックスに現在の偏差値を加算し、ずれたビートインデックスに対応するアクセント信号の平均値を計算して記憶する。最後に、異なる偏差の値に対応する平均値から、最大平均値を求めて出力する。このステップは任意であるが、偏差の助けがあるとビート時間をアクセント信号のピークにより正確にマッチさせることができるため、頑健性が上がることが分かっている。さらに、任意で、ずれたビート時間シーケンスにおける各ビートインデックスもずらしてもよい。この場合は、各ビートインデックスは、最大で+/−1サンプルずらされ、平均を計算する際、各ビートに対応するアクセント信号値はこの範囲内の最大値として求められる。これにより、各ビートの正確な位置の検索が可能になる。このステップも、この方法の頑健性を若干高くすることが分かっている。
直観的には、最後のスコアリングステップでは、得られた3つのビート時間シーケンス候補b1、Bceil、Bfloorのそれぞれのアクセント信号a2へのマッチングを行い、最良マッチを与えるものを選択する。良いマッチとは、アクセント信号中の大きい値がビート時間と一致し、ビート時間における平均アクセント信号値が高いものである。整数BPM,すなわちBceil及びBfloorに基づくビートシーケンスの一方がアクセント信号a2をよく説明する場合、すなわち、ビートにおける平均アクセント信号値が高くなる場合、そのビートシーケンスがベースラインビート時間シーケンスb1よりも優先的に選択される。実験データによれば、入力される音楽信号が電子ダンス音楽(又はバスドラムにより表される強いビートを伴い整数値のテンポを有するその他の音楽)に対応する場合は、上記のような選択が行われることが多く、この方法によりそのような形式の音楽に対する性能が大きく改善することが分かっている。Bceil及びBfloorが十分に高い平均値を与えない場合は、ビートシーケンスb1を用いる。電子音楽以外のほとんどの種類の音楽についてはこれが当てはまることが観察されている。
ceil(BPMest)及びfloor(BPMest)を用いる代わりに、1つの推定BPM整数値を用いてこの方法を実行することもできる。すなわち、例えばこの方法で、round(BPMest )、ceil(BPMest)、floor(BPMest)の1つを計算し、その結果と低周波数アクセント信号a2を用いてビートトラッキングを実行する。場合によっては、BPM値の整数への変換を完全に省略し、BPMestをa2に対して用いてビートトラッキングを行うこともありうる。
テンポ推定ステップにより信号の異なる時間位置にわたってBPM値のシーケンスが生成される場合、例えばBPM値の平均又は中央値を取ることにより、アクセント信号a2に対するビートトラッキングに用いられたテンポ値を得ることができる。すなわち、この場合は、この方法により、テンポ推定器からのフレームごとのテンポ推定値を用いて、クロマアクセント特性に基づくアクセント信号a1に対してビートトラッキングを実行することができる。a2に適用されるビートトラッキングでは一定のテンポを推定することができ、場合によっては整数に四捨五入した、全体の平均又は中央値によるBPM推定値を用いて実行することができる。
要約すると、制御部202によりソフトウェア制御の下で実行される音声分析処理は、次のステップを含む。
テンポ(BPM)推定値及び第1のビート時間シーケンスを、参考文献[2]及び参考文献[7]に記載された方法の組み合わせを用いて取得する;
低周波数帯域アクセントが強調されたアクセント信号を、参考文献[3]に記載された方法を用いて取得する;
テンポ推定値の整数切り上げ及び切り下げを計算する;
第2及び第3のビート時間シーケンスを、アクセント信号及びテンポ推定値の整数切り上げ及び切り下げを用いて計算する;
第1、第2、第3のビート時間シーケンスの「良好度」スコアを、アクセント信号を用いて計算する;
最高良好度スコアに対応するビート時間シーケンスを出力する。
これらのステップは、スタジオで制作された電子音楽、そして時にはライブ音楽も(特にクラブ及び/又はその他の電子音楽コンサートや演奏において)、シーケンサーに設定された、又はメトロノームを用いて取得された一定のテンポを用いているという理解を利用している。さらに、テンポはしばしば整数値である。実験結果によれば、電子音楽に対するビートトラッキングの正確性は、上述のシステム及び方法を用いた結果、約60%の正しさから約90%の正しさに改善されたことが分かっている。特に、参考文献[2]に記載されたテンポ推定及び参考文献[7]に記載されたクロマアクセント特性に適用されるビートトラッキングステップに基づくビートトラッキング方法では、時にビート位相エラーが発生しやすい。すなわち、ビートがビート上ではなくビート間に位置している可能性があるということである。そのようなエラーの原因は、例えば、大量のシンコペーションを含む音楽、すなわち、オンビートではなくオフビートの音楽的イベント、強勢、或はアクセントを有する音楽である可能性がある。上述のシステム及び方法は、電子ダンス音楽におけるビート位相エラーを除去するのに特に有用であった。
主たる実施形態においてはテンポ推定を用いたが、より一般的な意味において、周期又は周波数の推定を用いることができる。すなわち、ビート等の、ある韻律レベルに対応する信号中の周期又は周波数の推定を用いることができる。ビート周期の周期推定をテンポ推定と呼んでいるが、他の韻律レベルを用いることもできる。テンポは、1/<ビート周期>*60という形でビート周期に関連している。すなわち、0.5秒の周期は120BPMのテンポに対応する。すなわち、テンポは、テンポに対応するパルスの周波数を表現したものである。または、もちろんシステムは他の周波数表現を用いることもでき、例えばHzの場合は2Hzが120BPMに対応する。
上述の実施形態は例示のためだけのものであり、本発明の範囲を限定するものではないことは理解されるであろう。その他の変形や修正は、本出願を読めば当業者には明らかであろう。
さらに、本出願の開示は、ここに明示的又は黙示的に開示された新規の特徴、特徴の新規な組み合わせ、或はその一般化を含むと理解されるべきである。本出願又は本出願から派生する任意の出願の審査過程において、そのような特徴及び/又は特徴の組み合わせを含む新規請求項を作成することができる。

Claims (40)

  1. オーディオ信号中の音楽アクセントを表す第1のアクセント信号(a1)を生成するための第1のアクセント信号モジュールと、
    前記オーディオ信号中の音楽アクセントを表す第2の異なるアクセント信号(a2)を生成するための第2のアクセント信号モジュールと、
    前記第1のアクセント信号から第1のビート時間シーケンス(b1)を推定するための第1のビートトラッキングモジュールと、
    前記第2のアクセント信号から第2のビート時間シーケンス(b2)を推定するための第2のビートトラッキングモジュールと、
    前記第1及び第2のビート時間シーケンス(b1)(b2)のいずれが前記アクセント信号の一方又は両方の中のピークに最も近く対応しているかを特定するためのシーケンス選択器と、
    を備える装置であって、更に、
    前記オーディオ信号の推定テンポ(BPM est )を前記第1のアクセント信号(a 1 )を用いて生成するように構成されたテンポ推定器と、
    前記推定テンポ(BPMest)の整数表現を取得するための手段と、
    を備え、前記第2のビートトラッキングモジュールは、前記第2のアクセント信号(a2)及び前記整数表現を用いて前記第2のビート時間シーケンス(b2)を生成するように構成される、
    装置
  2. 前記第1のアクセント信号モジュールが、基本周波数(f0)サリエンス分析に基づいてクロマアクセント特性を抽出することによって前記第1のアクセント信号(a1)を生成するように構成されている、請求項1に記載の装置。
  3. 前記第1のビートトラッキングモジュールが、前記第1のアクセント信号(a1)及び前記推定テンポ(BPMest)を用いて前記第1のビート時間シーケンスを推定するように構成されている、請求項1又は2に記載の装置。
  4. 前記第2のアクセント信号モジュールが、前記オーディオ信号の帯域幅の所定のサブバンドを用いて前記第2のアクセント信号(a2)を生成するように構成されている、請求項1からの何れかに記載の装置。
  5. 前記第2のアクセント信号モジュールが、200Hz未満の所定のサブバンドを用いて前記第2のアクセント信号(a2)を生成するように構成されている、請求項に記載の装置。
  6. 前記第2のアクセント信号モジュールが、前記オーディオ信号のマルチレートフィルタバンク分解を実行し、前記フィルタの所定の1つからの出力を用いてアクセント信号を生成することによって前記第2のアクセント信号(a2)を生成するように構成されている、請求項又は請求項に記載の装置。
  7. 前記推定テンポ(BPMest)の前記整数表現が、四捨五入テンポ推定関数(round(BPMest))、テンポ推定天井関数(ceil(BPMest))、テンポ推定床関数(floor(BPMest))のいずれかを用いて計算される、請求項1から6のいずれかに記載の装置。
  8. 天井関数及び床関数を前記推定テンポ(BPMest)に対して実行してそれぞれ切り上げテンポ推定値(ceil(BPMest))及び切り下げテンポ推定値(floor(BPMest))を生成する手段をさらに備え、前記第2のビートトラッキングモジュールは、前記第2のアクセント信号(a2)及び前記切り上げ及び切り下げテンポ推定値の別々のものを用いて第2及び第3のビート時間シーケンス(b2)(b3)を生成するように構成されており、前記シーケンス選択器は、前記第1、第2、第3のビート時間シーケンスのいずれが前記アクセント信号の一方または両方の中のピークに最も近く対応しているかを特定するように構成されている、請求項1から7の何れかに記載の装置。
  9. 前記第2のビートトラッキングモジュールは、前記切り上げ及び切り下げテンポ推定値のそれぞれについて、前記推定値を用いて初期ビート時間シーケンス(bt)を生成し、それを参照ビート時間シーケンス(bi)と比較し、所定の類似度アルゴリズムを用いて前記第2及び第3のビート時間シーケンスを生成するように構成されている、請求項に記載の装置。
  10. 前記第2のビートトラッキングモジュールにより用いられる前記所定の類似度アルゴリズムは、あるオフセット位置の範囲にわたって前記初期ビート時間シーケンス(bt)と前記参照ビート時間シーケンス(bi)とを比較して当該範囲内での最良マッチを特定し、前記生成された第2/第3のビート時間シーケンスが、前記最良マッチをもたらした前記参照ビート時間シーケンス(bi)のオフセットバージョンを含むようにする、請求項に記載の装置。
  11. 前記参照ビート時間シーケンス(bi)が一定のビート間隔を有する、請求項又は請求項10に記載の装置。
  12. 前記参照ビート時間シーケンス(bi)が、Xを前記推定テンポの整数表現、nを整数とすると、t = 0, 1/ (X/60), 2/ (X/60) ........n/(X60)として生成される、請求項11に記載の装置。
  13. 前記アルゴリズムで用いられるオフセット位置の範囲が、Xを前記推定テンポの整数表現とすると、0と1.1/(X/60)との間である、請求項10から12の何れかに記載の装置。
  14. 前記アルゴリズムにおける比較に用いられる前記オフセット位置が0.1/(BPMest/60)の刻み幅を有する、請求項10から13の何れかに記載の装置。
  15. 前記シーケンス選択器が、前記ビート時間シーケンスのいずれが前記第2のアクセント信号中のピークに最も近く対応するかを特定するように構成されている、請求項1から14の何れかに記載の装置。
  16. 前記シーケンス選択器が、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の値に依存する要約統計量又は要約値を計算し、最大要約統計量又は要約値をもたらすビート時間シーケンスを選択するように構成されている、請求項1から15の何れかに記載の装置。
  17. 前記シーケンス選択器が、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の平均値を計算し、最大平均値をもたらすビート時間シーケンスを選択するように構成されている、請求項16に記載の装置。
  18. 共通の内容のオーディオ信号をそれぞれ有する複数のビデオクリップを受信するための手段と、
    前記選択されたビートシーケンス中のビートを用いて前記ビデオクリップの利用可能な編集点を特定するためのビデオ編集モジュールと
    を備える、請求項1から17の何れかに記載の装置。
  19. 前記ビデオ編集モジュールがさらに、1以上の編集点で複数のビデオクリップを連結して連結ビデオクリップを生成するように構成されている、請求項18に記載の装置。
  20. オーディオ信号中の音楽アクセントを表す第1のアクセント信号(a1)を生成することと、
    前記オーディオ信号中の音楽アクセントを表す第2の異なるアクセント信号(a2)を生成することと、
    前記第1のアクセント信号から第1のビート時間シーケンス(b1)を推定することと、
    前記第2のアクセント信号から第2のビート時間シーケンス(b2)を推定することと、
    前記第1及び第2のビート時間シーケンス(b1)(b2)のいずれが前記アクセント信号の一方又は両方の中のピークに最も近く対応しているかを特定することと、
    を含む方法であって、更に、
    前記オーディオ信号の推定テンポ(BPMest)を前記第1のアクセント信号(a1)を用いて生成することと、
    前記推定テンポ(BPMest)の整数表現を取得することと、
    前記第2のアクセント信号(a2)及び前記整数表現を用いて前記第2のビート時間シーケンス(b2)を生成することと、
    を含む、方法
  21. 前記第1のアクセント信号(a1)が、基本周波数(f0)サリエンス分析に基づいてクロマアクセント特性を抽出することによって生成される、請求項20に記載の方法。
  22. 前記第1のビート時間シーケンスが、前記第1のアクセント信号(a1)及び前記推定テンポ(BPMest)を用いて生成される、請求項20又は21に記載の方法。
  23. 前記第2のアクセント信号(a2)が、前記オーディオ信号の帯域幅の所定のサブバンドを用いて生成される、請求項20から22の何れかに記載の方法。
  24. 前記第2のアクセント信号(a2)が、200Hz未満の所定のサブバンドを用いて生成される、請求項23に記載の方法。
  25. 前記第2のアクセント信号(a2)が、前記オーディオ信号のマルチレートフィルタバンク分解を実行し、前記フィルタの所定の1つからの出力を用いて生成される、請求項23又は請求項24に記載の方法。
  26. 前記推定テンポ(BPMest)の前記整数表現が、四捨五入テンポ推定関数(round(BPMest))、テンポ推定天井関数(ceil(BPMest))、テンポ推定床関数(floor(BPMest))のいずれかを用いて計算される、請求項20から25の何れかに記載の方法。
  27. 天井関数及び床関数を前記推定テンポ(BPMest)に対して実行してそれぞれ切り上げテンポ推定値(ceil(BPMest))及び切り下げテンポ推定値(floor(BPMest))を生成することと、前記第2のアクセント信号(a2)及び前記切り上げ及び切り下げテンポ推定値の別々のものを用いて第2及び第3のビート時間シーケンス(b2)(b3)を生成することと、前記第1、第2、第3のビート時間シーケンスのいずれが前記アクセント信号の一方または両方の中のピークに最も近く対応しているかを特定することとをさらに含む、請求項20から26の何れかに記載の方法。
  28. 前記切り上げ及び切り下げテンポ推定値のそれぞれについて、前記推定値を用いて初期ビート時間シーケンス(bt)を生成し、所定の類似度アルゴリズムを用いて前記第2及び第3のビート時間シーケンスを生成するために、前記初期ビート時間シーケンスを参照ビート時間シーケンス(bi)と比較する、請求項27に記載の方法。
  29. 前記所定の類似度アルゴリズムを用いた比較ステップは、あるオフセット位置の範囲にわたって前記初期ビート時間シーケンス(bt)と前記参照ビート時間シーケンス(bi)とを比較して当該範囲内での最良マッチを特定することを含み、前記生成された第2/第3のビート時間シーケンスが、前記最良マッチをもたらした前記参照ビート時間シーケンス(bi)のオフセットバージョンを含むようにする、請求項28に記載の方法。
  30. 前記参照ビート時間シーケンス(bi)が一定のビート間隔を有する、請求項28又は請求項29に記載の方法。
  31. 前記参照ビート時間シーケンス(bi)が、Xを前記推定テンポの整数表現、nを整数とすると、t = 0, 1/ (X/60), 2/ (X/60) ........n/(X60)として生成される、請求項30に記載の方法。
  32. 前記アルゴリズムで用いられるオフセット位置の範囲が、Xを前記推定テンポの整数表現とすると、0と1.1/(X/60)との間である、請求項29から31の何れかに記載の方法。
  33. 前記アルゴリズムにおける比較に用いられる前記オフセット位置が0.1/(BPMest/60)の刻み幅を有する、請求項29から32の何れかに記載の方法。
  34. 前記特定ステップが、前記ビート時間シーケンスのいずれが前記第2のアクセント信号中のピークに最も近く対応するかを特定することを含む、請求項20から33の何れかに記載の方法。
  35. 前記特定ステップが、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の値に依存する要約統計量又は要約値を計算することと、最大要約統計量又は要約値をもたらすビート時間シーケンスを選択することとを含む、請求項20から34の何れかに記載の方法。
  36. 前記特定ステップが、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の値の平均値を計算することと、最大平均値をもたらすビート時間シーケンスを選択することとを含む、請求項35に記載の方法。
  37. 共通の内容のオーディオ信号をそれぞれ有する複数のビデオクリップを受信することと、
    前記選択されたビートシーケンス中のビートを用いて前記ビデオクリップの利用可能な編集点を特定することと
    を含む請求項20から36の何れかに記載の方法。
  38. 1以上の編集点で複数のビデオクリップを連結して連結ビデオクリップを生成することをさらに含む、請求項37に記載の方法。
  39. コンピュータ装置により実行されると、請求項20から38の何れかに記載の方法を実行するように前記コンピュータ装置を制御する命令を含む、コンピュータプログラム。
  40. コンピュータ可読コードを記憶した不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読コードは、コンピュータ装置により実行されると、前記コンピュータ装置に、
    オーディオ信号中の音楽アクセントを表す第1のアクセント信号(a1)を生成することと、
    前記オーディオ信号中の音楽アクセントを表す第2の異なるアクセント信号(a2)を生成することと、
    前記第1のアクセント信号から第1のビート時間シーケンス(b1)を推定することと、
    前記第2のアクセント信号から第2のビート時間シーケンス(b2)を推定することと、
    前記第1及び第2のビート時間シーケンス(b1)(b2)のいずれが前記アクセント信号の一方又は両方の中のピークに最も近く対応しているかを特定することと、
    を含む方法であって、更に、
    前記オーディオ信号の推定テンポ(BPMest)を前記第1のアクセント信号(a1)を用いて生成することと、
    前記推定テンポ(BPMest)の整数表現を取得することと、
    前記第2のアクセント信号(a2)及び前記整数表現を用いて前記第2のビート時間シーケンス(b2)を生成することと、
    を含む方法を実行させる、不揮発性コンピュータ可読記憶媒体。
JP2015519368A 2012-06-29 2012-06-29 オーディオ信号分析 Expired - Fee Related JP6017687B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2012/053329 WO2014001849A1 (en) 2012-06-29 2012-06-29 Audio signal analysis

Publications (2)

Publication Number Publication Date
JP2015525895A JP2015525895A (ja) 2015-09-07
JP6017687B2 true JP6017687B2 (ja) 2016-11-02

Family

ID=49782340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015519368A Expired - Fee Related JP6017687B2 (ja) 2012-06-29 2012-06-29 オーディオ信号分析

Country Status (5)

Country Link
US (1) US9418643B2 (ja)
EP (1) EP2867887B1 (ja)
JP (1) JP6017687B2 (ja)
CN (1) CN104620313B (ja)
WO (1) WO2014001849A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102119654B1 (ko) * 2018-11-14 2020-06-05 현대자동차주식회사 배터리의 그리퍼 장치

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8364633B2 (en) * 2005-01-12 2013-01-29 Wandisco, Inc. Distributed computing systems and system components thereof
US9646592B2 (en) 2013-02-28 2017-05-09 Nokia Technologies Oy Audio signal analysis
CN104217729A (zh) * 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
GB201310861D0 (en) 2013-06-18 2013-07-31 Nokia Corp Audio signal analysis
GB2522644A (en) * 2014-01-31 2015-08-05 Nokia Technologies Oy Audio signal analysis
EP3889954B1 (en) * 2014-09-25 2024-05-08 Sunhouse Technologies, Inc. Method for extracting audio from sensors electrical signals
US11308928B2 (en) * 2014-09-25 2022-04-19 Sunhouse Technologies, Inc. Systems and methods for capturing and interpreting audio
EP3096242A1 (en) 2015-05-20 2016-11-23 Nokia Technologies Oy Media content selection
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
EP3209033B1 (en) 2016-02-19 2019-12-11 Nokia Technologies Oy Controlling audio rendering
US9502017B1 (en) * 2016-04-14 2016-11-22 Adobe Systems Incorporated Automatic audio remixing with repetition avoidance
EP3255904A1 (en) 2016-06-07 2017-12-13 Nokia Technologies Oy Distributed audio mixing
CN109923609A (zh) * 2016-07-13 2019-06-21 思妙公司 用于音调轨道生成的众包技术
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
US10014841B2 (en) 2016-09-19 2018-07-03 Nokia Technologies Oy Method and apparatus for controlling audio playback based upon the instrument
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
CN106547874A (zh) * 2016-10-26 2017-03-29 广州酷狗计算机科技有限公司 多媒体推荐方法及装置
GB2557970B (en) * 2016-12-20 2020-12-09 Mashtraxx Ltd Content tracking system and method
KR20180088184A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 전자 장치 및 그 제어 방법
US11915722B2 (en) 2017-03-30 2024-02-27 Gracenote, Inc. Generating a video presentation to accompany audio
US10957297B2 (en) * 2017-07-25 2021-03-23 Louis Yoelin Self-produced music apparatus and method
CN108108457B (zh) 2017-12-28 2020-11-03 广州市百果园信息技术有限公司 从音乐节拍点中提取大节拍信息的方法、存储介质和终端
CN108417223A (zh) * 2017-12-29 2018-08-17 申子涵 在社交网络中发送变调语音的方法
CN108320730B (zh) * 2018-01-09 2020-09-29 广州市百果园信息技术有限公司 音乐分类方法及节拍点检测方法、存储设备及计算机设备
CN108335703B (zh) * 2018-03-28 2020-10-09 腾讯音乐娱乐科技(深圳)有限公司 确定音频数据的重音位置的方法和装置
JP7105880B2 (ja) * 2018-05-24 2022-07-25 ローランド株式会社 ビート音発生タイミング生成装置
US10916229B2 (en) * 2018-07-03 2021-02-09 Soclip! Beat decomposition to facilitate automatic video editing
CN110867174A (zh) * 2018-08-28 2020-03-06 努音有限公司 自动混音装置
CN109308910B (zh) * 2018-09-20 2022-03-22 广州酷狗计算机科技有限公司 确定音频的bpm的方法和装置
JP2020106753A (ja) * 2018-12-28 2020-07-09 ローランド株式会社 情報処理装置および映像処理システム
CN112233662A (zh) * 2019-06-28 2021-01-15 百度在线网络技术(北京)有限公司 音频分析方法、装置、计算设备和存储介质
CN110955862B (zh) * 2019-11-26 2023-10-13 新奥数能科技有限公司 一种用于设备模型趋势相似度的评估方法及装置
CN113590872B (zh) * 2021-07-28 2023-11-28 广州艾美网络科技有限公司 跳舞谱面生成的方法、装置以及设备

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0876760A (ja) * 1994-08-31 1996-03-22 Kawai Musical Instr Mfg Co Ltd 自動演奏装置のテンポスピード制御装置
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6518492B2 (en) * 2001-04-13 2003-02-11 Magix Entertainment Products, Gmbh System and method of BPM determination
US20030205124A1 (en) * 2002-05-01 2003-11-06 Foote Jonathan T. Method and system for retrieving and sequencing music by rhythmic similarity
JP2004096617A (ja) * 2002-09-03 2004-03-25 Sharp Corp ビデオ編集方法、ビデオ編集装置、ビデオ編集プログラム、及び、プログラム記録媒体
WO2004042584A2 (en) 2002-11-07 2004-05-21 Koninklijke Philips Electronics N.V. Method and device for persistent-memory management
JP3982443B2 (ja) * 2003-03-31 2007-09-26 ソニー株式会社 テンポ解析装置およびテンポ解析方法
JP4767691B2 (ja) 2005-07-19 2011-09-07 株式会社河合楽器製作所 テンポ検出装置、コード名検出装置及びプログラム
US7612275B2 (en) * 2006-04-18 2009-11-03 Nokia Corporation Method, apparatus and computer program product for providing rhythm information from an audio signal
US20070261537A1 (en) 2006-05-12 2007-11-15 Nokia Corporation Creating and sharing variations of a music file
US7842874B2 (en) * 2006-06-15 2010-11-30 Massachusetts Institute Of Technology Creating music by concatenative synthesis
JP2008076760A (ja) 2006-09-21 2008-04-03 Chugoku Electric Power Co Inc:The 光ケーブル心線の識別表示方法および表示物
JP5309459B2 (ja) * 2007-03-23 2013-10-09 ヤマハ株式会社 ビート検出装置
US7659471B2 (en) * 2007-03-28 2010-02-09 Nokia Corporation System and method for music data repetition functionality
JP5282548B2 (ja) 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
GB0901263D0 (en) * 2009-01-26 2009-03-11 Mitsubishi Elec R&D Ct Europe Detection of similar video segments
JP5654897B2 (ja) * 2010-03-02 2015-01-14 本田技研工業株式会社 楽譜位置推定装置、楽譜位置推定方法、及び楽譜位置推定プログラム
US8983082B2 (en) * 2010-04-14 2015-03-17 Apple Inc. Detecting musical structures
EP2845188B1 (en) 2012-04-30 2017-02-01 Nokia Technologies Oy Evaluation of downbeats from a musical audio signal
JP5672280B2 (ja) * 2012-08-31 2015-02-18 カシオ計算機株式会社 演奏情報処理装置、演奏情報処理方法及びプログラム
GB2518663A (en) * 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102119654B1 (ko) * 2018-11-14 2020-06-05 현대자동차주식회사 배터리의 그리퍼 장치

Also Published As

Publication number Publication date
EP2867887B1 (en) 2016-12-28
US20160005387A1 (en) 2016-01-07
EP2867887A4 (en) 2015-12-02
US9418643B2 (en) 2016-08-16
EP2867887A1 (en) 2015-05-06
CN104620313A (zh) 2015-05-13
JP2015525895A (ja) 2015-09-07
CN104620313B (zh) 2017-08-08
WO2014001849A1 (en) 2014-01-03

Similar Documents

Publication Publication Date Title
JP6017687B2 (ja) オーディオ信号分析
EP2845188B1 (en) Evaluation of downbeats from a musical audio signal
EP2816550B1 (en) Audio signal analysis
US20150094835A1 (en) Audio analysis apparatus
US9646592B2 (en) Audio signal analysis
US8440900B2 (en) Intervalgram representation of audio for melody recognition
Holzapfel et al. Three dimensions of pitched instrument onset detection
US8865993B2 (en) Musical composition processing system for processing musical composition for energy level and related methods
WO2010097870A1 (ja) 音楽検索装置
CN110472097A (zh) 乐曲自动分类方法、装置、计算机设备和存储介质
WO2015114216A2 (en) Audio signal analysis
CN109979418B (zh) 音频处理方法、装置、电子设备及存储介质
JP5395399B2 (ja) 携帯端末、拍位置推定方法および拍位置推定プログラム
Jensen et al. Evaluation of MFCC estimation techniques for music similarity
Thomas et al. Detection of largest possible repeated patterns in indian audio songs using spectral features
CN107025902B (zh) 数据处理方法及装置
JP5054646B2 (ja) 拍位置推定装置、拍位置推定方法および拍位置推定プログラム
JP2015169719A (ja) 音情報変換装置およびプログラム
JP2011180417A (ja) 音楽音響信号のピッチ推定装置及び方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20151112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160928

R150 Certificate of patent or registration of utility model

Ref document number: 6017687

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees