JP6017687B2 - オーディオ信号分析 - Google Patents
オーディオ信号分析 Download PDFInfo
- Publication number
- JP6017687B2 JP6017687B2 JP2015519368A JP2015519368A JP6017687B2 JP 6017687 B2 JP6017687 B2 JP 6017687B2 JP 2015519368 A JP2015519368 A JP 2015519368A JP 2015519368 A JP2015519368 A JP 2015519368A JP 6017687 B2 JP6017687 B2 JP 6017687B2
- Authority
- JP
- Japan
- Prior art keywords
- accent
- beat
- signal
- beat time
- tempo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/051—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/021—Indicator, i.e. non-screen output user interfacing, e.g. visual or tactile instrument status or guidance information using lights, LEDs, seven segments displays
- G10H2220/081—Beat indicator, e.g. marks or flashing LEDs to indicate tempo or beat positions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/021—Indicator, i.e. non-screen output user interfacing, e.g. visual or tactile instrument status or guidance information using lights, LEDs, seven segments displays
- G10H2220/086—Beats per minute [bpm] indicator, i.e. displaying a tempo value, e.g. in words or as numerical value in beats per minute
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2230/00—General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
- G10H2230/005—Device type or category
- G10H2230/015—PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Description
ピッチ:音符の基本周波数(f0)の生理的な相関物
ピッチクラスとしても知られるクロマ:共通ピッチクラスに属する整数オクターブ離れた音楽ピッチ。西洋音楽では、12のピッチクラスが用いられる。
ビート又はタクトゥス:音楽の基本時間単位であり、楽曲を聞きながらほとんどの人が床で足を踏み鳴らすであろうレートと考えることができる。この用語は1つのビートに属する音楽部分を指すときにも用いられる。
テンポ:ビート又はタクトゥスパルスのレートであり、通常はビート数毎分(BPM)単位で表される。
小節:ある持続時間内のあるビート数として定義される時間区分。例えば、4/4拍子の音楽では、各小節は4つのビートを含む。
アクセント(に基づく)音声分析:オーディオ信号を分析して音楽内のイベント及び/又は変化を検出する。例としては、これらには限られないが、個々のあらゆる音声イベントの開始、特に長ピッチ音の発音、音色の大きさの突然の変化、和声の変化がある。以下にさらに詳細を述べる。
[1] Cemgil A. T. et al., "On tempo tracking: tempogram representation and Kalman filtering." J. New Music Research, 2001.
[2] Eronen, A. and Klapuri, A., "Music Tempo Estimation with k-NN regression," IEEE Trans. Audio, Speech and Language Processing, Vol. 18, No. 1, Jan 2010.
[3] Seppanen, Eronen, Hiipakka. "Joint Beat & Tatum Tracking from Music Signals", International Conference on Music Information Retrieval, ISMIR 2006 and Jarno Seppanen, Antti Eronen, Jarmo Hiipakka: Method, apparatus and computer program product for providing rhythm information from an audio signal. Nokia November 2009: US 7612275.
[4] Antti Eronen and Timo Kosonen, "Creating and sharing variations of a music file" - United States Patent Application 20070261537.
[5] Klapuri, A., Eronen, A., Astola, J., " Analysis of the meter of acoustic musical signals," IEEE Trans. Audio, Speech, and Language Processing, Vol. 14, No. 1, 2006.
[6] Jehan, Creating Music by Listening, PhD Thesis, MIT, 2005. http://web.media.mit.edu/~tristan/phd/pdf/Tristan_PhD_MIT.pdf
[7] D. Ellis, "Beat Tracking by Dynamic Programming", J. New Music Research, Special Issue on Beat and Tempo Extraction, vol. 36 no. 1, March 2007, pp. 51-60. (10pp) DOI: 10.1080/09298210701653344.
[8] A. Klapuri, "Multiple fundamental frequency estimation by summing harmonic amplitudes," in Proc. 7th Int. Conf. Music Inf. Retrieval (ISMIR-06), Victoria, Canada, 2006.
オーディオ信号中の音楽アクセントを表す第1のアクセント信号(a1)を生成するための第1のアクセント信号モジュールと、
前記オーディオ信号中の音楽アクセントを表す第2の異なるアクセント信号(a2)を生成するための第2のアクセント信号モジュールと、
前記第1のアクセント信号から第1のビート時間シーケンス(b1)を推定するための第1のビートトラッキングモジュールと、
前記第2のアクセント信号から第2のビート時間シーケンス(b2)を推定するための第2のビートトラッキングモジュールと、
前記第1及び第2のビート時間シーケンス(b1)(b2)のいずれが前記アクセント信号の一方又は両方の中のピークに最も近く対応しているかを特定するためのシーケンス選択器と
を含む装置が提供される。
図2において、前記端末の1つ端末100が示されているが、他の端末102、104も同様又は類似していると想定している。端末100の外側には、タッチパネルディスプレイ102と、ハードウェアキー104と、後ろ向きカメラ105と、スピーカ118と、ヘッドフォンポート120とが設けられている。
〔第1の(クロマ)アクセント信号段階〕
を得る。
を用いた音楽アクセントの推定である。このアクセント推定は参考文献[5]で提案された方法に似ているが、ここでは周波数帯に代えてピッチクラスを用いる。時間分解能を向上させるため、クロマ係数の時間曲線をまず整数因子で補間してもよい。ここでは因子8による補間を行った。サンプル間に0を加える単純な補間方法を用いてもよい。ここで用いたパラメータによれば、補間後に得られるサンプリングレートはfr=172Hzである。この後、6次バターワースローパスフィルタ(LPF)を適用することにより平滑化ステップが実行される。このLPFのカットオフ周波数は、fLP=10Hzである。平滑化後の信号をzb(n)で表す。次のステップは、微分計算と半波整流(HWR)を含む。
[式1]
ここでHWR(x)=max(x,0)である。次のステップでは、zb(n)の加重平均及びその半波整流微分値:
が形成される。結果として次の信号が得られる。
[式2]
式2において、因子:
によりzb(n)とその半波整流微分値とのバランスを制御している。ここに記載する実装においては、この値はρ=0.6である。本発明の一実施形態においては、帯域bを線形に平均化することにより、上記アクセント信号分析に基づいてアクセント信号a1を得る。このようなアクセント信号は、時間の中での音楽的強調すなわちアクセントの量を表している。
第1のビートトラッキング段階
[式3]
ここでTは転置を表す。入力ベクトルは、その長さが2倍になるようにゼロでパディングされ、よってその長さは2Wになる。GACFは次のように定義されてもよい。
[式4]
γm(τ) = IDFT(|DFT(am)|p)
ここで、DFT及びIDFTはそれぞれ離散フーリエ変換及びその逆変換を表す。周波数領域圧縮量は、係数pを用いて制御する。周期(ラグ)τにおける周期性の強度はγm(τ)で表される。
[式5]
トレンドは、ラグが大きい場合にウィンドウが縮小することにより発生する。周期性ベクトルのサブレンジを、最終的な周期性ベクトルとして選択してもよい。サブレンジとして、例えば0.06〜2.2sの周期に対応するビンの範囲を取ってもよい。さらに、最終的な周期性ベクトルは、スカラー平均を取り除いて各周期性ベクトルのスカラー標準偏差を一定に正規化することにより正規化してもよい。正規化後の周期性ベクトルを、s(τ)で表す。時間上の周期性ベクトル中央値を取る代わりに、フレーム中の周期性ベクトルを出力して別々にテンポ推定を施すこともできる。
[式6]
式6において、m=1, ..., Mは、訓練ベクトルのインデックスである。各訓練インスタンスmについて、
最小距離d(m)=minrd(m,r)
を記憶してもよい。また、最小距離
につながる再サンプリング比を記憶してもよい。そして、d(m)のk個の最小値につながるk最近傍に基づいてテンポを推定してもよい。最近傍iに対応する参照すなわち注目テンポをTann(i)で表す。テストベクトルテンポの推定値を、
として得る。
の平均値又は中央値として得ることができる。さらに、中央値の計算に重み付けを用いて、テストベクトルに最も近い訓練インスタンスにより大きい重みを与えてもよい。例えば、重みwiは次のように計算することができる。
[式7]
ここで、i=1,・・・,kである。パラメータθを用いて重み付けの勾配を制御してもよい。例えば、θ=0.01という値を用いることができる。そして、テンポ推定値BPMestは、重みwiを用いて、テンポ推定値
の重み付け中央値として計算することができる。
δ(n)=max1(ts(1)・cs(n+1))
を計算する(ts(1)は遷移スコア、cs(n+1)は累積スコア)。検索ウィンドウの範囲は、l = -round(-2P), …, -round(P/2)である(PはBPMestに対応するサンプルの周期)。遷移スコアは、次のように定義されてもよい。
[式9]
ここで、l = -round(-2P), …, -round(P/2)であり、パラメータθ=8は、前のビート位置がビート周期Pから外れるにつれて遷移スコアが小さくなる傾斜の度合いを制御している。累積スコアは、
cs(n)=αδ(n)+(1-α) α1(n)
として記憶される。パラメータαは、過去のスコアとローカルマッチとのバランスを維持するために用いられる。その値はα=0.8である。このアルゴリズムではまた、最良の先行ビートのインデックスを、
として記憶する。ここで、
である。
〔天井関数及び床関数を用いたBPMestの修正〕
〔マルチレートアクセント計算〕
〔第2のビートトラッキング段階〕
次の段落は、1つのパスのみ、具体的には、floor(BPMest)に適用されるパスのみの処理について記載するが、ceil(BPMest)に適用されるもう一方のパスでも同じ処理が実行されることは理解されるであろう。前述の場合と同様に、2つの処理経路に関係する参照符号は、いかなる意味においても処理の順番を示すものではなく、両パスを並列に実行することもできる。
bi = 0, 1/ (floor(BPMest) / 60), 2/ (floor(BPMest) / 60), etc.
function R=beatscore_cemgil(bt, at)
sigma_e=0.04; % expected onset spread
% match nearest beats
id=nearest(at(:)',bt(:));
% compute distances
d=at-bt(id);
% compute tracking index
s=exp(-d.^2/(2*sigma_e^2));
R=2*sum(s)/(length(bt)+length(at));
function n = nearest(x,y)
% x row vector
% y column vector:
% indices of values nearest to x's in y
x = ones(size(y,1),1)*x;
[junk,n] = min(abs(x-y));
上記の通り、ステップ7.4、7.5、7.6において、この処理はceil(BPMest)についても実行され、この場合は上記段落のfloor(BPMest)の値がceil(BPMest)の値に変更される。
〔ビート時間シーケンスの選択〕
クロマアクセント信号及び実際のBPM値BPMestに基づくb1
ceil(BPMest)に基づくbceil
floor(BPMest)に基づくbfloor
低周波数帯域アクセントが強調されたアクセント信号を、参考文献[3]に記載された方法を用いて取得する;
テンポ推定値の整数切り上げ及び切り下げを計算する;
第2及び第3のビート時間シーケンスを、アクセント信号及びテンポ推定値の整数切り上げ及び切り下げを用いて計算する;
第1、第2、第3のビート時間シーケンスの「良好度」スコアを、アクセント信号を用いて計算する;
最高良好度スコアに対応するビート時間シーケンスを出力する。
Claims (40)
- オーディオ信号中の音楽アクセントを表す第1のアクセント信号(a1)を生成するための第1のアクセント信号モジュールと、
前記オーディオ信号中の音楽アクセントを表す第2の異なるアクセント信号(a2)を生成するための第2のアクセント信号モジュールと、
前記第1のアクセント信号から第1のビート時間シーケンス(b1)を推定するための第1のビートトラッキングモジュールと、
前記第2のアクセント信号から第2のビート時間シーケンス(b2)を推定するための第2のビートトラッキングモジュールと、
前記第1及び第2のビート時間シーケンス(b1)(b2)のいずれが前記アクセント信号の一方又は両方の中のピークに最も近く対応しているかを特定するためのシーケンス選択器と、
を備える装置であって、更に、
前記オーディオ信号の推定テンポ(BPM est )を前記第1のアクセント信号(a 1 )を用いて生成するように構成されたテンポ推定器と、
前記推定テンポ(BPMest)の整数表現を取得するための手段と、
を備え、前記第2のビートトラッキングモジュールは、前記第2のアクセント信号(a2)及び前記整数表現を用いて前記第2のビート時間シーケンス(b2)を生成するように構成される、
装置。 - 前記第1のアクセント信号モジュールが、基本周波数(f0)サリエンス分析に基づいてクロマアクセント特性を抽出することによって前記第1のアクセント信号(a1)を生成するように構成されている、請求項1に記載の装置。
- 前記第1のビートトラッキングモジュールが、前記第1のアクセント信号(a1)及び前記推定テンポ(BPMest)を用いて前記第1のビート時間シーケンスを推定するように構成されている、請求項1又は2に記載の装置。
- 前記第2のアクセント信号モジュールが、前記オーディオ信号の帯域幅の所定のサブバンドを用いて前記第2のアクセント信号(a2)を生成するように構成されている、請求項1から3の何れかに記載の装置。
- 前記第2のアクセント信号モジュールが、200Hz未満の所定のサブバンドを用いて前記第2のアクセント信号(a2)を生成するように構成されている、請求項4に記載の装置。
- 前記第2のアクセント信号モジュールが、前記オーディオ信号のマルチレートフィルタバンク分解を実行し、前記フィルタの所定の1つからの出力を用いてアクセント信号を生成することによって前記第2のアクセント信号(a2)を生成するように構成されている、請求項4又は請求項5に記載の装置。
- 前記推定テンポ(BPMest)の前記整数表現が、四捨五入テンポ推定関数(round(BPMest))、テンポ推定天井関数(ceil(BPMest))、テンポ推定床関数(floor(BPMest))のいずれかを用いて計算される、請求項1から6のいずれかに記載の装置。
- 天井関数及び床関数を前記推定テンポ(BPMest)に対して実行してそれぞれ切り上げテンポ推定値(ceil(BPMest))及び切り下げテンポ推定値(floor(BPMest))を生成する手段をさらに備え、前記第2のビートトラッキングモジュールは、前記第2のアクセント信号(a2)及び前記切り上げ及び切り下げテンポ推定値の別々のものを用いて第2及び第3のビート時間シーケンス(b2)(b3)を生成するように構成されており、前記シーケンス選択器は、前記第1、第2、第3のビート時間シーケンスのいずれが前記アクセント信号の一方または両方の中のピークに最も近く対応しているかを特定するように構成されている、請求項1から7の何れかに記載の装置。
- 前記第2のビートトラッキングモジュールは、前記切り上げ及び切り下げテンポ推定値のそれぞれについて、前記推定値を用いて初期ビート時間シーケンス(bt)を生成し、それを参照ビート時間シーケンス(bi)と比較し、所定の類似度アルゴリズムを用いて前記第2及び第3のビート時間シーケンスを生成するように構成されている、請求項8に記載の装置。
- 前記第2のビートトラッキングモジュールにより用いられる前記所定の類似度アルゴリズムは、あるオフセット位置の範囲にわたって前記初期ビート時間シーケンス(bt)と前記参照ビート時間シーケンス(bi)とを比較して当該範囲内での最良マッチを特定し、前記生成された第2/第3のビート時間シーケンスが、前記最良マッチをもたらした前記参照ビート時間シーケンス(bi)のオフセットバージョンを含むようにする、請求項9に記載の装置。
- 前記参照ビート時間シーケンス(bi)が一定のビート間隔を有する、請求項9又は請求項10に記載の装置。
- 前記参照ビート時間シーケンス(bi)が、Xを前記推定テンポの整数表現、nを整数とすると、t = 0, 1/ (X/60), 2/ (X/60) ........n/(X60)として生成される、請求項11に記載の装置。
- 前記アルゴリズムで用いられるオフセット位置の範囲が、Xを前記推定テンポの整数表現とすると、0と1.1/(X/60)との間である、請求項10から12の何れかに記載の装置。
- 前記アルゴリズムにおける比較に用いられる前記オフセット位置が0.1/(BPMest/60)の刻み幅を有する、請求項10から13の何れかに記載の装置。
- 前記シーケンス選択器が、前記ビート時間シーケンスのいずれが前記第2のアクセント信号中のピークに最も近く対応するかを特定するように構成されている、請求項1から14の何れかに記載の装置。
- 前記シーケンス選択器が、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の値に依存する要約統計量又は要約値を計算し、最大要約統計量又は要約値をもたらすビート時間シーケンスを選択するように構成されている、請求項1から15の何れかに記載の装置。
- 前記シーケンス選択器が、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の平均値を計算し、最大平均値をもたらすビート時間シーケンスを選択するように構成されている、請求項16に記載の装置。
- 共通の内容のオーディオ信号をそれぞれ有する複数のビデオクリップを受信するための手段と、
前記選択されたビートシーケンス中のビートを用いて前記ビデオクリップの利用可能な編集点を特定するためのビデオ編集モジュールと
を備える、請求項1から17の何れかに記載の装置。 - 前記ビデオ編集モジュールがさらに、1以上の編集点で複数のビデオクリップを連結して連結ビデオクリップを生成するように構成されている、請求項18に記載の装置。
- オーディオ信号中の音楽アクセントを表す第1のアクセント信号(a1)を生成することと、
前記オーディオ信号中の音楽アクセントを表す第2の異なるアクセント信号(a2)を生成することと、
前記第1のアクセント信号から第1のビート時間シーケンス(b1)を推定することと、
前記第2のアクセント信号から第2のビート時間シーケンス(b2)を推定することと、
前記第1及び第2のビート時間シーケンス(b1)(b2)のいずれが前記アクセント信号の一方又は両方の中のピークに最も近く対応しているかを特定することと、
を含む方法であって、更に、
前記オーディオ信号の推定テンポ(BPMest)を前記第1のアクセント信号(a1)を用いて生成することと、
前記推定テンポ(BPMest)の整数表現を取得することと、
前記第2のアクセント信号(a2)及び前記整数表現を用いて前記第2のビート時間シーケンス(b2)を生成することと、
を含む、方法。 - 前記第1のアクセント信号(a1)が、基本周波数(f0)サリエンス分析に基づいてクロマアクセント特性を抽出することによって生成される、請求項20に記載の方法。
- 前記第1のビート時間シーケンスが、前記第1のアクセント信号(a1)及び前記推定テンポ(BPMest)を用いて生成される、請求項20又は21に記載の方法。
- 前記第2のアクセント信号(a2)が、前記オーディオ信号の帯域幅の所定のサブバンドを用いて生成される、請求項20から22の何れかに記載の方法。
- 前記第2のアクセント信号(a2)が、200Hz未満の所定のサブバンドを用いて生成される、請求項23に記載の方法。
- 前記第2のアクセント信号(a2)が、前記オーディオ信号のマルチレートフィルタバンク分解を実行し、前記フィルタの所定の1つからの出力を用いて生成される、請求項23又は請求項24に記載の方法。
- 前記推定テンポ(BPMest)の前記整数表現が、四捨五入テンポ推定関数(round(BPMest))、テンポ推定天井関数(ceil(BPMest))、テンポ推定床関数(floor(BPMest))のいずれかを用いて計算される、請求項20から25の何れかに記載の方法。
- 天井関数及び床関数を前記推定テンポ(BPMest)に対して実行してそれぞれ切り上げテンポ推定値(ceil(BPMest))及び切り下げテンポ推定値(floor(BPMest))を生成することと、前記第2のアクセント信号(a2)及び前記切り上げ及び切り下げテンポ推定値の別々のものを用いて第2及び第3のビート時間シーケンス(b2)(b3)を生成することと、前記第1、第2、第3のビート時間シーケンスのいずれが前記アクセント信号の一方または両方の中のピークに最も近く対応しているかを特定することとをさらに含む、請求項20から26の何れかに記載の方法。
- 前記切り上げ及び切り下げテンポ推定値のそれぞれについて、前記推定値を用いて初期ビート時間シーケンス(bt)を生成し、所定の類似度アルゴリズムを用いて前記第2及び第3のビート時間シーケンスを生成するために、前記初期ビート時間シーケンスを参照ビート時間シーケンス(bi)と比較する、請求項27に記載の方法。
- 前記所定の類似度アルゴリズムを用いた比較ステップは、あるオフセット位置の範囲にわたって前記初期ビート時間シーケンス(bt)と前記参照ビート時間シーケンス(bi)とを比較して当該範囲内での最良マッチを特定することを含み、前記生成された第2/第3のビート時間シーケンスが、前記最良マッチをもたらした前記参照ビート時間シーケンス(bi)のオフセットバージョンを含むようにする、請求項28に記載の方法。
- 前記参照ビート時間シーケンス(bi)が一定のビート間隔を有する、請求項28又は請求項29に記載の方法。
- 前記参照ビート時間シーケンス(bi)が、Xを前記推定テンポの整数表現、nを整数とすると、t = 0, 1/ (X/60), 2/ (X/60) ........n/(X60)として生成される、請求項30に記載の方法。
- 前記アルゴリズムで用いられるオフセット位置の範囲が、Xを前記推定テンポの整数表現とすると、0と1.1/(X/60)との間である、請求項29から31の何れかに記載の方法。
- 前記アルゴリズムにおける比較に用いられる前記オフセット位置が0.1/(BPMest/60)の刻み幅を有する、請求項29から32の何れかに記載の方法。
- 前記特定ステップが、前記ビート時間シーケンスのいずれが前記第2のアクセント信号中のピークに最も近く対応するかを特定することを含む、請求項20から33の何れかに記載の方法。
- 前記特定ステップが、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の値に依存する要約統計量又は要約値を計算することと、最大要約統計量又は要約値をもたらすビート時間シーケンスを選択することとを含む、請求項20から34の何れかに記載の方法。
- 前記特定ステップが、前記ビート時間シーケンスのそれぞれについて、当該シーケンス中のビート時間において又はその前後で発生しているただ1つの又は各アクセント信号の値の平均値を計算することと、最大平均値をもたらすビート時間シーケンスを選択することとを含む、請求項35に記載の方法。
- 共通の内容のオーディオ信号をそれぞれ有する複数のビデオクリップを受信することと、
前記選択されたビートシーケンス中のビートを用いて前記ビデオクリップの利用可能な編集点を特定することと
を含む請求項20から36の何れかに記載の方法。 - 1以上の編集点で複数のビデオクリップを連結して連結ビデオクリップを生成することをさらに含む、請求項37に記載の方法。
- コンピュータ装置により実行されると、請求項20から38の何れかに記載の方法を実行するように前記コンピュータ装置を制御する命令を含む、コンピュータプログラム。
- コンピュータ可読コードを記憶した不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読コードは、コンピュータ装置により実行されると、前記コンピュータ装置に、
オーディオ信号中の音楽アクセントを表す第1のアクセント信号(a1)を生成することと、
前記オーディオ信号中の音楽アクセントを表す第2の異なるアクセント信号(a2)を生成することと、
前記第1のアクセント信号から第1のビート時間シーケンス(b1)を推定することと、
前記第2のアクセント信号から第2のビート時間シーケンス(b2)を推定することと、
前記第1及び第2のビート時間シーケンス(b1)(b2)のいずれが前記アクセント信号の一方又は両方の中のピークに最も近く対応しているかを特定することと、
を含む方法であって、更に、
前記オーディオ信号の推定テンポ(BPMest)を前記第1のアクセント信号(a1)を用いて生成することと、
前記推定テンポ(BPMest)の整数表現を取得することと、
前記第2のアクセント信号(a2)及び前記整数表現を用いて前記第2のビート時間シーケンス(b2)を生成することと、
を含む方法を実行させる、不揮発性コンピュータ可読記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2012/053329 WO2014001849A1 (en) | 2012-06-29 | 2012-06-29 | Audio signal analysis |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015525895A JP2015525895A (ja) | 2015-09-07 |
JP6017687B2 true JP6017687B2 (ja) | 2016-11-02 |
Family
ID=49782340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015519368A Expired - Fee Related JP6017687B2 (ja) | 2012-06-29 | 2012-06-29 | オーディオ信号分析 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9418643B2 (ja) |
EP (1) | EP2867887B1 (ja) |
JP (1) | JP6017687B2 (ja) |
CN (1) | CN104620313B (ja) |
WO (1) | WO2014001849A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102119654B1 (ko) * | 2018-11-14 | 2020-06-05 | 현대자동차주식회사 | 배터리의 그리퍼 장치 |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8364633B2 (en) * | 2005-01-12 | 2013-01-29 | Wandisco, Inc. | Distributed computing systems and system components thereof |
US9646592B2 (en) | 2013-02-28 | 2017-05-09 | Nokia Technologies Oy | Audio signal analysis |
CN104217729A (zh) * | 2013-05-31 | 2014-12-17 | 杜比实验室特许公司 | 音频处理方法和音频处理装置以及训练方法 |
GB201310861D0 (en) | 2013-06-18 | 2013-07-31 | Nokia Corp | Audio signal analysis |
GB2522644A (en) * | 2014-01-31 | 2015-08-05 | Nokia Technologies Oy | Audio signal analysis |
EP3889954B1 (en) * | 2014-09-25 | 2024-05-08 | Sunhouse Technologies, Inc. | Method for extracting audio from sensors electrical signals |
US11308928B2 (en) * | 2014-09-25 | 2022-04-19 | Sunhouse Technologies, Inc. | Systems and methods for capturing and interpreting audio |
EP3096242A1 (en) | 2015-05-20 | 2016-11-23 | Nokia Technologies Oy | Media content selection |
US9756281B2 (en) | 2016-02-05 | 2017-09-05 | Gopro, Inc. | Apparatus and method for audio based video synchronization |
EP3209033B1 (en) | 2016-02-19 | 2019-12-11 | Nokia Technologies Oy | Controlling audio rendering |
US9502017B1 (en) * | 2016-04-14 | 2016-11-22 | Adobe Systems Incorporated | Automatic audio remixing with repetition avoidance |
EP3255904A1 (en) | 2016-06-07 | 2017-12-13 | Nokia Technologies Oy | Distributed audio mixing |
CN109923609A (zh) * | 2016-07-13 | 2019-06-21 | 思妙公司 | 用于音调轨道生成的众包技术 |
US9697849B1 (en) | 2016-07-25 | 2017-07-04 | Gopro, Inc. | Systems and methods for audio based synchronization using energy vectors |
US9640159B1 (en) | 2016-08-25 | 2017-05-02 | Gopro, Inc. | Systems and methods for audio based synchronization using sound harmonics |
US9653095B1 (en) | 2016-08-30 | 2017-05-16 | Gopro, Inc. | Systems and methods for determining a repeatogram in a music composition using audio features |
US10014841B2 (en) | 2016-09-19 | 2018-07-03 | Nokia Technologies Oy | Method and apparatus for controlling audio playback based upon the instrument |
US9916822B1 (en) | 2016-10-07 | 2018-03-13 | Gopro, Inc. | Systems and methods for audio remixing using repeated segments |
CN106547874A (zh) * | 2016-10-26 | 2017-03-29 | 广州酷狗计算机科技有限公司 | 多媒体推荐方法及装置 |
GB2557970B (en) * | 2016-12-20 | 2020-12-09 | Mashtraxx Ltd | Content tracking system and method |
KR20180088184A (ko) * | 2017-01-26 | 2018-08-03 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11915722B2 (en) | 2017-03-30 | 2024-02-27 | Gracenote, Inc. | Generating a video presentation to accompany audio |
US10957297B2 (en) * | 2017-07-25 | 2021-03-23 | Louis Yoelin | Self-produced music apparatus and method |
CN108108457B (zh) | 2017-12-28 | 2020-11-03 | 广州市百果园信息技术有限公司 | 从音乐节拍点中提取大节拍信息的方法、存储介质和终端 |
CN108417223A (zh) * | 2017-12-29 | 2018-08-17 | 申子涵 | 在社交网络中发送变调语音的方法 |
CN108320730B (zh) * | 2018-01-09 | 2020-09-29 | 广州市百果园信息技术有限公司 | 音乐分类方法及节拍点检测方法、存储设备及计算机设备 |
CN108335703B (zh) * | 2018-03-28 | 2020-10-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定音频数据的重音位置的方法和装置 |
JP7105880B2 (ja) * | 2018-05-24 | 2022-07-25 | ローランド株式会社 | ビート音発生タイミング生成装置 |
US10916229B2 (en) * | 2018-07-03 | 2021-02-09 | Soclip! | Beat decomposition to facilitate automatic video editing |
CN110867174A (zh) * | 2018-08-28 | 2020-03-06 | 努音有限公司 | 自动混音装置 |
CN109308910B (zh) * | 2018-09-20 | 2022-03-22 | 广州酷狗计算机科技有限公司 | 确定音频的bpm的方法和装置 |
JP2020106753A (ja) * | 2018-12-28 | 2020-07-09 | ローランド株式会社 | 情報処理装置および映像処理システム |
CN112233662A (zh) * | 2019-06-28 | 2021-01-15 | 百度在线网络技术(北京)有限公司 | 音频分析方法、装置、计算设备和存储介质 |
CN110955862B (zh) * | 2019-11-26 | 2023-10-13 | 新奥数能科技有限公司 | 一种用于设备模型趋势相似度的评估方法及装置 |
CN113590872B (zh) * | 2021-07-28 | 2023-11-28 | 广州艾美网络科技有限公司 | 跳舞谱面生成的方法、装置以及设备 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0876760A (ja) * | 1994-08-31 | 1996-03-22 | Kawai Musical Instr Mfg Co Ltd | 自動演奏装置のテンポスピード制御装置 |
US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
US6518492B2 (en) * | 2001-04-13 | 2003-02-11 | Magix Entertainment Products, Gmbh | System and method of BPM determination |
US20030205124A1 (en) * | 2002-05-01 | 2003-11-06 | Foote Jonathan T. | Method and system for retrieving and sequencing music by rhythmic similarity |
JP2004096617A (ja) * | 2002-09-03 | 2004-03-25 | Sharp Corp | ビデオ編集方法、ビデオ編集装置、ビデオ編集プログラム、及び、プログラム記録媒体 |
WO2004042584A2 (en) | 2002-11-07 | 2004-05-21 | Koninklijke Philips Electronics N.V. | Method and device for persistent-memory management |
JP3982443B2 (ja) * | 2003-03-31 | 2007-09-26 | ソニー株式会社 | テンポ解析装置およびテンポ解析方法 |
JP4767691B2 (ja) | 2005-07-19 | 2011-09-07 | 株式会社河合楽器製作所 | テンポ検出装置、コード名検出装置及びプログラム |
US7612275B2 (en) * | 2006-04-18 | 2009-11-03 | Nokia Corporation | Method, apparatus and computer program product for providing rhythm information from an audio signal |
US20070261537A1 (en) | 2006-05-12 | 2007-11-15 | Nokia Corporation | Creating and sharing variations of a music file |
US7842874B2 (en) * | 2006-06-15 | 2010-11-30 | Massachusetts Institute Of Technology | Creating music by concatenative synthesis |
JP2008076760A (ja) | 2006-09-21 | 2008-04-03 | Chugoku Electric Power Co Inc:The | 光ケーブル心線の識別表示方法および表示物 |
JP5309459B2 (ja) * | 2007-03-23 | 2013-10-09 | ヤマハ株式会社 | ビート検出装置 |
US7659471B2 (en) * | 2007-03-28 | 2010-02-09 | Nokia Corporation | System and method for music data repetition functionality |
JP5282548B2 (ja) | 2008-12-05 | 2013-09-04 | ソニー株式会社 | 情報処理装置、音素材の切り出し方法、及びプログラム |
GB0901263D0 (en) * | 2009-01-26 | 2009-03-11 | Mitsubishi Elec R&D Ct Europe | Detection of similar video segments |
JP5654897B2 (ja) * | 2010-03-02 | 2015-01-14 | 本田技研工業株式会社 | 楽譜位置推定装置、楽譜位置推定方法、及び楽譜位置推定プログラム |
US8983082B2 (en) * | 2010-04-14 | 2015-03-17 | Apple Inc. | Detecting musical structures |
EP2845188B1 (en) | 2012-04-30 | 2017-02-01 | Nokia Technologies Oy | Evaluation of downbeats from a musical audio signal |
JP5672280B2 (ja) * | 2012-08-31 | 2015-02-18 | カシオ計算機株式会社 | 演奏情報処理装置、演奏情報処理方法及びプログラム |
GB2518663A (en) * | 2013-09-27 | 2015-04-01 | Nokia Corp | Audio analysis apparatus |
-
2012
- 2012-06-29 JP JP2015519368A patent/JP6017687B2/ja not_active Expired - Fee Related
- 2012-06-29 EP EP12880120.6A patent/EP2867887B1/en not_active Not-in-force
- 2012-06-29 US US14/409,647 patent/US9418643B2/en active Active
- 2012-06-29 CN CN201280075416.9A patent/CN104620313B/zh not_active Expired - Fee Related
- 2012-06-29 WO PCT/IB2012/053329 patent/WO2014001849A1/en active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102119654B1 (ko) * | 2018-11-14 | 2020-06-05 | 현대자동차주식회사 | 배터리의 그리퍼 장치 |
Also Published As
Publication number | Publication date |
---|---|
EP2867887B1 (en) | 2016-12-28 |
US20160005387A1 (en) | 2016-01-07 |
EP2867887A4 (en) | 2015-12-02 |
US9418643B2 (en) | 2016-08-16 |
EP2867887A1 (en) | 2015-05-06 |
CN104620313A (zh) | 2015-05-13 |
JP2015525895A (ja) | 2015-09-07 |
CN104620313B (zh) | 2017-08-08 |
WO2014001849A1 (en) | 2014-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6017687B2 (ja) | オーディオ信号分析 | |
EP2845188B1 (en) | Evaluation of downbeats from a musical audio signal | |
EP2816550B1 (en) | Audio signal analysis | |
US20150094835A1 (en) | Audio analysis apparatus | |
US9646592B2 (en) | Audio signal analysis | |
US8440900B2 (en) | Intervalgram representation of audio for melody recognition | |
Holzapfel et al. | Three dimensions of pitched instrument onset detection | |
US8865993B2 (en) | Musical composition processing system for processing musical composition for energy level and related methods | |
WO2010097870A1 (ja) | 音楽検索装置 | |
CN110472097A (zh) | 乐曲自动分类方法、装置、计算机设备和存储介质 | |
WO2015114216A2 (en) | Audio signal analysis | |
CN109979418B (zh) | 音频处理方法、装置、电子设备及存储介质 | |
JP5395399B2 (ja) | 携帯端末、拍位置推定方法および拍位置推定プログラム | |
Jensen et al. | Evaluation of MFCC estimation techniques for music similarity | |
Thomas et al. | Detection of largest possible repeated patterns in indian audio songs using spectral features | |
CN107025902B (zh) | 数据处理方法及装置 | |
JP5054646B2 (ja) | 拍位置推定装置、拍位置推定方法および拍位置推定プログラム | |
JP2015169719A (ja) | 音情報変換装置およびプログラム | |
JP2011180417A (ja) | 音楽音響信号のピッチ推定装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20151112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160928 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6017687 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |