JP6064561B2 - 拍情報推定装置 - Google Patents

拍情報推定装置 Download PDF

Info

Publication number
JP6064561B2
JP6064561B2 JP2012266027A JP2012266027A JP6064561B2 JP 6064561 B2 JP6064561 B2 JP 6064561B2 JP 2012266027 A JP2012266027 A JP 2012266027A JP 2012266027 A JP2012266027 A JP 2012266027A JP 6064561 B2 JP6064561 B2 JP 6064561B2
Authority
JP
Japan
Prior art keywords
beat
reliability
period
weighting
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012266027A
Other languages
English (en)
Other versions
JP2014112128A (ja
Inventor
教裕 植村
教裕 植村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012266027A priority Critical patent/JP6064561B2/ja
Publication of JP2014112128A publication Critical patent/JP2014112128A/ja
Application granted granted Critical
Publication of JP6064561B2 publication Critical patent/JP6064561B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

本発明は、拍点に関連する情報を音響信号から推定する技術に関する。
相前後する拍点の間隔(拍周期)や各拍点の時間軸上の位置(拍位置)を音響信号から推定する各種の技術が従来から提案されている。例えば特許文献1には、音響信号の特徴量の変化を示す拍指標系列の自己相関値が極大となる各時間(時間差)を拍周期の複数の候補として各候補の信頼度を算定し、信頼度に応じた候補を確定的な拍周期として選択する技術が開示されている。また、拍指標系列が極大となる各時間を拍位置の複数の候補として各候補の信頼度を算定し、信頼度に応じた候補を確定的な拍位置として選択する技術も特許文献1には開示されている。
特開2009−265493号公報
特許文献1の技術でも拍周期や拍位置を高精度に推定することは可能であるが、実際には更なる推定精度の向上が期待される。以上の事情を考慮して、本発明は、音響信号の拍周期または拍位置を高精度に推定することを目的とする。
以上の課題を解決するために、本発明の第1態様に係る拍情報推定装置は、音響信号の拍周期の候補である複数の候補周期(例えば候補周期τ[n])の各々について第1信頼度(例えば信頼度X0(τ[n]))を算定する第1信頼度算定手段(例えば信頼度算定部32)と、利用者からの指示に応じて参照周期(例えば参照周期TREF)を可変に設定する参照周期取得手段(例えば参照周期取得部33)と、時間軸上で参照周期に応じた時点に設定された第1加重値分布の各加重値(例えば加重値分布WAの各加重値wA(τ))により時間軸上の複数の候補周期の各々の第1信頼度を加重する第1加重手段(例えば加重部34)と、第1加重手段による加重後の第1信頼度(例えば信頼度XW(τ[n]))に応じて複数の候補周期の何れかを音響信号の拍周期(例えば拍周期T)として選択する拍周期確定手段(例えば拍周期確定部35)とを具備する。以上の構成では、利用者からの指示に応じて可変に設定された参照周期に対応する時点の第1加重値分布の各加重値により各候補周期の第1信頼度が加重され、加重後の第1信頼度に応じて音響信号の拍周期が確定される。したがって、第1信頼度を加重しない構成と比較して音響信号の拍周期を高精度に推定できるという利点がある。
第1態様に係る拍情報推定装置の好適例において、参照周期取得手段は、利用者が入力装置を操作した各時点の間隔に応じて参照周期を特定する。以上の態様では、利用者が入力装置を操作した各時点の間隔に応じて参照周期が特定されるから、利用者が直観的かつ容易に参照周期を指示できるという利点がある。
第1態様に係る拍情報推定装置の好適例において、第1加重手段は、第1加重値分布の分散を可変に設定する。以上の態様では、第1加重値分布の分散が可変に設定されるから、第1加重値分布の分散を所定値に固定した構成と比較して拍周期を高精度に推定することが可能である。例えば、各候補周期の間隔または参照周期が短いほど第1加重値分布の分散を減少させる構成が好適に採用される。また、第1加重手段が音響信号のサンプリング周波数に応じて第1加重値分布の分散を可変に設定する構成も好適である。具体的には、第1加重手段は、音響信号のサンプリング周波数が高いほど第1加重値分布の分散を増加させる。例えば、音響信号のサンプリング周波数の自乗に比例するように第1加重値分布の分散を設定する構成が好適である。
本発明の第2態様に係る拍情報推定装置は、音響信号の拍位置の候補である複数の候補位置(例えば候補位置β[m])の各々について第2信頼度(例えば信頼度Y0(β[m]))を算定する第2信頼度算定手段(例えば信頼度算定部42)と、利用者からの指示に応じて参照位置(例えば参照位置BREF)を可変に設定する参照位置取得手段(例えば参照位置取得部43)と、時間軸上で参照位置に応じた時点に設定された第2加重値分布の各加重値(例えば加重値分布WBの各加重値wB(t))により時間軸上の複数の候補位置の各々の第2信頼度を加重する第2加重手段(例えば加重部44)と、第2加重手段による加重後の第2信頼度(例えば信頼度YW(β[m]))に応じて複数の候補位置の何れかを音響信号の拍位置(例えば拍位置B)として選択する拍位置確定手段(例えば拍位置確定部45)とを具備する。以上の構成では、利用者からの指示に応じて可変に設定された参照位置に対応する時点の第2加重値分布の各加重値により各候補位置の第2信頼度が加重され、加重後の第2信頼度に応じて音響信号の拍位置が確定される。したがって、第2信頼度を加重しない構成と比較して音響信号の拍位置を高精度に推定できるという利点がある。
第2態様に係る拍情報推定装置の好適例において、参照位置取得手段は、利用者が入力装置を操作した時点に応じて参照位置を特定する。以上の態様では、利用者が入力装置を操作した時点に応じて参照位置が特定されるから、利用者が直観的かつ容易に参照位置を指示できるという利点がある。
第2態様に係る拍情報推定装置の好適例において、第2加重手段は、第2加重値分布の分散を可変に設定する。以上の態様では、第2加重値分布の分散が可変に設定されるから、第2加重値分布の分散を所定値に固定した構成と比較して拍位置を高精度に推定することが可能である。例えば、各候補位置の間隔が短いほど第2加重値分布の分散を減少させる構成が好適に採用される。また、第2加重手段が音響信号のサンプリング周波数に応じて第2加重値分布の分散を可変に設定する構成も好適である。具体的には、第2加重手段は、音響信号のサンプリング周波数が高いほど第2加重値分布の分散を増加させる。例えば、音響信号のサンプリング周波数の自乗に比例するように第2加重値分布の分散を設定する構成が好適である。
以上の各態様に係る拍情報推定装置は、音響信号の処理に専用されるDSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で例えば配信サーバ装置から提供されてコンピュータにインストールされ得る。
本発明の第1態様に係るプログラムは、音響信号の拍周期の候補である複数の候補周期の各々について第1信頼度を算定する第1信頼度算定処理と、利用者からの指示に応じて参照周期を可変に設定する参照周期取得処理と、時間軸上で参照周期に応じた時点に設定された第1加重値分布の各加重値により時間軸上の複数の候補周期の各々の第1信頼度を加重する第1加重処理と、第1加重処理による加重後の第1信頼度に応じて複数の候補周期の何れかを音響信号の拍周期として選択する拍周期確定処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の第1態様に係る拍情報推定装置と同様の作用および効果が実現される。
また、本発明の第2態様に係るプログラムは、音響信号の拍位置の候補である複数の候補位置の各々について第2信頼度を算定する第2信頼度算定処理と、利用者からの指示に応じて参照位置を可変に設定する参照位置取得処理と、時間軸上で参照位置に応じた時点に設定された第2加重値分布の各加重値により時間軸上の複数の候補位置の各々の第2信頼度を加重する第2加重処理と、第2加重処理による加重後の第2信頼度に応じて複数の候補位置の何れかを音響信号の拍位置として選択する拍位置確定処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の第2態様に係る拍情報推定装置と同様の作用および効果が実現される。
本発明の第1実施形態に係る拍情報推定装置のブロック図である。 拍周期特定部のブロック図である。 拍周期特定部の動作の説明図である。 加重値分布の分散が過度に大きい場合の説明図である。 加重値分布の分散が過度に小さい場合の説明図である。 拍位置特定部の動作の説明図である。 拍位置特定部のブロック図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る拍情報推定装置100のブロック図である。図1の拍情報推定装置100は、演算処理装置12と記憶装置14と入力装置16とを具備するコンピュータシステムで実現される。記憶装置14は、演算処理装置12が実行するプログラムや演算処理装置12が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置14として任意に採用され得る。例えば記憶装置14は、楽曲の演奏音(楽音や音声)の時間波形を示す音響信号Sを記憶する。
入力装置16は、利用者による操作を受付ける。例えば、利用者が操作する複数の操作子が配置された操作機器や操作面に対する利用者の手指の接触を検知するタッチパネルが入力装置16として好適に採用される。
演算処理装置12は、記憶装置14に記憶されたプログラムを実行することで、音響信号Sの拍周期(テンポ)Tと拍位置Bとを推定するための複数の要素(周波数分析部22,拍指標特定部24,拍周期特定部30,拍位置特定部40)として機能する。拍周期Tは、相前後する各拍点の時間的な間隔である。拍位置Bは、各拍点の時間軸上の位置(位相)である。本実施形態では、音響信号Sの全区間にわたり拍周期Tが一定である場合を便宜的に想定する。
図1の周波数分析部22は、音響信号Sのスペクトル(振幅スペクトルまたはパワースペクトル)Qを時間軸上の単位期間(フレーム)毎に順次に算定する。相前後する各単位期間は時間軸上で相互に重複する。スペクトルQの算定には、例えば短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。なお、通過帯域が相違する複数の帯域通過フィルタで構成されるフィルタバンクを周波数分析部22として利用することも可能である。
拍指標特定部24は、相前後する各単位期間における音響信号Sの強度の変化量の時系列(以下では「拍指標系列」という)Fを各単位期間のスペクトルQから特定する。具体的には、拍指標特定部24は、第1に、相前後する各単位期間における音響信号Sの強度差(絶対値)を全周波数にわたり加算または平均した数値の時系列を拍指標系列F0として算定し、第2に、拍指標系列F0のピークを強調する(例えば低周波成分を抑制する)ことで拍指標系列Fを生成する。したがって、拍指標系列F0または拍指標系列Fのうち音響信号Sの強度が大きく変動する時点にはピークが存在する。拍指標系列F0または拍指標系列Fのピークの時点が拍点に該当する可能性は高い。
<拍周期特定部30>
拍周期特定部30は、音響信号Sの拍周期Tを特定する。拍周期Tの特定には、拍指標特定部24が特定した拍指標系列Fが利用される。図2は、拍周期特定部30のブロック図である。図2に示すように、拍周期特定部30は、相関算定部31と信頼度算定部32と参照周期取得部33と加重部34と拍周期確定部35とを含んで構成される。
相関算定部31は、時間軸上の処理期間毎に拍指標系列Fの自己相関C0を算定し、複数の処理期間について自己相関C0を平均することで図3の平均相関Cを算定する。各処理期間は、単位期間の複数個分に相当する時間長に設定され、相前後する各処理期間は時間軸上で相互に重複する。
自己相関C0は、1個の処理期間の拍指標系列Fと時間(ラグ)τだけ遅延させた当該処理期間の拍指標系列Fとの相関であり、時間τの関数として表現される。拍指標系列Fのピークの間隔に相当する時間τにて自己相関C0(平均相関C)は増大する。以上の傾向を考慮して、図3に示すように、平均相関Cの相異なるピークPAに対応するN個(Nは2以上の自然数)の時間τが、拍周期Tの候補(以下「候補周期」という)τ[n](τ[1]〜τ[N])として特定される。図3では、9個の候補周期τ[1]〜τ[9](N=9)が例示されている。なお、一般的な楽曲のテンポに対応する範囲に候補周期τ[n]を制限することも可能である。
図2の信頼度算定部32は、図3に示すように、候補周期τ[n](n=1〜N)が音響信号Sの拍周期Tに該当する確度の指標である信頼度X0(τ[n])をN個の候補周期τ[1]〜τ[N]の各々について算定する。例えば、信頼度算定部32は、候補周期τ[n]の間隔で複数の検索窓(例えば矩形窓)を時間軸上に設定し、平均相関Cの複数のピークPAのうち各検索窓の内側に位置する各ピークPAの強度の平均または合計を信頼度X0(τ[n])として算定する。したがって、候補周期τ[n]が音響信号Sの拍周期Tに該当する確度が高いほど信頼度X0(τ[n])は大きい数値となる。なお、信頼度X0(τ[n])の算定については特許文献1にも詳述されている。
図2の参照周期取得部33は、利用者からの指示に応じて参照周期TREFを設定する。利用者は、音響信号Sの再生音の拍点に同期する時点で入力装置16を順次に操作(例えば操作面に手指を接触させるタップ操作)する。参照周期取得部33は、利用者が入力装置16を操作した各時点の間隔(IOI:Interonset Interval)の平均を参照周期TREFとして算定する。
加重部34は、信頼度算定部32が算定した各信頼度X0(τ[n])を、参照周期取得部33が設定した参照周期TREFに応じて加重(重み付け)する。具体的には、図3に示すように、加重部34は、時間(時間差)軸のうち参照周期TREFに応じた時点に設定された加重値分布WAを利用して時間軸上のN個の候補周期τ[1]〜τ[N]の各々の信頼度X0(τ[n])を加重することで各候補周期τ[n]の信頼度XW(τ[n])を算定する。
加重値分布WAは、時間τを変数とする分布関数(確率密度関数)で表現される加重値wA(τ)の分布である。具体的には、時間軸上の各加重値wA(τ)は、以下に例示する数式(1)の正規分布関数(ガウス関数)で表現される。すなわち、加重値分布WAは、参照周期TREFを平均とする分散σA2の正規分布である。具体的には、加重値wA(τ)は、図3に示すように、参照周期TREFから離間するほど減少するように参照周期TREFを中心(極大点)として時間軸の正側および負側の双方に分布する。
Figure 0006064561
加重部34は、以下の数式(2)で表現されるように、信頼度算定部32が各候補周期τ[n]について算定した信頼度X0(τ[n])を、加重値分布WAのうちその候補周期τ[n]に対応する時間τ(τ=τ[n])の加重値wA(τ[n])に応じて加重することで、N個の候補周期τ[1]〜τ[N]の各々について加重後の信頼度XW(τ[n])を算定する。すなわち、利用者からの指示に応じた参照周期TREFに近似する候補周期τ[n]の信頼度X0(τ[n])ほど大きい加重値wA(τ[n])で加重される。
Figure 0006064561
図2の拍周期確定部35は、加重部34による加重後の信頼度XW(τ[n])に応じてN個の候補周期τ[1]〜τ[N]の何れかを音響信号Sの拍周期Tとして選択する。具体的には、拍周期確定部35は、N個の候補周期τ[1]〜τ[N]のうち加重後の信頼度XW(τ[n])が最大となる候補周期τ[n]を拍周期Tとして確定する。なお、以上のように加重後の信頼度XW(τ[1])〜XW(τ[N])の相対的な大小に応じて拍周期Tが確定されるから、数式(1)の{1/(2π)1/2σA}を省略することも可能である。
以上に説明した通り、第1実施形態では、利用者からの指示(入力装置16に対するタップ操作)に応じた参照周期TREFの時点に設定された加重値分布WAの各加重値wA(τ)によりN個の候補周期τ[1]〜τ[N]の各々の信頼度X0(τ[n])が加重され、加重後の信頼度XW(τ[n])に応じた候補周期τ[n]が音響信号Sの拍周期Tとして確定される。したがって、信頼度X0(τ[n])が最大となる候補周期τ[n]を拍周期Tとして選択する構成(例えば特許文献1)と比較して拍周期Tを高精度に推定できるという利点がある。
例えば、図3では、候補周期τ[3]が音響信号Sの本来の拍周期T(正解)に該当する場合が想定されている。ただし、信頼度算定部32が候補周期τ[9]について算定した信頼度X0(τ[9])は候補周期τ[3]の信頼度X0(τ[3])を上回る。以上の状況において、信頼度X0(τ[n])が最大となる候補周期τ[n]を拍周期Tとして選択する特許文献1の構成では、候補周期τ[9]が拍周期Tとして誤推定される。他方、第1実施形態では、正解の候補周期τ[3]に近似する参照周期TREFの位置にて加重値wA(τ)が最大となるように加重値分布WAが設定されるから、加重後の信頼度XW(τ[3])は、信頼度XW(τ[9])を上回る最大値となる。したがって、信頼度XW(τ[3])に対応する候補周期τ[3]が音響信号Sの拍周期Tとして適切に確定される。
なお、図4に例示されるように加重値分布WAの分散σA2が過度に大きい場合には、加重前の信頼度X0(τ[n])と加重後の信頼度XW(τ[n])との相違が抑制されるから、候補周期τ[9]が拍周期Tとして誤推定される可能性がある。他方、図5に例示されるように加重値分布WAの分散σA2が過度に小さい場合、利用者の指示に応じた参照周期TREFが本来の拍周期T(T=τ[3])から僅かに相違するだけで、候補周期τ[3]の周囲の候補周期τ[2]が拍周期Tとして誤推定される可能性がある。以上の傾向を考慮して、加重値分布WAの分散σA2は、拍周期Tの誤推定が有効に防止されるように実験的または統計的に選定される。
<拍位置特定部40>
図1の拍位置特定部40は、音響信号Sの拍位置Bを特定する。拍位置Bの特定には、拍指標特定部24が特定した拍指標系列F0(音響信号Sの強度差の平均)が利用される。図6には拍指標系列F0が例示されている。拍指標系列F0の各ピークPBの時点が音響信号Sの拍点に該当する可能性が高いという前述の傾向を考慮して、拍位置特定部40は、拍指標系列F0に存在するM個(Mは2以上の自然数)のピークPBの各々に対応する時点を拍位置Bの候補(以下「候補位置」という)β[m](β[1]〜β[M])として拍位置Bを特定する。なお、拍指標系列F0のピークPBを強調した拍指標系列Fの各ピークの時点を候補位置β[m]とすることも可能である。図7は、拍位置特定部40のブロック図である。図7に示すように、拍位置特定部40は、信頼度算定部42と参照位置取得部43と加重部44と拍位置確定部45とを含んで構成される。
信頼度算定部42は、図6に示すように、候補位置β[m](m=1〜M)が音響信号Sの拍位置Bに該当する確度の指標である信頼度Y0(β[m])をM個の候補位置β[1]〜β[M]の各々について算定する。例えば、信頼度算定部42は、拍周期特定部30が特定した拍周期Tの間隔で候補位置β[m]から複数の検索窓(例えば矩形窓)を時間軸上に設定し、拍指標系列F0の複数のピークPBのうち各検索窓の内側に位置する各ピークPBの強度(音響信号Sの強度差)の平均または合計を信頼度Y0(β[m])として算定する。したがって、候補位置β[m]が音響信号Sの拍位置Bに該当する確度が高いほど信頼度Y0(β[m])は大きい数値となる。なお、特許文献1にも例示されるように、M個の候補位置β[1]〜β[M]から所定の条件のもとで選択された複数の候補位置β[m](例えばM個の候補位置β[1]〜β[M]のうち拍指標系列F0のピークPBを内包する検索窓の個数が多い候補位置β[m])について信頼度Y0(β[m])を算定することも可能である。なお、信頼度Y0(β[m])の算定については特許文献1にも詳述されている。
参照位置取得部43は、利用者からの指示に応じて参照位置BREFを設定する。利用者は、音響信号Sの再生音の拍点に同期した時点で入力装置16を操作(例えば操作面に手指を接触させるタップ操作)する。参照位置取得部43は、利用者が入力装置16を操作した1個の時点を参照位置BREFとして設定する。
加重部44は、信頼度算定部42が算定した各信頼度Y0(β[m])を、参照位置取得部43が設定した参照位置BREFに応じて加重する。具体的には、図6に示すように、加重部44は、時間軸のうち参照位置BREFに応じた時点に設定された加重値分布WBを利用して時間軸上のM個の候補位置β[1]〜β[M]の各々の信頼度Y0(β[m])を加重することで各候補位置β[m]の信頼度YW(β[m])を算定する。
加重値分布WBは、時間tを変数とする分布関数で表現される加重値wB(t)の分布である。具体的には、各加重値wB(t)は、前述の加重値wA(τ)と同様に、参照位置BREFを平均とする分散σB2の正規分布を規定する数式(3)の正規分布関数(ガウス関数)で表現される。すなわち、加重値wB(t)は、図6に示すように、参照位置BREFから離間するほど減少するように参照位置BREFを中心(極大点)として時間軸の正側および負側の双方に分布する。
Figure 0006064561
加重部44は、以下の数式(4)で表現されるように、信頼度算定部42が各候補位置β[m]について算定した信頼度Y0(β[m])を、加重値分布WBのうちその候補位置β[m]に対応する時間t(t=β[m])の加重値wB(β[m])に応じて加重することで、M個の候補位置β[1]〜β[M]の各々について加重後の信頼度YW(β[m])を算定する。すなわち、図6からも把握される通り、利用者からの指示に応じた参照位置BREFに近似する候補位置β[m]の信頼度Y0(β[m])ほど大きい加重値wB(β[m])で加重される。
Figure 0006064561
図7の拍位置確定部45は、加重部44による加重後の信頼度YW(β[m])に応じてM個の候補位置β[1]〜β[M]の何れかを音響信号Sの拍位置Bとして選択する。具体的には、拍位置確定部45は、M個の候補位置β[1]〜β[M]のうち加重後の信頼度YW(β[m])が最大となる候補位置β[m]を拍位置(頭拍)Bとして確定する。なお、以上のように加重後の信頼度YW(β[1])〜YW(β[M])の相対的な大小に応じて拍位置Bが確定されるから、数式(3)の{1/(2π)1/2σB}を省略することも可能である。
また、拍位置確定部45は、拍位置Bを基準として拍周期Tに応じた間隔で規定される各時点を拍位置bとして特定する。具体的には、拍位置確定部45は、拍位置Bを起点として時間軸上の後方(時間の経過側)に拍周期Tの間隔で複数の検索窓を設定し、各検索窓が内包する拍指標系列F0のピークPBの時点を拍位置bとして確定する。なお、拍位置Bを起点として時間軸上の前方(時間の遡及側)に拍周期Tの間隔で複数の検索窓を設定することも可能である。
検索窓の内部にピークPBが存在しない場合(例えば検索窓の内側の拍点が裏拍に相当する場合)、拍位置確定部45は、前後の拍位置bを拍周期Tに応じた間隔に等分する境界の時点を拍位置bとして確定する。例えば、確定済の拍位置(B,b)の間隔が8秒であり、拍周期Tが1秒(60BPM)である場合を想定すると、確定済の各拍位置の間隔を8等分する各時点が拍位置bとして確定される。また、収録音を拍点で区分した音響信号Sを処理対象とする場合、音響信号Sの始点や終点を拍位置bとして確定することも可能である。音響信号Sのうち無音区間の終点(発音区間の開始点)も拍位置bとして好適に確定され得る。
なお、図4を参照した説明から類推される通り、加重値分布WBの分散σB2が過度に大きい場合には、加重前の信頼度Y0(β[m])と加重後の信頼度YW(β[m])との相違が抑制されるから、拍位置Bの誤推定の抑制という所期の効果が減殺され得る。他方、図5を参照した説明から類推される通り、加重値分布WBの分散σB2が過度に小さい場合には、利用者の指示に応じた参照位置BREFが本来の拍位置Bから僅かに相違するだけで拍位置Bが誤推定される可能性がある。以上の傾向を考慮して、加重値分布WBの分散σB2は、拍位置Bの誤推定が有効に防止されるように実験的または統計的に選定される。
以上に説明した通り、第1実施形態では、利用者からの指示(入力装置16に対するタップ操作)に応じた参照位置BREFの時点に設定された加重値分布WBの各加重値wB(t)によりM個の候補位置β[1]〜β[M]の各々の信頼度Y0(β[m])が加重され、加重後の信頼度YW(β[m])に応じた候補位置β[m]が音響信号Sの拍位置Bとして確定される。したがって、信頼度Y0(β[m])が最大となる候補位置β[m]を拍位置Bとして選択する構成(例えば特許文献1)と比較して拍位置Bを高精度に推定できるという利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態では、前掲の数式(1)で表現される加重値分布WAの分散σA2を所定値に固定した。第2実施形態の加重部34は、加重値分布WAの分散σA2を可変に設定する。図4および図5を参照した説明から理解される通り、音響信号Sの拍周期Tが短いほど加重値分布WAの分散σA2を減少させることで音響信号Sの拍周期Tを高精度に推定できるという概略的な傾向が推察される。以上の傾向を考慮して、第2実施形態の加重部34は、参照周期TREFが短い(拍周期Tが短いと推定される場合)ほど加重値分布WAの分散σA2を減少させる。参照周期TREFと分散σA2との具体的な関係は任意である。例えば、参照周期TREFに対して分散σA2が線形に変化する構成や参照周期TREFに対して分散σA2が非線形に変化する構成が採用され得る。なお、拍周期Tが短い場合には各候補周期τ[n]の間隔も短いという概略的な傾向がある。したがって、各候補周期τ[n]の間隔が短いほど加重部34が加重値分布WAの分散σA2を減少させる構成も採用され得る。
また、第1実施形態では、前掲の数式(3)で表現される加重値分布WBの分散σB2を所定値に固定した。第2実施形態の加重部44は、加重値分布WBの分散σB2を可変に設定する。図4および図5を参照した説明から類推される通り、音響信号Sの拍点の間隔が短いほど加重値分布WBの分散σB2を減少させることで音響信号Sの拍位置Bを高精度に推定できるという概略的な傾向が推察される。以上の傾向を考慮して、第2実施形態の加重部44は、各候補位置β[m]の間隔が短いほど加重値分布WBの分散σB2を減少させる。各候補位置β[m]の間隔と分散σB2との具体的な関係は任意である。例えば、各候補位置β[m]の間隔に対して分散σB2が線形または非線形に変化する構成が採用され得る。なお、拍周期特定部30が特定した拍周期Tが短いほど加重部44が加重値分布WBの分散σB2を減少させる構成も採用され得る。
第2実施形態では、加重値分布WAの分散σA2が参照周期TREFまたは各候補周期τ[n]の間隔に応じて可変に設定されるから、分散σA2を所定値に固定した構成と比較して、拍周期Tを高精度に推定することが可能である。同様に、第2実施形態では、加重値分布WBの分散σB2が各候補位置β[m]の間隔に応じて可変に設定されるから、分散σB2を所定値に固定した構成と比較して、拍位置Bを高精度に推定することが可能である。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)利用者からの指示に応じて参照周期TREFを設定する具体的な方法は以上の例示(利用者による操作の間隔を平均して参照周期TREFを算定する方法)に限定されない。例えば、利用者による2回の操作(例えばタップ操作)の間隔を参照周期TREFとして設定することも可能である。また、利用者によるK回(Kは2以上の自然数)の操作(例えばタップ操作)から参照周期TREFを算定する場合を想定すると、第(k−1)回目の操作と第k回目の操作との間隔z(k)(k=1〜K)を適用した以下の数式(5)の演算(指数移動平均)で周期TREF(k)を算定し、第K回目の操作に対応する周期TREF(K)を参照周期TREFとして採択することも可能である。
Figure 0006064561

数式(5)の平滑化係数αは、1未満の所定の正数(0<α<1)に設定される。数式(5)から理解される通り、平滑化係数αが大きいほど時間的に後方の各操作の間隔z(k)が重視されるように参照周期TREFが算定される。利用者が入力装置16を複数回にわたり操作する場合、時間が経過するほど各操作の間隔が安定するという傾向がある。したがって、数式(5)を適用した構成によれば、利用者が操作を開始した当初と比較して安定した間隔z(k)を優先的に反映した適切な参照周期TREFを取得できるという利点がある。
また、利用者による操作の間隔z(k)の度数分布に応じて参照周期TREFを設定することも可能である。度数分布の各階級(クラス)の中心値は、例えば等比数列の関係(0.5,1,2,……)にある。参照周期取得部33は、度数分布において度数が最大となる階級に分類された各間隔z(k)の平均を参照周期TREFとして算定する。以上の構成によれば、間隔z(k)の外れ値(例えば利用者が一次的にタップ操作を忘れた場合の間隔z(k))の影響を有効に低減して参照周期TREFを適切に選定できるという利点がある。また、入力装置16を操作することで利用者が参照周期TREFの数値を直接的に指定する構成も採用され得る。
以上の例示から理解される通り、前述の各形態における参照周期取得部33は、利用者からの指示に応じて参照周期TREFを可変に設定する要素として包括され、利用者からの指示の態様や指示と参照周期TREFとの関係は任意である。
(2)利用者からの指示に応じて参照位置BREFを設定する具体的な方法は以上の例示(利用者による1回の操作の時点を参照位置BREFとして選定する方法)に限定されない。具体的には、利用者によるD回(Dは2以上の自然数)の操作のうち何れかの操作の時点を参照位置BREFとして選択することも可能である。例えば、時間が経過するほど利用者による操作の時点が安定するという傾向を前提とすれば、D回の操作のうち最後(第D回目)の操作の時点を参照位置BREFとして選択する構成が好適である。他方、操作の開始の当初ほど利用者による操作の時点が正確であるという傾向を前提とすれば、D回の操作のうち最初(第1回目)の操作の時点を参照位置BREFとして選択する構成が好適である。また、D回の操作のうち相前後する操作の間隔を平均することで操作周期を算定し、操作周期の間隔に合致する何れかの操作時点を参照位置BREFとして選択する構成も採用され得る。
以上の例示から理解される通り、前述の各形態における参照位置取得部43は、利用者からの指示に応じて参照位置BREFを可変に設定する要素として包括され、利用者からの指示の態様や指示と参照位置BREFとの関係は任意である。
(3)加重値分布WAおよび加重値分布WBの分布形状(分布関数の種類)は任意であり、前述の各形態で例示した正規分布には限定されない。例えば、参照周期TREFから離間するほど加重値wA(τ)が直線的に減少するように参照周期TREFを中心(頂点)として時間軸の正側および負側の双方に分布する三角分布を加重値分布WAとして利用することも可能である。同様に、参照位置BREFを中心とする三角分布が加重値分布WBとして利用され得る。
(4)各候補周期τ[n]の信頼度X0(τ[n])を算定する方法は任意であり、前述の各形態での例示には限定されない。例えば、前述の各形態では、候補周期τ[n]が拍周期Tに該当する確度が高いほど信頼度X0(τ[n])が大きい数値となる場合を例示したが、候補周期τ[n]が拍周期Tに該当する確度が高いほど信頼度X0(τ[n])が小さい数値となるように信頼度X0(τ[n])を算定することも可能である。候補周期τ[n]の確度が高いほど信頼度X0(τ[n])が減少する構成では、参照周期TREFから離間するほど加重値wA(τ)が増加するように加重値分布WAが選定される。例えば、数式(1)の右辺を分布dA(τ)とした場合には、{1−dA(τ)}が加重値wA(τ)(加重値分布WA)として好適に利用される。
同様に、各候補位置β[m]の信頼度Y0(β[m])を算定する方法は任意であり、前述の各形態での例示には限定されない。例えば、前述の各形態では、候補位置β[m]が拍位置Bに該当する確度が高いほど信頼度Y0(β[m])が大きい数値となる場合を例示したが、候補位置β[m]が拍位置Bに該当する確度が高いほど信頼度Y0(β[m])が小さい数値となるように信頼度Y0(β[m])を算定することも可能である。候補位置β[m]の確度が高いほど信頼度Y0(β[m])が減少する構成では、参照位置BREFから離間するほど加重値wB(t)が増加するように加重値分布WBが選定される。例えば、数式(3)の右辺を分布dB(τ)とした場合には、{1−dB(τ)}が加重値wB(t)(加重値分布WB)として好適に利用される。
(5)前述の各形態では、音響信号Sの全区間を対象として拍周期Tおよび拍位置Bを推定したが、音響信号Sを時間軸上で区分した複数の区間の各々について、前述の各形態と同様の方法で拍周期Tおよび拍位置Bを推定することも可能である。音響信号Sを複数の区間に区分する方法は任意であるが、例えば、音響信号Sを所定の時間長毎に複数の区間に区分する方法や、無音区間や非音声区間(例えば歌唱音が存在しない間奏区間)を境界として音響信号Sを複数の区間に区分する方法が例示され得る。以上のように音響信号Sの区間毎に個別に拍周期Tおよび拍位置Bを推定する構成によれば、音響信号Sのテンポが楽曲内で変化する場合にも拍周期Tおよび拍位置Bを推定できるという利点がある。
(6)前述の各形態では、拍周期特定部30および拍位置特定部40の双方を具備する拍情報推定装置100を例示したが、拍周期特定部30および拍位置特定部40の一方のみを具備する構成も採用され得る。また、拍周期特定部30および拍位置特定部40の双方を具備する構成において、各候補周期τ[n]の信頼度X0(τ[n])を加重する構成(加重部34および参照周期取得部33)と各候補位置β[m]の信頼度Y0(β[m])を加重する構成(加重部44および参照位置取得部43)との一方を省略することも可能である。信頼度X0(τ[n])の加重を省略した構成では、信頼度X0が最大となる候補周期τ[n]を拍周期確定部35が拍周期Tとして確定する。同様に、信頼度Y0(β[m])の加重を省略した構成では、信頼度Y0(β[m])が最大となる候補位置β[m]を拍位置確定部45が拍位置Bとして確定する。
(7)前述の各形態において加重値分布WAの分散σA2および加重値分布WBの分散σB2を選定する方法は任意である。本願発明者の実験によれば、音響信号Sのサンプリング周波数Fsに応じて分散σA2や分散σB2を可変に設定した場合に拍周期Tおよび拍位置Bを格別に高精度に推定できるという知見が見出された。具体的には、サンプリング周波数Fsが高いほど分散σA2や分散σB2を増加させた構成が好適である。例えば以下の数式(6)で例示される通り、音響信号Sのサンプリング周波数Fs[Hz]の自乗に比例するように分散σA2や分散σB2を算定する構成が採用される。例えばサンプリング周波数Fsが44.1kHz(Fs=44100)である場合に分散σA2および分散σB2は512に設定され、サンプリング周波数Fsが22.05kHzである場合に分散σA2および分散σB2は128に設定される。なお、分散σA2および分散σB2の一方のみをサンプリング周波数Fsに応じて設定することも可能である。
Figure 0006064561
(8)携帯電話機等の端末装置と通信するサーバ装置で拍情報推定装置100を実現することも可能である。例えば、拍情報推定装置100は、端末装置から受信した音響信号Sの拍周期Tおよび拍位置Bを推定して端末装置に通知する。なお、音響信号SのスペクトルQを拍情報推定装置100が端末装置から受信する構成では拍情報推定装置100から周波数分析部22が省略され、拍指標系列F0や拍指標系列Fを拍情報推定装置100が端末装置から受信する構成では拍情報推定装置100から拍指標特定部24が省略される。
100……拍情報推定装置、12……演算処理装置、14……記憶装置、16……入力装置、22……周波数分析部、24……拍指標特定部、30……拍周期特定部、31……相関算定部、32……信頼度算定部、33……参照周期取得部、34……加重部、35……拍周期確定部、40……拍位置特定部、42……信頼度算定部、43……参照位置取得部、44……加重部、45……拍位置確定部。

Claims (5)

  1. 音響信号の拍周期の候補である複数の候補周期の各々について第1信頼度を算定する第1信頼度算定手段と、
    利用者からの指示に応じて参照周期を可変に設定する参照周期取得手段と、
    時間軸上で前記参照周期に応じた時点に設定された第1加重値分布の各加重値により前記時間軸上の前記複数の候補周期の各々の第1信頼度を加重する第1加重手段と、
    前記第1加重手段による加重後の第1信頼度に応じて前記複数の候補周期の何れかを前記音響信号の拍周期として選択する拍周期確定手段と
    を具備する拍情報推定装置。
  2. 前記第1加重手段は、前記第1加重値分布の分散を可変に設定する
    請求項1の拍情報推定装置。
  3. 前記第1加重手段は、前記各候補周期の間隔または前記参照周期が短いほど前記第1加重値分布の分散を減少させる
    請求項2の拍情報推定装置。
  4. 前記音響信号の拍位置の候補である複数の候補位置の各々について第2信頼度を算定する第2信頼度算定手段と、
    利用者からの指示に応じて参照位置を可変に設定する参照位置取得手段と、
    時間軸上で前記参照位置に応じた時点に設定された第2加重値分布の各加重値により前記時間軸上の前記複数の候補位置の各々の第2信頼度を加重する第2加重手段と、
    前記第2加重手段による加重後の第2信頼度に応じて前記複数の候補位置の何れかを前記音響信号の拍位置として選択する拍位置確定手段と
    を具備する請求項1から請求項3の何れかの拍情報推定装置。
  5. 前記第2加重手段は、前記第2加重値分布の分散を可変に設定する
    請求項4の拍情報推定装置。
JP2012266027A 2012-12-05 2012-12-05 拍情報推定装置 Expired - Fee Related JP6064561B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012266027A JP6064561B2 (ja) 2012-12-05 2012-12-05 拍情報推定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012266027A JP6064561B2 (ja) 2012-12-05 2012-12-05 拍情報推定装置

Publications (2)

Publication Number Publication Date
JP2014112128A JP2014112128A (ja) 2014-06-19
JP6064561B2 true JP6064561B2 (ja) 2017-01-25

Family

ID=51169314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012266027A Expired - Fee Related JP6064561B2 (ja) 2012-12-05 2012-12-05 拍情報推定装置

Country Status (1)

Country Link
JP (1) JP6064561B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0619987A (ja) * 1992-07-06 1994-01-28 Nissan Motor Co Ltd デザイン装置
WO2007004540A1 (ja) * 2005-07-01 2007-01-11 Pioneer Corporation コンピュータプログラム、並びに情報再生装置及び方法
JP5092876B2 (ja) * 2008-04-28 2012-12-05 ヤマハ株式会社 音響処理装置およびプログラム

Also Published As

Publication number Publication date
JP2014112128A (ja) 2014-06-19

Similar Documents

Publication Publication Date Title
JP6017687B2 (ja) オーディオ信号分析
JP6177253B2 (ja) ハーモニシティベースの単一チャネルスピーチ品質評価
US9646592B2 (en) Audio signal analysis
US9473866B2 (en) System and method for tracking sound pitch across an audio signal using harmonic envelope
JP4454591B2 (ja) 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
JP6064566B2 (ja) 音響処理装置
CN107210029B (zh) 用于处理一连串信号以进行复调音符辨识的方法和装置
JP6729515B2 (ja) 楽曲解析方法、楽曲解析装置およびプログラム
JP5395399B2 (ja) 携帯端末、拍位置推定方法および拍位置推定プログラム
EP3111444B1 (en) Sinusoidal interpolation across missing data
JP5815435B2 (ja) 音源位置判定装置、音源位置判定方法、プログラム
JP6064561B2 (ja) 拍情報推定装置
JP5092876B2 (ja) 音響処理装置およびプログラム
CN108074588B (zh) 一种音高计算方法及装置
JP5203404B2 (ja) テンポ値検出装置およびテンポ値検出方法
JP5054646B2 (ja) 拍位置推定装置、拍位置推定方法および拍位置推定プログラム
US20220351707A1 (en) Method and device for flattening power of musical sound signal, and method and device for detecting beat timing of musical piece
JP2020085975A (ja) 雑音抑圧プログラム、雑音抑圧方法及び雑音抑圧装置
Cantri et al. Cumulative Scores Based for Real-Time Music Beat Detection System
JP4630982B2 (ja) 音高推定装置、音高推定方法およびプログラム
JP2015169900A (ja) 雑音抑圧装置
JP6152690B2 (ja) 音響解析装置
JP2004109742A (ja) 調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体
TW202338793A (zh) 去雜訊裝置以及去雜訊方法
JP2013020007A (ja) 小節の先頭拍推定方法および先頭拍推定システム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161205

R151 Written notification of patent or utility model registration

Ref document number: 6064561

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees