JP5092876B2 - Sound processing apparatus and program - Google Patents
Sound processing apparatus and program Download PDFInfo
- Publication number
- JP5092876B2 JP5092876B2 JP2008117104A JP2008117104A JP5092876B2 JP 5092876 B2 JP5092876 B2 JP 5092876B2 JP 2008117104 A JP2008117104 A JP 2008117104A JP 2008117104 A JP2008117104 A JP 2008117104A JP 5092876 B2 JP5092876 B2 JP 5092876B2
- Authority
- JP
- Japan
- Prior art keywords
- beat
- window
- point
- search
- peak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は、音響(音声や楽音)の波形を表す音響信号から拍点を検出する技術に関する。 The present invention relates to a technique for detecting a beat point from an acoustic signal representing an acoustic (speech or musical sound) waveform.
音響信号から拍点を検出する各種の技術が従来から提案されている。例えば特許文献1には、音響信号の強度の経時的な変化量を示すオンセットカーブ(onset curve)と、楽曲のテンポに応じた間隔で時間軸上に配列された複数のビートパターンテンプレート(beat pattern template)とを利用して音響信号の拍点を検出する技術が開示されている。時間軸上に画定された複数のフレームの各々についてオンセットカーブとビートパターンテンプレートとを照合することで、オンセット曲線の各ピークが拍点に該当するか否かの指標となる信頼度(confidence level)が算定される。信頼度の高低に応じて音響信号の拍点が確定される。
しかし、特許文献1の技術においては、音響信号の始点から終点までの全体にわたるフレーム毎に信頼度が算定される。したがって、拍点の特定のために膨大な演算が必要であるという問題がある。以上の事情に鑑みて、本発明は、音響信号の拍点の特定に必要な演算量を削減することをひとつの目的とする。
However, in the technique of
以上の課題を解決するために、本発明の第1の態様に係る音響処理装置は、音響信号の特徴量の変化を示す拍指標値の時系列(例えば拍指標系列X)を特定する拍指標特定手段と、音響信号の拍周期を特定する拍周期特定手段と、拍指標値の時系列における複数のピークを検出する候補検出手段と、複数のピークの各々を拍点の候補点として、拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列(例えば図10の窓列GA)を設定する第1窓列設定手段と、複数の第1窓列のうち拍指標値のピークを包含する検索窓の個数が多い2以上の窓列に対応した候補点を選択する選択手段と、選択手段が選択した2以上の候補点のうち、当該候補点から拍周期に応じた間隔で配列した各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する拍点確定手段とを具備する。 In order to solve the above problems, the acoustic processing device according to the first aspect of the present invention provides a beat index that specifies a time series (for example, a beat index series X) of beat index values indicating a change in a feature amount of an acoustic signal. Identifying means; beat period identifying means for identifying a beat period of an acoustic signal; candidate detecting means for detecting a plurality of peaks in a time series of beat index values; and each of the plurality of peaks as beat point candidate points. First window row setting means for setting a first window row (for example, window row GA in FIG. 10) in which a plurality of search windows are arranged from the candidate points at intervals according to the period, and beats of the plurality of first window rows. A selection means for selecting candidate points corresponding to two or more window rows having a large number of search windows including a peak of the index value, and of the two or more candidate points selected by the selection means, Selected according to the beat index value of the peak in each search window arranged at the corresponding interval Beat point determination means for determining a candidate point as a beat point.
以上の構成においては、拍指標値の時系列のピークを内包する検索窓の個数に応じて選択された2以上の窓列に対応した候補点のなかから、当該候補点から拍周期に応じた間隔で配列した各検索窓内のピークの拍指標値に応じた候補点が拍点として特定される。したがって、窓列設定手段が設定した総ての第1窓列について各検索窓内の拍指標値を調査して拍点を確定する構成と比較して、拍点の特定に必要な演算量が削減されるという利点がある。 In the above configuration, from the candidate points corresponding to two or more window rows selected according to the number of search windows including the time-series peak of the beat index value, the candidate point corresponds to the beat cycle. Candidate points corresponding to peak beat index values in each search window arranged at intervals are specified as beat points. Therefore, the amount of calculation required for specifying the beat point is smaller than that in the configuration in which the beat index value in each search window is examined for all the first window rows set by the window row setting means and the beat point is determined. There is an advantage that it is reduced.
第1の態様に係る音響処理装置の好適な態様は、選択手段が選択した2以上の候補点の各々について、第1窓列の各検索窓の窓幅(例えば図10の窓幅w1)よりも狭い窓幅(例えば図10の窓幅w2)の複数の検索窓を拍周期に応じた間隔で当該候補点から配列した第2窓列(例えば図10の窓列GB)を設定する第2窓列設定手段を具備し、拍点確定手段は、複数の第2窓列のうち各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する。以上の態様においては、候補点の選択に使用される第2窓列の各検索窓の窓幅が第1窓列の各検索窓の窓幅よりも狭いから、音響信号の拍点以外の要因(例えば雑音)に起因した拍指標値のピークが第2窓列の検索窓に内包される可能性が低減される。したがって、例えば選択手段が選択した2以上の候補点から拍点を確定する場合に第1窓列を使用する構成(つまり、候補点に対応する第1窓列の各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する構成)と比較して正確に拍点を特定することが可能である。一方、第1窓列の各検索窓の窓幅を狭めた場合には拍点の検索漏れが発生し易いという問題がある。以上の態様においては第1窓列の各検索窓の窓幅が第1窓列の各検索窓の窓幅と比較して広いから、拍点の検索漏れを抑制できるという利点がある。 A preferred aspect of the sound processing apparatus according to the first aspect is based on the window width of each search window in the first window row (for example, the window width w1 in FIG. 10) for each of the two or more candidate points selected by the selection means. A second window array (for example, window array GB in FIG. 10) in which a plurality of search windows having a narrow window width (for example, window width w2 in FIG. 10) are arranged from the candidate points at intervals corresponding to the beat period is set. A window sequence setting unit is provided, and the beat point determination unit determines a candidate point selected according to the peak beat index value in each search window among the plurality of second window columns as a beat point. In the above aspect, since the window width of each search window of the second window row used for selection of candidate points is narrower than the window width of each search window of the first window row, factors other than the beat point of the acoustic signal The possibility that the peak of the beat index value due to (for example, noise) is included in the search window of the second window row is reduced. Therefore, for example, a configuration in which the first window row is used when beat points are determined from two or more candidate points selected by the selection means (that is, beats of peaks in each search window of the first window row corresponding to the candidate points). Compared with a configuration in which the candidate point selected according to the index value is determined as a beat point, it is possible to accurately specify the beat point. On the other hand, when the window width of each search window in the first window row is narrowed, there is a problem that a beat point search is likely to be omitted. In the above aspect, since the window width of each search window of the first window row is wider than the window width of each search window of the first window row, there is an advantage that omission of searching for beat points can be suppressed.
第1の態様に係る音響処理装置の好適な態様において、選択手段は、第1窓列内の第1個数(例えば図10のH1個)の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、第1窓列設定手段が設定した複数の第1窓列から選別する第1抽出手段と、第1窓列内において第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、第1抽出手段が検出した2以上の第1窓列から選別する第2抽出手段とを含む。以上の態様においては、各第1窓列の第1個数の検索窓のうちピークを包含する検索窓の個数に応じた第1窓列の絞込みと、第1個数を上回る第2個数の検索窓のうちピークを包含する検索窓の個数に応じた第1窓列の絞込みとが段階的に実行される。したがって、第1個数の各検索窓内のピークの個数のみから第1窓列を選択する構成と比較して、拍点に対応する第1窓列を正確に抽出できるという利点がある。また、第2抽出手段による処理の対象が事前に削減されるから、第2個数の各検索窓内のピークの個数のみから第1窓列を選択する構成と比較して選択部の処理量が軽減されるという利点がある。 In a preferred aspect of the sound processing apparatus according to the first aspect, the selecting means includes a search including a peak of a beat index value among a first number (for example, H1 in FIG. 10) of search windows in the first window row. First extraction means for selecting a plurality of first window rows having a large number of windows from a plurality of first window rows set by the first window row setting means; and a first number exceeding the first number in the first window row. A second extraction in which two or more first window rows having a large number of search windows including the peak of the beat index value among the two number of search windows are selected from the two or more first window rows detected by the first extraction means. Means. In the above aspect, the narrowing of the first window row according to the number of search windows including the peak among the first number of search windows of each first window row, and the second number of search windows exceeding the first number. The first window row is narrowed down step by step according to the number of search windows including peaks. Therefore, there is an advantage that the first window row corresponding to the beat point can be accurately extracted as compared with the configuration in which the first window row is selected only from the number of peaks in each first number of search windows. In addition, since the number of objects to be processed by the second extraction unit is reduced in advance, the processing amount of the selection unit is smaller than the configuration in which the first window row is selected only from the number of peaks in each of the second number of search windows. There is an advantage of being reduced.
本発明の第2の態様に係る音響処理装置は、音響信号の特徴量の変化を示す拍指標値の時系列を特定する拍指標特定手段と、音響信号の拍周期を特定する拍周期特定手段と、拍指標値の時系列における複数のピークを検出する候補検出手段と、複数のピークの各々を拍点の候補点として、拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定手段と、第1窓列内の第1個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、第1窓列設定手段が設定した複数の第1窓列から選別する第1抽出手段と、第1窓列内において第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が最大となる第1窓列を、第1抽出手段が検出した2以上の第1窓列から選別し、当該第1窓列に対応する候補点を拍点として確定する第2抽出手段とを具備する。以上の態様においては、各第1窓列の第1個数の検索窓のうちピークを包含する検索窓の個数に応じた第1窓列の絞込みと、第1個数を上回る第2個数の検索窓のうちピークを包含する検索窓の個数に応じた第1窓列の絞込みとが実行される。したがって、第1個数の各検索窓内のピークの個数のみから第1窓列を選択する構成と比較して、拍点に対応する第1窓列を正確に抽出できるという利点がある。また、第2抽出手段による処理の対象が事前に削減されるから、第2個数の各検索窓内のピークの個数のみから第1窓列を選択する構成と比較して選択部の処理量が軽減される(したがって、音響処理装置の全体としても拍点の特定に必要な演算量が削減される)という利点がある。 The sound processing apparatus according to the second aspect of the present invention includes a beat index specifying means for specifying a time series of beat index values indicating a change in a characteristic amount of an acoustic signal, and a beat cycle specifying means for specifying a beat cycle of the sound signal. And candidate detecting means for detecting a plurality of peaks in the time series of beat index values, and each of the plurality of peaks as beat point candidate points, and a plurality of search windows arranged from the candidate points at intervals according to the beat period First window row setting means for setting the first window row, and two or more first windows having a large number of search windows including the peak of the beat index value among the first number of search windows in the first window row. First extraction means for selecting a row from a plurality of first window rows set by the first window row setting means, and a beat index value of a second number of search windows exceeding the first number in the first window row. the first window sequence number encompassing search window peaks is maximized, 2 or more of the first extracting means detects Sorted from 1 window column, and second extracting means for determining the candidate points corresponding to the first window column as beat positions. In the above aspect, the narrowing of the first window row according to the number of search windows including the peak among the first number of search windows of each first window row, and the second number of search windows exceeding the first number. The first window row is narrowed down according to the number of search windows including the peak. Therefore, there is an advantage that the first window row corresponding to the beat point can be accurately extracted as compared with the configuration in which the first window row is selected only from the number of peaks in each first number of search windows. In addition, since the number of objects to be processed by the second extraction unit is reduced in advance, the processing amount of the selection unit is smaller than the configuration in which the first window row is selected only from the number of peaks in each of the second number of search windows. There is an advantage that the amount of calculation necessary for specifying the beat point is reduced as a whole.
第1抽出手段を具備する態様において、第1個数の検索窓は、第1窓列の複数の検索窓のうち音響信号の始点側から順番に選択された複数の検索窓である。拍点は楽曲の最初の部分で明確かつ安定的に現れる場合が多いという傾向を考慮すると、第1個数の検索窓を音響信号の始点側から順番に選択する以上の態様によれば、他の部分の検索窓を使用する場合と比較して正確かつ安定的に拍点を検出できるという利点がある。 In the aspect including the first extraction means, the first number of search windows is a plurality of search windows selected in order from the start side of the acoustic signal among the plurality of search windows of the first window row. Considering the tendency that beat points often appear clearly and stably in the first part of the music, according to the above-described aspect, the first number of search windows are sequentially selected from the start point side of the acoustic signal. There is an advantage that beat points can be detected accurately and stably compared to the case of using a partial search window.
以上の各態様(第1の態様および第2の態様の双方を含む)に係る音響処理装置の具体例において、第1窓列設定手段は、ひとつの検索窓に包含されるピークから拍周期だけ経過した時点を窓幅の中心として次の検索窓を設定する(例えば図12の部分(B)および部分(C))。以上の具体例においては、検索窓内のピークが次の検索窓の設定の起算点とされるから、音響信号の拍周期に揺らぎがある場合であっても各拍点を正確に検出できるという利点がある。なお、第2窓列設定手段を具備する態様においては、第2窓列設定手段が、ひとつの検索窓に包含されるピークから拍周期だけ経過した時点を窓幅の中心として次の検索窓を設定する構成も採用される。 In the specific example of the sound processing apparatus according to each of the above aspects (including both the first aspect and the second aspect), the first window row setting unit is configured to perform only the beat period from the peak included in one search window. The next search window is set with the elapsed time as the center of the window width (for example, part (B) and part (C) in FIG. 12). In the above specific example, since the peak in the search window is used as a starting point for setting the next search window, each beat point can be accurately detected even when the beat cycle of the acoustic signal is fluctuated. There are advantages. In the aspect including the second window row setting means, the second window row setting means sets the next search window at the center of the window width at the time when the beat period has elapsed from the peak included in one search window. A configuration for setting is also adopted.
以上の各態様に係る音響処理装置の具体例において、拍点確定手段は、拍点として確定した候補点から拍周期に応じた間隔で配列された各検索窓内のピークを拍点として検出する。以上の具体例においては、音響信号の全体にわたる拍点の時系列を検出することが可能となる。また、拍点確定手段が確定した各拍点の間隔が拍周期を上回る場合に、当該各拍点の間に新たな拍点を設定する拍点補充手段を具備する構成によれば、音響信号において特徴量の変化が比較的に小さい拍点(すなわち拍指標値の時系列に顕著なピークとして現れない拍点)も適切に特定できるという利点がある。 In the specific example of the sound processing apparatus according to each aspect described above, the beat point determination unit detects, as beat points, peaks in each search window arranged at intervals according to the beat period from candidate points determined as beat points. . In the above specific example, it is possible to detect a time series of beat points over the entire acoustic signal. Further, according to the configuration including the beat point supplementing means for setting a new beat point between the beat points when the beat point interval determined by the beat point determining means exceeds the beat cycle, the acoustic signal There is an advantage that a beat point with a relatively small change in feature value (that is, a beat point that does not appear as a significant peak in the time series of beat index values) can be appropriately identified.
以上の各態様に係る音響処理装置の具体例において、拍周期特定手段は、拍指標値の時系列を区分した各単位区間について自己相関値を算定する相関算定手段と、相関算定手段が算定した自己相関値を複数の単位区間について平均する平均手段とを含み、平均手段による平均後の自己相関値から拍周期を特定する。以上の具体例においては、複数の単位区間にわたる自己相関値の平均が拍周期の特定に使用されるから、例えば、音響信号の特定の区間(例えばひとつの単位区間)の自己相関値のみから拍周期を特定する場合と比較して、音響信号の拍点以外の要因(例えば雑音)に起因した拍指標値のピークの影響を緩和して高精度に拍周期を特定できるという利点がある。 In the specific examples of the sound processing device according to each of the above aspects, the beat period specifying means calculates the correlation calculation means for calculating the autocorrelation value for each unit section into which the time series of the beat index values is divided, and the correlation calculation means Average means for averaging the autocorrelation values for a plurality of unit intervals, and the beat period is specified from the autocorrelation values after averaging by the averaging means. In the above specific examples, since the average of autocorrelation values over a plurality of unit intervals is used for specifying the beat cycle, for example, beats are calculated only from the autocorrelation values of a specific interval (for example, one unit interval) of an acoustic signal. Compared with the case where the period is specified, there is an advantage that the beat period can be specified with high accuracy by reducing the influence of the peak of the beat index value caused by factors other than the beat point of the acoustic signal (for example, noise).
以上の各態様に係る音響処理装置の具体例において、拍指標特定手段は、音響信号の特徴量の変化を示す拍指標値の時系列を算定する指標算定手段と、指標算定手段が算定した拍指標値の時系列における拍指標値の増減を強調するピーク強調手段とを含む。以上の具体例においては、拍指標値の時系列における拍指標値の増減(ピーク)が強調されるから、拍指標値の増減を強調しない場合と比較して拍点を正確に特定できるという利点がある。 In the specific examples of the acoustic processing device according to each of the above aspects, the beat index specifying means includes an index calculation means for calculating a time series of beat index values indicating changes in the feature amount of the acoustic signal, and a beat calculated by the index calculation means. Peak emphasizing means for emphasizing increase / decrease of beat index values in the time series of index values. In the above specific example, since the increase / decrease (peak) of the beat index value in the time series of the beat index value is emphasized, the advantage that the beat point can be accurately identified as compared with the case where the increase / decrease of the beat index value is not emphasized. There is.
以上の総ての態様に係る音響処理装置は、入力音の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。
本発明の第1の態様に係るプログラムは、音響信号の特徴量の変化を示す拍指標値の時系列を特定する拍指標特定処理と、音響信号の拍周期を特定する拍周期特定処理と、拍指標値の時系列における複数のピークを検出する候補検出処理と、複数のピークの各々を拍点の候補点として、拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定処理と、複数の第1窓列のうち拍指標値のピークを包含する検索窓の個数が多い2以上の窓列に対応した候補点を選択する選択処理と、選択処理で選択した2以上の候補点のうち、当該候補点から拍周期に応じた間隔で配列した各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する拍点確定処理とをコンピュータに実行させる。本発明のプログラムによれば、第1の態様に係る音響処理装置と同様の作用および効果が実現される。
本発明の第2の態様に係るプログラムは、音響信号の特徴量の変化を示す拍指標値の時系列を特定する拍指標特定処理と、前記音響信号の拍周期を特定する拍周期特定処理と、前記拍指標値の時系列における複数のピークを検出する候補検出処理と、前記複数のピークの各々を拍点の候補点として、前記拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定処理と、前記第1窓列内の第1個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、前記第1窓列設定処理で設定した複数の第1窓列から選別する第1抽出処理と、前記第1窓列内において前記第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が最大となる第1窓列を、前記第1抽出処理で検出した前記2以上の第1窓列から選別し、当該第1窓列に対応する候補点を拍点として確定する第2抽出処理とをコンピュータに実行させる。本発明のプログラムによれば、第2の態様に係る音響処理装置と同様の作用および効果が実現される。
本発明の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
The sound processing apparatus according to all the aspects described above is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to processing of input sound, and a general purpose such as a CPU (Central Processing Unit). This is also realized by cooperation between the arithmetic processing unit and the program .
The program according to the first aspect of the present invention includes a beat index specifying process for specifying a time series of beat index values indicating a change in a characteristic amount of an acoustic signal, a beat cycle specifying process for specifying a beat period of the acoustic signal, Candidate detection processing for detecting a plurality of peaks in the time series of beat index values, and a plurality of search windows arranged from the candidate points at intervals according to the beat period, with each of the plurality of peaks as a candidate point of a beat point First window sequence setting processing for setting one window sequence, and selection for selecting candidate points corresponding to two or more window sequences having a large number of search windows including a peak of the beat index value among a plurality of first window sequences Among the two or more candidate points selected in the process and the selection process, the candidate point selected according to the beat index value of the peak in each search window arranged at intervals according to the beat period from the candidate point as a beat point Causes the computer to execute beat point determination processing to be determined. According to the program of this invention, the effect | action and effect similar to the sound processing apparatus which concern on a 1st aspect are implement | achieved.
The program according to the second aspect of the present invention includes a beat index specifying process for specifying a time series of beat index values indicating a change in a characteristic amount of an acoustic signal, and a beat cycle specifying process for specifying a beat period of the acoustic signal. , Candidate detection processing for detecting a plurality of peaks in the time series of the beat index value, and using each of the plurality of peaks as a candidate point for a beat point, a plurality of search windows at intervals according to the beat period A first window row setting process for setting the first window row arranged from the above, and a number of search windows including a peak of a beat index value among a first number of search windows in the first window row is greater than 2 A first extraction process for selecting a first window row from a plurality of first window rows set in the first window row setting process; and a second number of search windows exceeding the first number in the first window row. The first window row in which the number of search windows including the peak of the beat index value is the maximum, Serial The sorted from two or more first window sequence detected by the first extraction process, to execute a second extraction process to determine the candidate points corresponding to the first window column as beats the computer. According to the program of this invention, the effect | action and effect similar to the sound processing apparatus which concern on a 2nd aspect are implement | achieved.
The program according to each aspect of the present invention is provided to the user in a form stored in a computer-readable recording medium and installed in the computer, and is also provided from the server device in the form of distribution via a communication network. Installed on the computer.
図1は、本発明の実施の形態に係る音響処理装置のブロック図である。図1に示すように、音響処理装置100は、制御装置12と記憶装置14とを具備するコンピュータシステムで実現される。制御装置12は、プログラムを実行することで複数の要素(周波数分析部20,拍指標特定部30,拍周期特定部40,候補検出部60,拍点特定部70)として機能する演算処理装置(CPU)である。ただし、制御装置12の各要素は専用の電子回路(DSP)でも実現される。記憶装置14は、制御装置12が実行するプログラムや制御装置12が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置14として任意に採用される。
FIG. 1 is a block diagram of a sound processing apparatus according to an embodiment of the present invention. As shown in FIG. 1, the
記憶装置14は、楽曲毎に音響信号Sを記憶する。音響信号Sは、楽曲の演奏音(楽音や音声)の時間軸上の波形を例えば44.1kHzの標本化周波数で標本化した多数のサンプルの時系列である。制御装置12は、音響信号Sの拍周期(テンポ)Tと各拍点(拍位置)Bとを特定する。拍周期Tは、相前後する各拍点Bの時間的な間隔である。本形態においては、音響信号Sが表す楽曲の全体にわたって拍周期Tが一定である場合(例えばダンス音楽やポップ音楽などテンポが楽曲の全体にわたって略一定の楽曲)を想定する。
The
周波数分析部20は、図2に示すように音響信号Sを時間軸上で区分した複数のフレームFの各々についてフーリエ変換(例えばハニング窓を利用した短時間フーリエ変換)を実行することで各フレームFの周波数スペクトル(パワースペクトル)Qを特定する。各フレームFは例えば音響信号Sのサンプルの2048個分に相当し、相前後するフレームFのズレ量(hop size)は例えば音響信号Sのサンプルの200個分に相当する。したがって、相前後する各フレームFは時間軸上で相互に重複する。
As shown in FIG. 2, the
図1の拍指標特定部30は、音響信号Sの特徴量の経時的な変化を示す拍指標系列Xを特定する。本形態の拍指標系列Xは、音響信号Sの強度の変化量に応じてフレームF毎に算定されたN個(Nは自然数)の拍指標値OB(OB[1],OB[2],……,OB[N])の時系列である。
The beat
図3に示すように、本形態の拍指標特定部30は、指標算定部32とピーク強調部34とを具備する。指標算定部32は、相前後する各フレームFにおける音響信号Sの強度の変化量に応じたN個の拍指標値OA(OA[1]〜OA[N])の時系列を拍指標系列X0として算定する。さらに詳述すると、拍指標系列X0における第j番目(j=1〜N)の拍指標値OA[j]は、以下に演算式(1)として例示するように、第j番目のフレームFの周波数スペクトルQと第(j+1)番目のフレームFの周波数スペクトルQとの各周波数における強度の差分(絶対値)を総ての周波数について合計(または平均)した数値である。演算式(1)の強度A[j,f]は、第j番目のフレームFの周波数スペクトルQのうち周波数fにおける強度を意味する。
図4の部分(A)は、拍指標系列X0を表す曲線(つまり拍指標値OA[1]〜OA[N]を連結した曲線)である。図4の部分(A)に示すように、拍指標系列X0のうち音響信号Sの強度が大きく変化する時点(楽曲の拍点を含む)にはピークが現れる。 Part (A) of FIG. 4 is a curve representing the beat index series X0 (that is, a curve connecting beat index values OA [1] to OA [N]). As shown in part (A) of FIG. 4, a peak appears at the time (including the beat point of the music) when the intensity of the acoustic signal S changes greatly in the beat index series X0.
図3のピーク強調部34は、指標算定部32が算定した拍指標系列X0のピーク(拍指標値OAの急激な増減)を強調することで拍指標系列X(拍指標値OB[1],OB[2],……,OB[N])を特定する。さらに詳述すると、ピーク強調部34は、拍指標系列X0の増減を抑制(平滑化)した数値(以下「平滑値」という)MA[j]を拍指標系列X0の拍指標値OA[j]から減算することで拍指標値OB[j]を算定する(OB[j]=OA[j]−MA[j])。平滑値MA[j]は、拍指標値OA[j]の近傍の複数個の拍指標値OAの平均値(低域成分)であり、例えば以下の演算式(2A)から演算式(2C)で定義される。
図5および演算式(2B)に示すように、基本的には、拍指標系列X0のうち拍指標値OA[j]を中心とするn個の拍指標値OA(OA[j-(n-1)/2]〜OA[j+(n-1)/2])の平均値(移動平均)が平滑値MA[j]として算定される。一方、図5に示すように音響信号Sの始点の近傍の部分については拍指標値OA[j]を中心とするn個の拍指標値OAを確保できないから、図5および演算式(2A)に示すように、拍指標値OA[j]から拍指標値OA[j+(n-1)/2]までの(n+1)/2個の拍指標値OAの平均値が平滑値MA[j]として算定される。音響信号Sの終点の近傍の部分についても同様に拍指標値OA[j]を中心とするn個の拍指標値OAを確保できないから、図5および演算式(2C)に示すように、拍指標値OA[j]から最後の拍指標値OA[N]までの(N-j+1)個の拍指標値OAの平均値が平滑値MA[j]として算定される。以上の方法で算定された平滑値MA[j]を拍指標値OA[j]から減算することで拍指標値OB[j]が算定されるから、図4の部分(B)に示すように、拍指標系列Xの曲線(つまり拍指標値OB[1]〜OB[N]を連結した曲線)は、拍指標系列X0のピーク(高域成分)を強調した形状となる。図4の部分(B)に示すように、拍指標系列Xのうち音響信号Sの強度が大きく変化する時点(典型的には楽曲の拍点)にはピークPBが現れる。 As shown in FIG. 5 and the arithmetic expression (2B), basically, n beat index values OA (OA [j− (n−) with the beat index value OA [j] as the center in the beat index series X0. The average value (moving average) of 1) / 2] to OA [j + (n-1) / 2]) is calculated as the smoothed value MA [j]. On the other hand, as shown in FIG. 5, n beat index values OA centered on the beat index value OA [j] cannot be secured in the vicinity of the start point of the acoustic signal S, so FIG. 5 and the calculation formula (2A) As shown, the average value of (n + 1) / 2 beat index values OA from the beat index value OA [j] to the beat index value OA [j + (n-1) / 2] is the smoothed value MA [ j]. Similarly, the n beat index values OA centered on the beat index value OA [j] cannot be secured in the vicinity of the end point of the acoustic signal S, so that the beat is calculated as shown in FIG. 5 and the arithmetic expression (2C). An average value of (N−j + 1) beat index values OA from the index value OA [j] to the last beat index value OA [N] is calculated as the smoothed value MA [j]. Since the beat index value OB [j] is calculated by subtracting the smooth value MA [j] calculated by the above method from the beat index value OA [j], as shown in part (B) of FIG. The curve of the beat index series X (that is, the curve connecting the beat index values OB [1] to OB [N]) has a shape that emphasizes the peak (high frequency component) of the beat index series X0. As shown in part (B) of FIG. 4, the peak PB appears at the time point (typically the beat point of the music) at which the intensity of the acoustic signal S greatly changes in the beat index series X.
図1の拍周期特定部40は音響信号Sの拍周期Tを特定する。拍周期Tの特定には、拍指標特定部30が特定した拍指標系列X(OB[1]〜OB[N])が利用される。図6は、拍周期特定部40のブロック図である。図6の区間設定部42は、拍指標系列XをNU個(NUは自然数)の単位区間Uに区分する。図4の部分(C)に示すように、各単位区間Uは、例えば拍指標値OBの1024個分(フレームFの1024個分)に相当する区間であり、相前後する単位区間Uのズレ量(hop size)は、例えば拍指標値OB(フレームF)の128個分に相当する。したがって、相前後する各単位区間Uは時間軸上で相互に重複する。
The beat
図6の相関算定部44は、NU個の単位区間Uの各々について拍指標系列Xの自己相関演算を実行することで単位区間U毎に自己相関値C0を算定する。自己相関演算は、拍指標値OBの1個分を単位として順次に変化させた複数の時間差Lの各々について、当該時間差Lを付与した拍指標系列Xと当初の拍指標系列X(すなわち時間差Lが付加されていない拍指標系列X)とで拍指標値OBの自己相関値C0を算定する処理である。図7の部分(A)は、時間差Lと自己相関値C0との関係を示すグラフである。拍指標系列XのピークPBの間隔に合致する時間差Lにて自己相関値C0は増大する。
The
ところで、各単位区間Uでの自己相関値C0の算定に使用される拍指標値OB(すなわち、時間差Lを付与した拍指標系列Xと当初の拍指標系列Xとが重複する区間内の拍指標値OB)の個数mは時間差Lが増加するほど減少する。したがって、図7の部分(A)に示すように、時間差Lが増加するほど自己相関値C0の変動は減少して雑音の影響を受け易くなる。そこで、本形態の相関算定部44は、自己相関値C0の算定に使用した拍指標値OBの個数mを利用して自己相関値C0を正規化することで自己相関値Cを算定する。個数mは、単位区間Uに包含される拍指標値OBの総数mU(本形態では1024)から時間差L内の拍指標値OBの総数mLを減算した数値である(m=mU−mL)。相関算定部44は、自己相関値C0を個数mで除算することで自己相関値Cを算定する(C=C0/m)。以上のように自己相関値C0を正規化することで、図7の部分(B)に示すように、時間差Lが大きい場合についても適切な自己相関値Cを算定することが可能となる。図7の部分(B)に示すように、拍指標系列XのピークPBの間隔(すなわち拍点の間隔)の整数倍に相当する時間差Lにて自己相関値Cにピークが現れる。
By the way, the beat index value OB used for calculating the autocorrelation value C0 in each unit section U (that is, the beat index in the section where the beat index series X given the time difference L and the original beat index series X overlap). The number m of the values OB) decreases as the time difference L increases. Therefore, as shown in part (A) of FIG. 7, as the time difference L increases, the fluctuation of the autocorrelation value C0 decreases and becomes more susceptible to noise. Therefore, the
以上のように時間差Lと自己相関値Cとの関係がNU個の単位区間Uの各々について特定される。図8の部分(A)は、時間差L(横軸)を共通化してNU個の単位区間Uの各々の自己相関値Cを縦軸(単位区間Uの番号)に配置した概念図である。図8の部分(A)において縦方向に延在する実線は各単位区間Uの自己相関値Cのピークの頂点を示す。本形態では音響信号Sの全体にわたって拍周期T(テンポ)が固定された場合を想定するから、図8の部分(A)に示すように、各単位区間Uの自己相関値Cのピークは時間差軸に沿って略等間隔に配置する。 As described above, the relationship between the time difference L and the autocorrelation value C is specified for each of the NU unit intervals U. Part (A) of FIG. 8 is a conceptual diagram in which the time difference L (horizontal axis) is shared and the autocorrelation values C of the NU unit sections U are arranged on the vertical axis (number of the unit section U). The solid line extending in the vertical direction in the part (A) of FIG. 8 indicates the peak apex of the autocorrelation value C of each unit section U. In this embodiment, since it is assumed that the beat period T (tempo) is fixed over the entire acoustic signal S, the peak of the autocorrelation value C in each unit section U is a time difference as shown in part (A) of FIG. It arrange | positions at substantially equal intervals along an axis | shaft.
図6の平均部46は、相関算定部44がNU個の単位区間Uの各々について算定した自己相関値Cを時間差L毎に平均(または合計)することで平均相関値Caveを算定する。すなわち、特定の時間差Lに対応する平均相関値Caveは、図8の部分(A)および部分(B)に示すように、当該時間差Lにおける自己相関値CをNU個の単位区間Uについて平均した数値である。
The
図6のピーク検出部48は、平均部46が算定した平均相関値Caveについて複数のピークPTを検出する。図9の部分(A)においては、ピーク検出部48が平均相関値Caveから検出したピークPTが黒丸で図示されている。ピークPTの検出には公知の技術が任意に採用される。
The
平均相関値Caveには、拍指標系列XのピークPBの間隔に対応した各時間差LにてピークPTが現れる。一方、拍指標系列XのピークPBの時点は、音響信号Sの強度が大きく変化する時点(典型的には楽曲の拍点B)である。したがって、平均相関値Caveの複数のピークPTのなかには、楽曲の拍周期Tに応じた間隔で時間差軸に沿って周期的に現れるピークPTが存在する。そこで、図6の窓列設定部50と信頼度算定部52と拍周期確定部54とは、拍周期Tの候補となる複数の間隔Δk(k=1〜K)の各々について、時間差軸上の当該間隔Δkで平均相関値CaveにピークPTが現れる確度(以下「信頼度」という)rを算定し、信頼度rが高い間隔Δkを拍周期Tとして確定する。
In the average correlation value Cave, a peak PT appears at each time difference L corresponding to the interval between the peaks PB of the beat index series X. On the other hand, the time point of the peak PB of the beat index series X is the time point when the intensity of the acoustic signal S changes greatly (typically, the beat point B of the music). Therefore, among the plurality of peaks PT of the average correlation value Cave, there are peaks PT that appear periodically along the time difference axis at intervals corresponding to the beat period T of the music. Therefore, the window
ところで、一般的な楽曲のテンポは60BPM(Beat-Per-Minute)から200BPMまでの範囲内にある。そこで、本形態においては、拍周期Tが、200BPMに対応する周期(0.3s(秒))から60BPMに対応する周期(1s)までの範囲内にあると仮定する。時間差Lの単位量は、拍指標値OBの1個分(すなわち音響信号S(44.1kHz)のサンプルの200個分)に相当する4.54ms(ミリ秒)であるから、200BPMに対応する拍周期(0.3s)は時間差Lに換算すると66(=0.3s/4.54ms)となり、60BPMに対応する拍周期(1s)は時間差Lに換算すると220(=1s/4.54ms)となる。そこで、本形態においては、間隔Δkを66から220までの範囲A内に制限する。以上の構成によれば、間隔Δkを制限しない場合と比較して信頼度rの算定の回数(演算量)が削減されるという利点がある。 By the way, the tempo of general music is in the range from 60 BPM (Beat-Per-Minute) to 200 BPM. Therefore, in this embodiment, it is assumed that the beat period T is within a range from a period corresponding to 200 BPM (0.3 s (seconds)) to a period corresponding to 60 BPM (1 s). Since the unit amount of the time difference L is 4.54 ms (milliseconds) corresponding to one beat index value OB (that is, 200 samples of the sound signal S (44.1 kHz)), the beat period corresponding to 200 BPM. (0.3 s) is 66 (= 0.3 s / 4.54 ms) when converted to time difference L, and the beat period (1 s) corresponding to 60 BPM is 220 (= 1 s / 4.54 ms) when converted to time difference L. Therefore, in this embodiment, the interval Δk is limited within the range A from 66 to 220. According to the above configuration, there is an advantage that the number of times of calculation of the reliability r (calculation amount) is reduced as compared with the case where the interval Δk is not limited.
図6の窓列設定部50は、図9の部分(A)および部分(B)(部分(A)の範囲A内の拡大図)に示すように、ピーク検出部48が平均相関値Caveから検出した総てのピークPTのなかから時間差軸上の66から220までの範囲A内にあるK個(Kは自然数)のピークPT(PT[1]〜PT[K])の各々について窓列GT(GT[1]〜GT[K])を設定する。
As shown in part (A) and part (B) of FIG. 9 (enlarged view within the range A of part (A)), the window
第k番目のピークPT[k]に対応する窓列GT[k]は、図9の部分(C)に示すように、ピークPT[k]から間隔Δkをあけて順次に時間差軸上に配置された4個の検索窓WT(WT[1]〜WT[4])の集合である。間隔Δkは、時間軸上の原点(すなわち時間差Lがゼロである地点)からピークPT[k]までの時間に相当する。したがって、窓列GT毎に間隔Δkは相違する。間隔Δkの設定に使用されるピークPT(PT[1]〜PT[K])は範囲A内に位置するから、間隔Δkは前述のように66から220までの範囲A内に制限される。各検索窓WT(WT[1]〜WT[4])の窓幅は所定値(例えば拍指標値OBの20個分)に設定される。図9の部分(C)に示すように、窓列GT[k]の検索窓WT[1]は、時間差軸の原点から間隔Δkだけ離間した時点に中点が位置するように配置される。窓列GT[k]の第2番目以降の各検索窓WTは、直前の検索窓WTの中点から間隔Δkだけ離間した時点に中点が位置するように配置される。なお、窓列GTを構成する検索窓WTの個数は任意に変更される The window row GT [k] corresponding to the kth peak PT [k] is sequentially arranged on the time difference axis with an interval Δk from the peak PT [k], as shown in part (C) of FIG. This is a set of four search windows WT (WT [1] to WT [4]). The interval Δk corresponds to the time from the origin on the time axis (that is, the point where the time difference L is zero) to the peak PT [k]. Therefore, the interval Δk is different for each window row GT. Since the peak PT (PT [1] to PT [K]) used for setting the interval Δk is located in the range A, the interval Δk is limited to the range A from 66 to 220 as described above. The window width of each search window WT (WT [1] to WT [4]) is set to a predetermined value (for example, 20 beat index values OB). As shown in part (C) of FIG. 9, the search window WT [1] of the window row GT [k] is arranged so that the midpoint is located at a point separated by the interval Δk from the origin of the time difference axis. The second and subsequent search windows WT in the window row GT [k] are arranged so that the midpoint is located at a time point spaced apart from the midpoint of the immediately preceding search window WT by the interval Δk. The number of search windows WT constituting the window row GT is arbitrarily changed.
図6の信頼度算定部52は、範囲A内のK個のピークPT(PT[1]〜PT[K])に対して窓列設定部50が設定したK個の窓列GT(GT[1]〜GT[K])の各々について信頼度r(r[1]〜r[K])を算定する。窓列GT[k]に対応する信頼度r[k]は、ピーク検出部48が平均相関値Caveから検出した複数のピークPT(範囲Aの外側のピークPTを含む)のうち当該窓列GT[k]の各検索窓WT(WT[1]〜WT[4])内に位置するピークPTの強度の平均値(または合計値)である。ひとつの検索窓WT内に複数のピークPTが存在する場合には、当該検索窓WTの中点に近いピークPTが信頼度r[k]の算定に使用される。
The
窓列GT[k]における検索窓WTの間隔Δkが音響信号Sの拍周期Tに該当する可能性が高いほど窓列GT[k]の信頼度r[k]は大きい数値となる。図6の拍周期確定部54は、K個の窓列GT(GT[1]〜GT[K])のうち信頼度rが最大となる窓列GT[k]を選択し、当該窓列GT[k]における検索窓WTの間隔Δkを音響信号Sの拍周期Tとして確定する。拍周期特定部40が特定した拍周期Tは、例えば音響信号Sに対応するように記憶装置14に格納される。以上が拍周期特定部40の構成および動作である。
The higher the possibility that the interval Δk of the search window WT in the window row GT [k] corresponds to the beat period T of the acoustic signal S, the greater the reliability r [k] of the window row GT [k]. The beat
図1の候補検出部60および拍点特定部70は、拍指標特定部30が特定した拍指標系列X(OB[1]〜OB[N])と拍周期特定部40が特定した拍周期Tとを利用して音響信号Sの拍点(拍位置)Bを検出する。拍点Bにおいては音響信号Sの強度が大きく変化する傾向があるから、拍点Bに対応するピークPBが拍指標系列Xに現れる可能性は高い。しかし、音響信号PBのうち拍点以外で強度が大きく変化した時点においても拍指標系列Xにピークが現れるから、ピークPBを単純に拍点Bとして特定することはできない。候補検出部60は、図10の部分(A)に示すように、拍指標系列Xに現れるM個(Mは自然数)のピークPBを検出し、ピークPBが現れる各時点を拍点Bの候補点BC(BC[1]〜BC[M])として特定したうえで記憶装置14に格納する。図1の拍点特定部70は、候補検出部60が特定したM個の候補点BC(BC[1]〜BC[M])から最終的な拍点Bを確定する。なお、拍指標系列Xに現れる総てのピークPBを拍点Bの候補点BCとする必要は必ずしもない。
The
図11は、拍点特定部70のブロック図である。図11の窓列設定部72は、候補検出部60が特定したM個の候補点BC(BC[1]〜BC[M])の各々について窓列GA(GA[1]〜GA[M])を設定する。図10の部分(B)に示すように、第i番目(i=1〜M)の候補点BC[i]に対応する窓列GA[i]は、候補点BC[i]から拍周期Tに応じた間隔で時間軸上に順次に配置されたmA個の検索窓WA(WA[1]〜WA[mA])の集合である。各検索窓WAの窓幅w1は、M個の窓列GA(GA[1]〜GA[M])について共通の所定値(例えば拍指標値OBの20個分)に設定される。窓列GA[i]の第1番目の検索窓WA[1]は中点が候補点BC[i]に合致するように配置され、第2番目の検索窓WA[2]は検索窓WA[1]の中点(候補点BC[i])から拍周期Tだけ離間した時点に中点が位置するように設定される。第3番目以降の検索窓WA(WA[3]〜WA[mA])は以下の手順で設定される。
FIG. 11 is a block diagram of the beat
図12の部分(A)に示すように検索窓WA[p-1](p=3〜mA)内に拍指標系列XのピークPBが存在しない場合、窓列設定部72は、検索窓WA[p-1]の中点から拍周期Tだけ離間した時点が中点となるように検索窓WA[p]を設定する。一方、図12の部分(B)に示すように検索窓WA[p-1]内にピークPBが存在する場合、窓列設定部72は、当該ピークPBから拍周期Tだけ離間した時点が中点となるように検索窓WA[p]を設定する。また、図12の部分(C)に示すように検索窓WA[p-1]内に複数のピークPBが存在する場合、窓列設定部72は、検索窓WA[p-1]の中点に近いピークPBから拍周期Tだけ離間した時点が中点となるように検索窓WA[p]を設定する。図10の部分(B)に示すように、音響信号Sの終点(拍指標値OB[N])から所定長ΔLだけ手前の時点を超えない範囲で検索窓WAの配置が反復される。所定長ΔLは、例えば拍周期Tと所定値(例えば10)との加算値である。窓列設定部72は、M個の窓列GA(GA[1]〜GA[M])の各々について、当該窓列GA[i]の各検索窓WA(WA[1]〜WA[mA])が拍指標系列XのピークPBを内包するか否かを示す情報(フラグ)を記憶装置14に格納する。
When the peak PB of the beat index series X does not exist in the search window WA [p-1] (p = 3 to mA) as shown in part (A) of FIG. 12, the window
図11の選択部74は、窓列設定部72が設定したM個の窓列GA(GA[1]〜GA[M])のうち拍指標系列XのピークPBを内包する検索窓WAの個数が多いn2個の窓列GA(すなわちn2個の候補点BC)を選択する。図11に示すように、本形態の選択部74は、第1抽出部741と第2抽出部742とで構成される。第1抽出部741は、M個の窓列GA(GA[1]〜GA[M])のなかから所定の条件を充足するn1個の窓列GAを抽出し、第2抽出部742は、第1抽出部741が抽出したn1個の窓列GAのなかから所定の条件を充足するn2個の窓列GAを抽出する。すなわち、M個の窓列GA(換言するとM個の候補点BC(BC[1]〜BC[M])が2段階にわたってn2個まで絞り込まれる。
11 selects the number of search windows WA including the peak PB of the beat index series X among the M window lines GA (GA [1] to GA [M]) set by the window
第1抽出部741は、図13に示すように、M個の窓列GA(GA[1]〜GA[M])の各々について、当該窓列GA[i]のmA個の検索窓WA(WA[1]〜WA[mA])から選択されたH1個(H1は自然数)の検索窓WAのうち拍指標系列XのピークPBを内包する検索窓WAの個数h1を特定する。個数H1は所定値(例えば32)に設定される。H1個の検索窓WAは、図10の部分(B)における窓列GA[1]について例示するように、窓列GA[i]を構成するmA個の検索窓WA(WA[1]〜WA[mA])のうち音響信号Sの始点側から順番に選択された検索窓WA(WA[1]〜WA[H1])の集合である。
As shown in FIG. 13, the
図13に示すように、第1抽出部741は、M個の窓列GA(GA[1]〜GA[M])のうち個数h1が所定の閾値TH1を上回るn1個の窓列GAを選択する。閾値TH1は、M個の窓列GAにおける個数h1の最大値(図13では窓列GA[2]に対応する個数h1)から所定値ΔTH1(例えば4)を減算した数値に設定される。図13においては、窓列GA[2],GA[4],GA[7],GA[9],……を含むn1個の窓列GAを第1抽出部741が選択した場合が想定されている。
As shown in FIG. 13, the
図11の第2抽出部742は、図14に示すように、第1抽出部741が抽出したn1個の窓列GAの各々について、当該窓列GA[i]のmA個(全部)の検索窓WA(WA[1]〜WA[mA])のうち拍指標系列XのピークPBを内包する検索窓WAの個数h2を特定する。さらに、第2抽出部742は、n1個の窓列GAのうち個数h2が閾値TH2を上回るn2個の窓列GAを選択する。閾値TH2は、第1抽出部741が抽出したn1個の窓列GAにおける個数h2の最大値(図14では窓列GA[2]に対応する個数h2)から所定値ΔTH2(例えば2)を減算した数値に設定される。図14においては、第1抽出部741が抽出したn1個の窓列GA(GA[2],GA[4],GA[7],GA[9],……)のうち窓列GA[2],GA[7],……を含むn2個の窓列GAを第2抽出部742が選択した場合が想定されている。
As shown in FIG. 14, the
図11の窓列設定部76は、選択部74が選択した各窓列GAに対応するn2個の候補点BCの各々について窓列GBを設定する。候補点BC[i]に対応する窓列GB[i]は、候補点BC[i]から拍周期Tに応じた間隔で配置されたmB個の検索窓WB(WB[1]〜WB[mB])の集合である。図10の部分(C)には、候補点BC[2]の窓列GB[2]が代表的に例示されている。窓列GB[i]の各検索窓WB(WB[1]〜WB[mB])の中点の位置は、窓列設定部72による検索窓WAの配置と同様の方法で拍周期Tに応じて決定される。図10の部分(C)に示すように、n2個の窓列GBにおける各検索窓WBの窓幅w2は、窓列設定部72が設定した検索窓WAの窓幅w1を下回る所定値(例えば拍指標値OBの10個分)に設定される。以上のように検索窓WAの窓幅w1と検索窓WBの窓幅w2とは相違するから、窓列GA[i]の各検索窓WAの位置と窓列GB[i]の各検索窓WBの位置とは必ずしも合致しない。
The window
図11の信頼度算定部78は、窓列設定部76が設定したn2個の窓列GBの各々について信頼度Rを算定する。窓列GB[i](候補点BC[i])に対応する信頼度R[i]は、候補点BC[i]が音響信号Sの拍点Bに該当する可能性の指標となる数値である。例えば、信頼度R[i]は、窓列GB[i]の各検索窓WB(WB[1]〜WB[mB])内に位置するピークPBの強度(拍指標値OB)の平均値または合計値である。ひとつの検索窓WB内に複数のピークPTが存在する場合には、当該検索窓WBの中点に近いピークPBが信頼度Rの算定に使用される。
The
拍点確定部80は、選択部74が選択したn2個の窓列GB(候補点BC)の何れかを各々の信頼度Rに応じて選択し、当該窓列GB[i]に対応する候補点BC[i]を拍点Bとして確定する。拍指標系列Xに高強度で周期的に現れるピークPBは拍点Bである可能性が高い。そこで、拍点確定部80は、n2個の窓列GBのうち信頼度R[i]が最大である窓列GB[i]に対応する候補点BC[i]を拍点Bとして確定する。さらに、拍点確定部80は、信頼度R[i]から拍点Bとして確定した候補点BC[i]の窓列GB[i]を構成するmB個の検索窓WB(WB[1]〜WB[mB])の各々が内包するピークPBの時点を拍点Bの系列として確定する。
The beat
ところで、信頼度R[i]が最大となる窓列GB[i]のmB個の検索窓WB(WB[1]〜WB[mB])のなかにはピークPBを包含しない検索窓WBも存在する。図11の拍点補充部82は、拍点確定部80が確定した複数の拍点Bの系列において相前後する各拍点Bの間隔gを算定し、拍周期Tを上回る間隔g内に新たな拍点Bnewを設定(補充)する。例えば、図15の部分(A)に示すように、相隣接する拍点Baと拍点Bbとの間隔gが拍周期Tの1.5倍から2.5倍までの範囲内にある場合(1.5T≦g<2.5T)、拍点補充部82は、拍点Baと拍点Bbとの中点に新たな拍点Bnewを追加する。また、図15の部分(B)に示すように、拍点Baと拍点Bbとの間隔gが拍周期Tの2.5倍から3.5倍までの範囲内にある場合(2.5T≦g<3.5T)、拍点補充部82は、拍点Baと拍点Bbとの間隔を3等分する各地点に拍点Bnewを追加する。
By the way, among the mB search windows WB (WB [1] to WB [mB]) of the window row GB [i] having the maximum reliability R [i], there is also a search window WB that does not include the peak PB. The beat
さらに、拍点補充部82は、新たな拍点Bnewを中点として所定の範囲内に拍指標系列XのピークPBが存在する場合、当該拍点Bnewを、当該ピークPBに対応した時点に補正する。拍点確定部80が確定した拍点Bの時点と拍点補充部82が設定した拍点Bnewの時点とは、例えば音響信号Sに対応するように記憶装置14に格納される。
Further, when the peak PB of the beat index series X exists within a predetermined range with the new beat point Bnew as the midpoint, the beat
以上の形態においては、第1に、選択部74が、拍指標系列XのピークPBを内包する検索窓WAの個数が多いn2個の窓列GAに対応した候補点BCを選択し、第2に、拍点確定部80が、n2個の候補点BCに対応した窓列GBのうち各検索窓WB内のピークPBの強度(拍指標値OB)に応じて選択した窓列GBの候補点BCを拍点Bとして確定する。拍指標系列XのピークPBを内包する検索窓WAの個数(n1,n2)は簡素な処理で計数されるから、本形態によれば、例えば各候補点BC(BC[1]〜BC[N])に対応したN個の窓列GA(GA[1]〜GA[N])の各々について各検索窓WA内のピークPBの強度に応じた信頼度Rを算定したうえで拍点Bを特定する構成と比較して、拍点特定部70による演算量(特に信頼度Rの算定の頻度)が削減されるという利点がある。さらに、窓列GBにおける検索窓WBの窓幅w2は窓列GAにおける検索窓WAの窓幅w1よりも狭いから、検索窓WAと検索窓WBとで窓幅を共通させた場合と比較して拍点Bを正確かつ効率的に検出することが可能である。
In the above embodiment, first, the
また、第1に、第1抽出部741が、窓列GAを構成するmA個の検索窓WAから選択されたH1個の検索窓WAのうちピークPBを内包する検索窓WAの個数h1に応じてn1個の窓列GAを選択し、第2に、第2抽出部742が、n1個の窓列GAの各々における総ての検索窓WAのうちピークPBを内包する検索窓WAの個数h2に応じてn2個の窓列GAを選択する。したがって、窓列GAのH1個の検索窓WA内のピークPBの個数h1からn2個の窓列GAを選択する処理のみを実行する場合と比較して、実際の拍点Bに対応する窓列GAを正確に抽出できるという利点がある。また、第2抽出部742による処理の対象が事前にn1個に削減されるから、M個の窓列GA(GA[1]〜GA[M])の各々について総ての検索窓WA内のピークPBの個数h2からn2個の窓列GAを選択する場合と比較して選択部74による演算量が軽減されるという利点もある。
First, the
窓列設定部72が各検索窓WAを配置する場合に、検索窓WAに内包されるピークPBの時点から拍周期Tだけ経過した時点を中点として次の検索窓WAが設定されるから、例えば拍周期Tの起算点を各検索窓WAの中点に固定した構成と比較して、音響信号Sの拍周期Tに揺らぎがある場合であっても各拍点Bを正確に検出できるという利点がある。以上においては検索窓WAについて言及したが、窓列設定部76による検索窓WBの設定についても同様の効果が実現される。
When the window
拍点確定部80の確定した拍点Bの間隔gが拍周期Tを上回る場合に当該間隔g内に新規な拍点Bnewが補充されるから、音響信号Sにおいて強度の変化が比較的に小さい拍点B(すなわち拍指標系列Xに顕著なピークPBとして現れない拍点B)も適切に特定できるという利点がある。
When the interval g between the beat points B determined by the beat
<変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下に例示する各態様を任意に組合わせてもよい。
<Modification>
Various modifications are added to the above embodiments. An example of a specific modification is as follows. In addition, you may combine each aspect illustrated below arbitrarily.
(1)変形例1
拍周期Tを特定する方法は以上の例示に限定されない。例えば、以上の形態においては、単位区間U毎の自己相関値CをNU個の単位区間Uについて平均した平均相関値Caveを拍周期Tの特定に利用したが、特定の単位区間Uの自己相関値Cを平均相関値Caveの代わりに利用する構成(平均部46を省略した構成)も採用される。ただし、ひとつの単位区間Uの自己相関値Cにおいては拍点B以外の要因(例えば雑音)の影響が顕在化するから、拍周期Tの特定の精度が制限されるという問題がある。図6の構成においてはNU個の単位区間Uにわたる平均相関値Caveが使用されるから、音響信号Sにおける拍点B以外の要因の影響を緩和して高精度に拍周期Tを特定できるという利点がある。
(1)
The method for specifying the beat period T is not limited to the above examples. For example, in the above embodiment, the average correlation value Cave obtained by averaging the autocorrelation value C for each unit interval U with respect to NU unit intervals U is used for specifying the beat period T. However, the autocorrelation of a specific unit interval U is used. A configuration in which the value C is used instead of the average correlation value Cave (a configuration in which the
以上の例示以外にも拍周期Tの特定には公知の技術が任意に採用される。また、拍周期Tを音響信号Sに対する演算で算定する処理は本発明において必須ではない。例えば、音響信号Sの拍周期Tが記憶装置14に格納された構成においては、拍周期Tを記憶装置14から読出す処理が本発明における「拍周期の特定」に相当する。ただし、図6の構成においては、拍指標特定部30の特定した拍指標系列Xが、拍周期特定部40による拍周期Tの特定と拍点特定部70による拍点Bの特定とに兼用されるから、拍周期特定部40が拍周期Tの特定に拍指標系列Xを使用しない構成と比較して、音響処理装置100の全体としての演算量が削減されるという利点がある。
In addition to the above examples, a known technique is arbitrarily employed for specifying the beat period T. Moreover, the process which calculates the beat period T by the calculation with respect to the acoustic signal S is not essential in this invention. For example, in the configuration in which the beat period T of the acoustic signal S is stored in the
(2)変形例2
拍指標系列X(X0)の定義や算定の方法は適宜に変更される。例えば、以上においては各フレームFの音響信号Sの全帯域にわたる強度の変化量を拍指標値OAとして拍指標系列Xを算定したが、音響信号Sのうち特定の周波数帯域(例えば高音域)に属する成分の強度から拍指標系列Xを算定する構成や、相前後する各フレームFにおける音響信号Sの強度の相対比を拍指標値OAとして拍指標系列Xを算定する構成も採用される。
(2)
The definition and calculation method of the beat index series X (X0) are changed as appropriate. For example, in the above description, the beat index series X is calculated using the change in intensity over the entire band of the acoustic signal S of each frame F as the beat index value OA, but the acoustic signal S has a specific frequency band (for example, a high frequency range). A configuration for calculating the beat index series X from the intensity of the component to which it belongs, and a structure for calculating the beat index series X using the relative ratio of the intensity of the acoustic signal S in each successive frame F as the beat index value OA are also employed.
また、拍指標系列Xの基礎となる特徴量は音響信号Sの強度に限定されない。例えば、各フレームFの複素スペクトルの位相偏差を拍指標値OAとして拍指標系列Xが算定される。さらに詳述すると、過去のフレームFから各フレームFについて予測される音響信号Sの短時間複素スペクトルの位相と当該フレームFの実際の位相との差分値(あるいは単純に前後の各フレームFの位相の差分値)を周波数毎に算定し、各差分値の絶対値を全帯域にわたって合計または平均した数値を各フレームFの拍指標値OAとすることで拍指標系列Xが生成される。位相偏差を利用した場合にも拍点B(打撃音)の位置を高精度に検出することが可能である。 Further, the feature quantity that is the basis of the beat index series X is not limited to the intensity of the acoustic signal S. For example, the beat index series X is calculated using the phase deviation of the complex spectrum of each frame F as the beat index value OA. More specifically, the difference between the phase of the short-time complex spectrum of the acoustic signal S predicted for each frame F from the past frame F and the actual phase of the frame F (or simply the phases of the preceding and subsequent frames F). The beat index series X is generated by calculating a value obtained by summing or averaging the absolute values of the difference values over the entire band as the beat index value OA of each frame F. Even when the phase deviation is used, the position of the beat point B (striking sound) can be detected with high accuracy.
さらに、相前後する各フレームFの周波数スペクトルQから特定されるベクトル間の距離(例えばユークリッド距離)を拍指標値OAとして拍指標系列X0を特定する構成や、音響信号Sにおいて相前後する各フレームFの強度(音量)の差分の時系列を拍指標系列X0として算定する構成(周波数スペクトルQの算定を省略した構成)も採用される。以上の例示から理解されるように、音響信号Sの特徴量の変化の程度の指標となる任意の数値が本発明における拍指標値として利用される。 Further, a configuration in which the beat index series X0 is specified using a distance (for example, Euclidean distance) between vectors specified from the frequency spectrum Q of each successive frame F as a beat index value OA, and each successive frame in the acoustic signal S. A configuration (a configuration in which the calculation of the frequency spectrum Q is omitted) that calculates the time series of the difference in F intensity (volume) as the beat index sequence X0 is also employed. As can be understood from the above examples, any numerical value serving as an index of the degree of change in the characteristic amount of the acoustic signal S is used as the beat index value in the present invention.
また、ピーク強調部34を省略した構成も好適である。すなわち、指標算定部32が算定した拍指標値OA(OA[1]〜OA[N])の系列が拍指標系列Xとして拍周期特定部40や候補検出部60に使用される。また、ピーク強調部34を具備する構成において、拍指標系列X0のピークを強調する方法は以上の例示に限定されない。例えば、拍指標系列X0に対してハイパスフィルタ処理を実行することで拍指標系列Xが特定される。
A configuration in which the
(3)変形例3
以上の形態においては、第1抽出部741による候補点BC(窓列GA)の絞込みと第2抽出部742による候補点BC(窓列GA)の絞込みと信頼度Rに応じた候補点BCの絞込み(拍点Bの確定)とを実行する構成を例示したが、以上の3種類の絞込みのうち任意の2種類の絞込みのみを採用した構成も好適である。例えば、第1抽出部741および第2抽出部742の一方を省略した構成や信頼度算定部78(さらには窓列設定部76)を省略した構成も採用される。信頼度算定部78を省略した構成においては、例えば、第1抽出部741が選別したn1個の窓列GAのうちピークPBを内包する検索窓WAの個数h2が最大となる窓列GA[i]に対応した候補点BC[i]が拍点Bとして確定される。
(3)
In the above embodiment, the candidate point BC (window row GA) is narrowed down by the
(4)変形例4
以上の形態においては、第2抽出部742が窓列GA[i]の総て(mA個)の検索窓WA(WA[1]〜WA[mA])を対象として個数h2を特定したが、窓列GA[i]のうち一部の検索窓WAのみを個数h2の計数に使用してもよい。すなわち、第1抽出部741と第2抽出部742とを具備する構成においては、第2抽出部742による個数h2の計数に使用される検索窓WAの個数H2が、第1抽出部741による個数h1の計数に使用される検索窓WAの個数H1を上回る構成が好適であり、個数H2の検索窓WAが窓列GAの全部であるか一部であるかは不問である。
(4)
In the above embodiment, the
また、第1抽出部741が個数h1の計数に使用するH1個の検索窓WAは窓列GAから任意に選択される。例えば、音響信号Sの中途の部分や最後の部分に対応するH1個の検索窓WAを選択する構成や、音響信号Sの始点から終点までにわたって分散的にH1個の検索窓WAを選択する構成が採用される。ただし、拍点B(拍間隔T)は、楽曲のうちの最初の部分で明確かつ安定的に現れる場合が特に多いという傾向があるから、個数h1の計数に使用するH1個の検索窓WAを音響信号S(楽曲)の始点側から順番に選択する構成によれば、他の部分の検索窓WAを使用する場合と比較して正確かつ安定的に拍点Bを検出できるという利点がある。
The H1 search windows WA used by the
(5)変形例5
以上の形態においては音響信号Sの全体にわたって拍周期T(テンポ)が一定である場合を例示したが、拍周期Tが音響信号Sの各部分で変化する場合であっても、以上の形態に例示した拍周期Tや拍点Bの特定は適用される。図16は、楽曲内で拍周期Tが変化する場合における単位区間U毎の自己相関値Cを図8の部分(A)と同様の方法で図示した概念図である。自己相関値Cには拍周期Tに応じた間隔でピーク(PT)が発生するから、楽曲内で拍周期Tが相異なる各区間V(V1,V2,V3)においては自己相関値CのピークPTの間隔が相違する。図17は、変形例に係る拍周期特定部40のブロック図である。図17の区間検出部56は、各単位区間Uにおける自己相関値CのピークPTの間隔を算定するとともに当該間隔が変化する時点を境界として音響信号Sを複数の区間Vに区分する。図17の平均部46から拍周期確定部54までの各要素は、複数の区間Vの各々について以上の形態(図1)と同様の処理を実行することで区間V毎に拍周期Tを特定する。一方、拍点特定部70は、音響信号Sの複数の区間Vの各々について、当該区間V内の拍指標系列Xと当該区間Vの拍周期Tとを利用して以上の形態と同様の方法で拍点Bの系列を特定する。なお、拍周期Tの変化を検出する方法は以上の例示に限定されない。
(5)
Although the case where the beat period T (tempo) is constant over the entire acoustic signal S has been exemplified in the above form, even if the beat period T changes in each part of the acoustic signal S, the above form is adopted. The specified beat period T and beat point B are applied. FIG. 16 is a conceptual diagram illustrating the autocorrelation value C for each unit section U when the beat period T changes in the music piece in the same manner as the part (A) of FIG. Since the autocorrelation value C has a peak (PT) at intervals corresponding to the beat period T, the peak of the autocorrelation value C is obtained in each section V (V1, V2, V3) having a different beat period T in the music. The interval of PT is different. FIG. 17 is a block diagram of the beat
(6)変形例6
以上の形態においては信頼度R[i]の算定に窓列GB[i]を利用したが、窓列設定部72が設定した窓列GA[i]を利用して信頼度算定部78が信頼度R[i]を算定する構成も採用される。例えば、信頼度算定部78は、選択部74が選択したn2個の窓列GAの各々について、当該窓列GA[i]の各検索窓WA(WA[1]〜WA[mA])内に位置するピークPBの強度(拍指標値OB)の平均値または合計値を信頼度R[i]として算定する。以上のように信頼度R[i]の算定に窓列GA[i]を使用する構成においては窓列設定部76が省略される。もっとも、図10の部分(B)および部分(C)のように検索窓WAの窓幅w1と比較して窓幅w2が狭い検索窓WBを配列した窓列GBを信頼度R[i]の算定に使用する構成によれば、拍点B以外の要因(例えば雑音)に起因して検索窓WBにピークPBが現れる可能性が低減されるから、窓列設定部76を省略した構成と比較して正確に拍点Bを検出できるという利点がある。
(6)
In the above embodiment, the window row GB [i] is used to calculate the reliability R [i]. However, the
(7)変形例7
以上の形態においては音響信号Sの全体にわたる拍点Bを検出したが、楽曲の最初の拍点B(候補点BC)のみを検出する構成も採用される。例えば、拍点確定部80は、信頼度R[i]が最大となる窓列GB[i]に対応した候補点BC[i]のみを楽曲の最初の拍点Bとして確定する。また、拍点補充部82を省略した構成も採用される。
(7)
In the above embodiment, the beat point B over the entire acoustic signal S is detected, but a configuration in which only the first beat point B (candidate point BC) of the music is detected is also employed. For example, the beat
(8)変形例8
以上の形態においては音響信号Sが記憶装置14に格納された構成を例示したが、音響信号Sの各フレームFの周波数スペクトルQが事前に算定されて記憶装置14に格納された構成においては、記憶装置14に音響信号Sが保持される必要はない。
(8)
In the above embodiment, the configuration in which the acoustic signal S is stored in the
(9)変形例9
以上の形態においては、拍指標特定部30と拍周期特定部40と拍点特定部70とを具備する音響処理装置100を例示したが、拍指標特定部30と拍周期特定部40と拍点特定部70とは各々が独立した装置として成立する。すなわち、拍指標特定部30を具備する音響処理装置は、拍周期Tの特定や拍点Bの検出に使用される拍指標系列X(拍指標値OB[1]〜OB[N])を特定する装置として成立し、拍周期特定部40を具備する音響処理装置は、拍指標系列X(拍指標値OB[1]〜OB[N])から拍周期T(テンポ)を特定する装置として成立し、拍点特定部70を具備する音響処理装置は、拍指標系列X(拍指標値OB[1]〜OB[N])と拍周期Tとから拍点Bを特定する装置として成立する。
(9)
In the above embodiment, the
100……音響処理装置、12……制御装置、14……記憶装置、20……周波数分析部、30……拍指標特定部、32……指標算定部、34……ピーク強調部、40……拍周期特定部、42……区間設定部、44……相関算定部、46……平均部、48……ピーク検出部、50……窓列設定部、52……信頼度算定部、54……拍周期確定部、56……区間検出部、60……候補検出部、70……拍点特定部、72……窓列設定部、74……選択部、741……第1抽出部、742……第2抽出部、76……窓列設定部、78……信頼度算定部、80……拍点確定部、82……拍点補充部。
DESCRIPTION OF
Claims (12)
前記音響信号の拍周期を特定する拍周期特定手段と、
前記拍指標値の時系列における複数のピークを検出する候補検出手段と、
前記複数のピークの各々を拍点の候補点として、前記拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定手段と、
複数の前記第1窓列のうち前記拍指標値のピークを包含する検索窓の個数が多い2以上の窓列に対応した候補点を選択する選択手段と、
前記選択手段が選択した2以上の候補点のうち、当該候補点から前記拍周期に応じた間隔で配列した各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する拍点確定手段と
を具備する音響処理装置。 A beat index specifying means for specifying a time series of beat index values indicating changes in the characteristic amount of the acoustic signal;
Beat period specifying means for specifying a beat period of the acoustic signal;
Candidate detection means for detecting a plurality of peaks in the time series of the beat index value;
Each of the plurality of peaks as beat point candidate points, a first window row setting means for setting a first window row in which a plurality of search windows are arranged from the candidate points at intervals according to the beat period;
Selecting means for selecting candidate points corresponding to two or more window rows having a large number of search windows including a peak of the beat index value among the plurality of first window rows;
Of the two or more candidate points selected by the selection means, a candidate point selected according to the peak beat index value in each search window arranged at an interval corresponding to the beat cycle from the candidate point is determined as a beat point. A sound processing apparatus comprising: beat point determination means.
前記拍点確定手段は、前記複数の第2窓列のうち各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する
請求項1の音響処理装置。 For each of the two or more candidate points selected by the selection means, a plurality of search windows having a window width narrower than the window width of each search window in the first window row are extracted from the candidate points at intervals corresponding to the beat period. Comprising second window row setting means for setting the arranged second window rows;
The sound processing device according to claim 1, wherein the beat point determination unit determines a candidate point selected according to a peak beat index value in each search window from the plurality of second window rows as a beat point.
前記第1窓列内の第1個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、前記第1窓列設定手段が設定した複数の第1窓列から選別する第1抽出手段と、
前記第1窓列内において前記第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、前記第1抽出手段が検出した前記2以上の第1窓列から選別する第2抽出手段とを含む
請求項1または請求項2の音響処理装置。 The selection means includes
Among the first number of search windows in the first window row, a plurality of first window rows having two or more search windows including a peak of the beat index value are set by the first window row setting means. First extraction means for selecting from the first window row;
The first extracting means selects two or more first window rows having a large number of search windows including a peak of a beat index value among a second number of search windows exceeding the first number in the first window row. The sound processing apparatus according to claim 1, further comprising: a second extraction unit that selects the detected two or more first window rows.
前記音響信号の拍周期を特定する拍周期特定手段と、
前記拍指標値の時系列における複数のピークを検出する候補検出手段と、
前記複数のピークの各々を拍点の候補点として、前記拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定手段と、
前記第1窓列内の第1個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、前記第1窓列設定手段が設定した複数の第1窓列から選別する第1抽出手段と、
前記第1窓列内において前記第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が最大となる第1窓列を、前記第1抽出手段が検出した前記2以上の第1窓列から選別し、当該第1窓列に対応する候補点を拍点として確定する第2抽出手段と
を具備する音響処理装置。 A beat index specifying means for specifying a time series of beat index values indicating changes in the characteristic amount of the acoustic signal;
Beat period specifying means for specifying a beat period of the acoustic signal;
Candidate detection means for detecting a plurality of peaks in the time series of the beat index value;
Each of the plurality of peaks as beat point candidate points, a first window row setting means for setting a first window row in which a plurality of search windows are arranged from the candidate points at intervals according to the beat period;
Among the first number of search windows in the first window row, a plurality of first window rows having two or more search windows including a peak of the beat index value are set by the first window row setting means. First extraction means for selecting from the first window row;
The first extraction means detects the first window row in which the number of search windows including the peak of the beat index value is the maximum among the second number of search windows exceeding the first number in the first window row. And a second extraction unit that selects from the two or more first window rows and determines a candidate point corresponding to the first window row as a beat point.
請求項3または請求項4の音響処理装置。 5. The acoustic processing device according to claim 3, wherein the first number of search windows is a plurality of search windows sequentially selected from a start point side of the acoustic signal among the plurality of search windows of the first window row. .
請求項1から請求項5の音響処理装置。 The sound processing device according to any one of claims 1 to 5, wherein the first window row setting means sets the next search window with the time when the beat period has elapsed from a peak included in one search window as the center of the window width. .
請求項1から請求項3の何れかの音響処理装置。 The sound according to any one of claims 1 to 3 , wherein the beat point determining means detects, as beat points, peaks in each search window arranged at intervals according to the beat period from candidate points determined as beat points. Processing equipment.
を具備する請求項7の音響処理装置。 The sound processing device according to claim 7, further comprising beat point supplementing means for setting a new beat point between the beat points when the interval between the beat points determined by the beat point determining means exceeds the beat cycle. .
前記拍指標値の時系列を区分した各単位区間について自己相関値を算定する相関算定手段と、
前記相関算定手段が算定した自己相関値を複数の単位区間について平均する平均手段と
を含み、前記平均手段による平均後の自己相関値から前記拍周期を特定する
請求項1から請求項8の何れかの音響処理装置。 The beat period specifying means includes
Correlation calculating means for calculating an autocorrelation value for each unit section dividing the time series of the beat index values;
9. An average means for averaging the autocorrelation values calculated by the correlation calculation means for a plurality of unit sections, wherein the beat period is specified from the autocorrelation values after the averaging by the averaging means. Sound processing device.
前記音響信号の特徴量の変化を示す拍指標値の時系列を算定する指標算定手段と、
前記指標算定手段が算定した拍指標値の時系列における拍指標値の増減を強調するピーク強調手段とを含む
請求項1から請求項9の何れかの音響処理装置。 The beat index specifying means includes
Index calculation means for calculating a time series of beat index values indicating changes in the characteristic amount of the acoustic signal;
The sound processing apparatus according to claim 1, further comprising: a peak emphasizing unit that emphasizes an increase / decrease in a beat index value in a time series of beat index values calculated by the index calculating unit.
前記音響信号の拍周期を特定する拍周期特定処理と、
前記拍指標値の時系列における複数のピークを検出する候補検出処理と、
前記複数のピークの各々を拍点の候補点として、前記拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定処理と、
前記複数の第1窓列のうち前記拍指標値のピークを包含する検索窓の個数が多い2以上の窓列に対応した候補点を選択する選択処理と、
前記選択処理で選択した2以上の候補点のうち、当該候補点から前記拍周期に応じた間隔で配列した各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する拍点確定処理と
をコンピュータに実行させるプログラム。 A beat index specifying process for specifying a time series of beat index values indicating changes in the characteristic amount of the acoustic signal;
A beat period specifying process for specifying a beat period of the acoustic signal;
Candidate detection processing for detecting a plurality of peaks in the time series of the beat index value;
Each of the plurality of peaks as beat point candidate points, a first window row setting process for setting a first window row in which a plurality of search windows are arranged from the candidate points at intervals according to the beat period;
A selection process for selecting candidate points corresponding to two or more window rows having a large number of search windows including the peak of the beat index value among the plurality of first window rows;
Of the two or more candidate points selected in the selection process, the candidate point selected according to the beat index value of the peak in each search window arranged at intervals according to the beat period from the candidate point is determined as the beat point. A program that causes a computer to execute beat point determination processing.
前記音響信号の拍周期を特定する拍周期特定処理と、A beat period specifying process for specifying a beat period of the acoustic signal;
前記拍指標値の時系列における複数のピークを検出する候補検出処理と、Candidate detection processing for detecting a plurality of peaks in the time series of the beat index value;
前記複数のピークの各々を拍点の候補点として、前記拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定処理と、Each of the plurality of peaks as beat point candidate points, a first window row setting process for setting a first window row in which a plurality of search windows are arranged from the candidate points at intervals according to the beat period;
前記第1窓列内の第1個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、前記第1窓列設定処理で設定した複数の第1窓列から選別する第1抽出処理と、Among the first number of search windows in the first window row, a plurality of two or more first window rows having a large number of search windows including the peak of the beat index value are set in the first window row setting process. A first extraction process for selecting from the first window row;
前記第1窓列内において前記第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が最大となる第1窓列を、前記第1抽出処理で検出した前記2以上の第1窓列から選別し、当該第1窓列に対応する候補点を拍点として確定する第2抽出処理とThe first extraction process detects the first window row having the maximum number of search windows including the peak of the beat index value among the second number of search windows exceeding the first number in the first window row. A second extraction process for selecting from the two or more first window rows and determining candidate points corresponding to the first window rows as beat points;
をコンピュータに実行させるプログラム。A program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008117104A JP5092876B2 (en) | 2008-04-28 | 2008-04-28 | Sound processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008117104A JP5092876B2 (en) | 2008-04-28 | 2008-04-28 | Sound processing apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009265493A JP2009265493A (en) | 2009-11-12 |
JP5092876B2 true JP5092876B2 (en) | 2012-12-05 |
Family
ID=41391400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008117104A Expired - Fee Related JP5092876B2 (en) | 2008-04-28 | 2008-04-28 | Sound processing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5092876B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6064561B2 (en) * | 2012-12-05 | 2017-01-25 | ヤマハ株式会社 | Beat information estimation device |
JP6179140B2 (en) | 2013-03-14 | 2017-08-16 | ヤマハ株式会社 | Acoustic signal analysis apparatus and acoustic signal analysis program |
JP6123995B2 (en) | 2013-03-14 | 2017-05-10 | ヤマハ株式会社 | Acoustic signal analysis apparatus and acoustic signal analysis program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2900976B2 (en) * | 1994-04-27 | 1999-06-02 | 日本ビクター株式会社 | MIDI data editing device |
JP3789326B2 (en) * | 2000-07-31 | 2006-06-21 | 松下電器産業株式会社 | Tempo extraction device, tempo extraction method, tempo extraction program, and recording medium |
JP4767691B2 (en) * | 2005-07-19 | 2011-09-07 | 株式会社河合楽器製作所 | Tempo detection device, code name detection device, and program |
-
2008
- 2008-04-28 JP JP2008117104A patent/JP5092876B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009265493A (en) | 2009-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6017687B2 (en) | Audio signal analysis | |
EP2854128A1 (en) | Audio analysis apparatus | |
JP5593608B2 (en) | Information processing apparatus, melody line extraction method, baseline extraction method, and program | |
US8050910B2 (en) | Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency | |
TWI426501B (en) | A method and apparatus for melody recognition | |
EP2816550A1 (en) | Audio signal analysis | |
US8494668B2 (en) | Sound signal processing apparatus and method | |
CN110599987A (en) | Piano note recognition algorithm based on convolutional neural network | |
Stark et al. | Real-time beat-synchronous analysis of musical audio | |
US9646592B2 (en) | Audio signal analysis | |
KR101952552B1 (en) | Radar signal Processing apparatus for spectrogram extraction and method thereof | |
CN107210029B (en) | Method and apparatus for processing a series of signals for polyphonic note recognition | |
US9570060B2 (en) | Techniques of audio feature extraction and related processing apparatus, method, and program | |
JPWO2010097870A1 (en) | Music search device | |
JP5092876B2 (en) | Sound processing apparatus and program | |
JP6729515B2 (en) | Music analysis method, music analysis device and program | |
JP2012032677A (en) | Tempo detector, tempo detection method and program | |
WO2020061346A1 (en) | Methods and apparatuses for tracking weak signal traces | |
Verma et al. | Structural segmentation of Hindustani concert audio with posterior features | |
US11205407B2 (en) | Song analysis device and song analysis program | |
CN111785237B (en) | Audio rhythm determination method and device, storage medium and electronic equipment | |
Vinutha et al. | Reliable tempo detection for structural segmentation in sarod concerts | |
Chien et al. | An Acoustic-Phonetic Approach to Vocal Melody Extraction. | |
JP2015040970A (en) | Measure interval estimation, and device, method and program for performing feature value extraction for the estimation | |
JP5054646B2 (en) | Beat position estimating apparatus, beat position estimating method, and beat position estimating program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120821 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120903 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |