JP5092876B2 - Sound processing apparatus and program - Google Patents

Sound processing apparatus and program Download PDF

Info

Publication number
JP5092876B2
JP5092876B2 JP2008117104A JP2008117104A JP5092876B2 JP 5092876 B2 JP5092876 B2 JP 5092876B2 JP 2008117104 A JP2008117104 A JP 2008117104A JP 2008117104 A JP2008117104 A JP 2008117104A JP 5092876 B2 JP5092876 B2 JP 5092876B2
Authority
JP
Japan
Prior art keywords
beat
window
point
search
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008117104A
Other languages
Japanese (ja)
Other versions
JP2009265493A (en
Inventor
ビースァン オン
セバスチャン シュトライヒ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008117104A priority Critical patent/JP5092876B2/en
Publication of JP2009265493A publication Critical patent/JP2009265493A/en
Application granted granted Critical
Publication of JP5092876B2 publication Critical patent/JP5092876B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To reduce an arithmetic amount required for specifying a beat of a sound signal. <P>SOLUTION: A window sequence setting section 72 sets a window sequence GA in which a plurality of search windows WA are arranged from a candidate point BC with an interval responding to a beat cycle T of the sound signal S, by making each of a plurality of peaks PB in a time sequence of a beat index OB for indicating a change amount of intensity of the sound signal S, as the candidate point BC of the beat. A selection section 74 selects the candidate point BC corresponding to n2 pieces of window sequences GA in which the number of search windows WA including peak PB in the plurality of window sequences GA are large. A window sequence setting section 76 sets the window sequence GB in which a plurality of search windows WB are arranged from the candidate point BC with the interval corresponding to the beat cycle T, for each of the n2 pieces of candidate points. A beat determination section 80 determines the candidate point BC as the beat B, when a confidence degree R in which the beat index OB in the peak PB in each search window WB of the window sequence GB is averaged, becomes largest. <P>COPYRIGHT: (C)2010,JPO&amp;INPIT

Description

本発明は、音響(音声や楽音)の波形を表す音響信号から拍点を検出する技術に関する。   The present invention relates to a technique for detecting a beat point from an acoustic signal representing an acoustic (speech or musical sound) waveform.

音響信号から拍点を検出する各種の技術が従来から提案されている。例えば特許文献1には、音響信号の強度の経時的な変化量を示すオンセットカーブ(onset curve)と、楽曲のテンポに応じた間隔で時間軸上に配列された複数のビートパターンテンプレート(beat pattern template)とを利用して音響信号の拍点を検出する技術が開示されている。時間軸上に画定された複数のフレームの各々についてオンセットカーブとビートパターンテンプレートとを照合することで、オンセット曲線の各ピークが拍点に該当するか否かの指標となる信頼度(confidence level)が算定される。信頼度の高低に応じて音響信号の拍点が確定される。
米国特許第7183479号公報
Various techniques for detecting beat points from acoustic signals have been proposed. For example, Patent Document 1 discloses an onset curve indicating an amount of change in intensity of an acoustic signal over time and a plurality of beat pattern templates (beats) arranged on the time axis at intervals according to the tempo of the music. and a technique for detecting beat points of an acoustic signal using a pattern template). Confidence that indicates whether each peak of the onset curve corresponds to a beat point by comparing the onset curve and the beat pattern template for each of a plurality of frames defined on the time axis level) is calculated. The beat point of the acoustic signal is determined according to the level of reliability.
US Pat. No. 7,183,479

しかし、特許文献1の技術においては、音響信号の始点から終点までの全体にわたるフレーム毎に信頼度が算定される。したがって、拍点の特定のために膨大な演算が必要であるという問題がある。以上の事情に鑑みて、本発明は、音響信号の拍点の特定に必要な演算量を削減することをひとつの目的とする。   However, in the technique of Patent Document 1, the reliability is calculated for every frame from the start point to the end point of the acoustic signal. Therefore, there is a problem that enormous calculation is required for specifying beat points. In view of the above circumstances, an object of the present invention is to reduce the amount of calculation required for specifying the beat point of an acoustic signal.

以上の課題を解決するために、本発明の第1の態様に係る音響処理装置は、音響信号の特徴量の変化を示す拍指標値の時系列(例えば拍指標系列X)を特定する拍指標特定手段と、音響信号の拍周期を特定する拍周期特定手段と、拍指標値の時系列における複数のピークを検出する候補検出手段と、複数のピークの各々を拍点の候補点として、拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列(例えば図10の窓列GA)を設定する第1窓列設定手段と、複数の第1窓列のうち拍指標値のピークを包含する検索窓の個数が多い2以上の窓列に対応した候補点を選択する選択手段と、選択手段が選択した2以上の候補点のうち、当該候補点から拍周期に応じた間隔で配列した各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する拍点確定手段とを具備する。   In order to solve the above problems, the acoustic processing device according to the first aspect of the present invention provides a beat index that specifies a time series (for example, a beat index series X) of beat index values indicating a change in a feature amount of an acoustic signal. Identifying means; beat period identifying means for identifying a beat period of an acoustic signal; candidate detecting means for detecting a plurality of peaks in a time series of beat index values; and each of the plurality of peaks as beat point candidate points. First window row setting means for setting a first window row (for example, window row GA in FIG. 10) in which a plurality of search windows are arranged from the candidate points at intervals according to the period, and beats of the plurality of first window rows. A selection means for selecting candidate points corresponding to two or more window rows having a large number of search windows including a peak of the index value, and of the two or more candidate points selected by the selection means, Selected according to the beat index value of the peak in each search window arranged at the corresponding interval Beat point determination means for determining a candidate point as a beat point.

以上の構成においては、拍指標値の時系列のピークを内包する検索窓の個数に応じて選択された2以上の窓列に対応した候補点のなかから、当該候補点から拍周期に応じた間隔で配列した各検索窓内のピークの拍指標値に応じた候補点が拍点として特定される。したがって、窓列設定手段が設定した総ての第1窓列について各検索窓内の拍指標値を調査して拍点を確定する構成と比較して、拍点の特定に必要な演算量が削減されるという利点がある。   In the above configuration, from the candidate points corresponding to two or more window rows selected according to the number of search windows including the time-series peak of the beat index value, the candidate point corresponds to the beat cycle. Candidate points corresponding to peak beat index values in each search window arranged at intervals are specified as beat points. Therefore, the amount of calculation required for specifying the beat point is smaller than that in the configuration in which the beat index value in each search window is examined for all the first window rows set by the window row setting means and the beat point is determined. There is an advantage that it is reduced.

第1の態様に係る音響処理装置の好適な態様は、選択手段が選択した2以上の候補点の各々について、第1窓列の各検索窓の窓幅(例えば図10の窓幅w1)よりも狭い窓幅(例えば図10の窓幅w2)の複数の検索窓を拍周期に応じた間隔で当該候補点から配列した第2窓列(例えば図10の窓列GB)を設定する第2窓列設定手段を具備し、拍点確定手段は、複数の第2窓列のうち各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する。以上の態様においては、候補点の選択に使用される第2窓列の各検索窓の窓幅が第1窓列の各検索窓の窓幅よりも狭いから、音響信号の拍点以外の要因(例えば雑音)に起因した拍指標値のピークが第2窓列の検索窓に内包される可能性が低減される。したがって、例えば選択手段が選択した2以上の候補点から拍点を確定する場合に第1窓列を使用する構成(つまり、候補点に対応する第1窓列の各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する構成)と比較して正確に拍点を特定することが可能である。一方、第1窓列の各検索窓の窓幅を狭めた場合には拍点の検索漏れが発生し易いという問題がある。以上の態様においては第1窓列の各検索窓の窓幅が第1窓列の各検索窓の窓幅と比較して広いから、拍点の検索漏れを抑制できるという利点がある。   A preferred aspect of the sound processing apparatus according to the first aspect is based on the window width of each search window in the first window row (for example, the window width w1 in FIG. 10) for each of the two or more candidate points selected by the selection means. A second window array (for example, window array GB in FIG. 10) in which a plurality of search windows having a narrow window width (for example, window width w2 in FIG. 10) are arranged from the candidate points at intervals corresponding to the beat period is set. A window sequence setting unit is provided, and the beat point determination unit determines a candidate point selected according to the peak beat index value in each search window among the plurality of second window columns as a beat point. In the above aspect, since the window width of each search window of the second window row used for selection of candidate points is narrower than the window width of each search window of the first window row, factors other than the beat point of the acoustic signal The possibility that the peak of the beat index value due to (for example, noise) is included in the search window of the second window row is reduced. Therefore, for example, a configuration in which the first window row is used when beat points are determined from two or more candidate points selected by the selection means (that is, beats of peaks in each search window of the first window row corresponding to the candidate points). Compared with a configuration in which the candidate point selected according to the index value is determined as a beat point, it is possible to accurately specify the beat point. On the other hand, when the window width of each search window in the first window row is narrowed, there is a problem that a beat point search is likely to be omitted. In the above aspect, since the window width of each search window of the first window row is wider than the window width of each search window of the first window row, there is an advantage that omission of searching for beat points can be suppressed.

第1の態様に係る音響処理装置の好適な態様において、選択手段は、第1窓列内の第1個数(例えば図10のH1個)の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、第1窓列設定手段が設定した複数の第1窓列から選別する第1抽出手段と、第1窓列内において第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、第1抽出手段が検出した2以上の第1窓列から選別する第2抽出手段とを含む。以上の態様においては、各第1窓列の第1個数の検索窓のうちピークを包含する検索窓の個数に応じた第1窓列の絞込みと、第1個数を上回る第2個数の検索窓のうちピークを包含する検索窓の個数に応じた第1窓列の絞込みとが段階的に実行される。したがって、第1個数の各検索窓内のピークの個数のみから第1窓列を選択する構成と比較して、拍点に対応する第1窓列を正確に抽出できるという利点がある。また、第2抽出手段による処理の対象が事前に削減されるから、第2個数の各検索窓内のピークの個数のみから第1窓列を選択する構成と比較して選択部の処理量が軽減されるという利点がある。   In a preferred aspect of the sound processing apparatus according to the first aspect, the selecting means includes a search including a peak of a beat index value among a first number (for example, H1 in FIG. 10) of search windows in the first window row. First extraction means for selecting a plurality of first window rows having a large number of windows from a plurality of first window rows set by the first window row setting means; and a first number exceeding the first number in the first window row. A second extraction in which two or more first window rows having a large number of search windows including the peak of the beat index value among the two number of search windows are selected from the two or more first window rows detected by the first extraction means. Means. In the above aspect, the narrowing of the first window row according to the number of search windows including the peak among the first number of search windows of each first window row, and the second number of search windows exceeding the first number. The first window row is narrowed down step by step according to the number of search windows including peaks. Therefore, there is an advantage that the first window row corresponding to the beat point can be accurately extracted as compared with the configuration in which the first window row is selected only from the number of peaks in each first number of search windows. In addition, since the number of objects to be processed by the second extraction unit is reduced in advance, the processing amount of the selection unit is smaller than the configuration in which the first window row is selected only from the number of peaks in each of the second number of search windows. There is an advantage of being reduced.

本発明の第2の態様に係る音響処理装置は、音響信号の特徴量の変化を示す拍指標値の時系列を特定する拍指標特定手段と、音響信号の拍周期を特定する拍周期特定手段と、拍指標値の時系列における複数のピークを検出する候補検出手段と、複数のピークの各々を拍点の候補点として、拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定手段と、第1窓列内の第1個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、第1窓列設定手段が設定した複数の第1窓列から選別する第1抽出手段と、第1窓列内において第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が最大となる第1窓列を、第1抽出手段が検出した2以上の第1窓列から選別し、当該第1窓列に対応する候補点を拍点として確定する第2抽出手段とを具備する。以上の態様においては、各第1窓列の第1個数の検索窓のうちピークを包含する検索窓の個数に応じた第1窓列の絞込みと、第1個数を上回る第2個数の検索窓のうちピークを包含する検索窓の個数に応じた第1窓列の絞込みとが実行される。したがって、第1個数の各検索窓内のピークの個数のみから第1窓列を選択する構成と比較して、拍点に対応する第1窓列を正確に抽出できるという利点がある。また、第2抽出手段による処理の対象が事前に削減されるから、第2個数の各検索窓内のピークの個数のみから第1窓列を選択する構成と比較して選択部の処理量が軽減される(したがって、音響処理装置の全体としても拍点の特定に必要な演算量が削減される)という利点がある。 The sound processing apparatus according to the second aspect of the present invention includes a beat index specifying means for specifying a time series of beat index values indicating a change in a characteristic amount of an acoustic signal, and a beat cycle specifying means for specifying a beat cycle of the sound signal. And candidate detecting means for detecting a plurality of peaks in the time series of beat index values, and each of the plurality of peaks as beat point candidate points, and a plurality of search windows arranged from the candidate points at intervals according to the beat period First window row setting means for setting the first window row, and two or more first windows having a large number of search windows including the peak of the beat index value among the first number of search windows in the first window row. First extraction means for selecting a row from a plurality of first window rows set by the first window row setting means, and a beat index value of a second number of search windows exceeding the first number in the first window row. the first window sequence number encompassing search window peaks is maximized, 2 or more of the first extracting means detects Sorted from 1 window column, and second extracting means for determining the candidate points corresponding to the first window column as beat positions. In the above aspect, the narrowing of the first window row according to the number of search windows including the peak among the first number of search windows of each first window row, and the second number of search windows exceeding the first number. The first window row is narrowed down according to the number of search windows including the peak. Therefore, there is an advantage that the first window row corresponding to the beat point can be accurately extracted as compared with the configuration in which the first window row is selected only from the number of peaks in each first number of search windows. In addition, since the number of objects to be processed by the second extraction unit is reduced in advance, the processing amount of the selection unit is smaller than the configuration in which the first window row is selected only from the number of peaks in each of the second number of search windows. There is an advantage that the amount of calculation necessary for specifying the beat point is reduced as a whole.

第1抽出手段を具備する態様において、第1個数の検索窓は、第1窓列の複数の検索窓のうち音響信号の始点側から順番に選択された複数の検索窓である。拍点は楽曲の最初の部分で明確かつ安定的に現れる場合が多いという傾向を考慮すると、第1個数の検索窓を音響信号の始点側から順番に選択する以上の態様によれば、他の部分の検索窓を使用する場合と比較して正確かつ安定的に拍点を検出できるという利点がある。   In the aspect including the first extraction means, the first number of search windows is a plurality of search windows selected in order from the start side of the acoustic signal among the plurality of search windows of the first window row. Considering the tendency that beat points often appear clearly and stably in the first part of the music, according to the above-described aspect, the first number of search windows are sequentially selected from the start point side of the acoustic signal. There is an advantage that beat points can be detected accurately and stably compared to the case of using a partial search window.

以上の各態様(第1の態様および第2の態様の双方を含む)に係る音響処理装置の具体例において、第1窓列設定手段は、ひとつの検索窓に包含されるピークから拍周期だけ経過した時点を窓幅の中心として次の検索窓を設定する(例えば図12の部分(B)および部分(C))。以上の具体例においては、検索窓内のピークが次の検索窓の設定の起算点とされるから、音響信号の拍周期に揺らぎがある場合であっても各拍点を正確に検出できるという利点がある。なお、第2窓列設定手段を具備する態様においては、第2窓列設定手段が、ひとつの検索窓に包含されるピークから拍周期だけ経過した時点を窓幅の中心として次の検索窓を設定する構成も採用される。   In the specific example of the sound processing apparatus according to each of the above aspects (including both the first aspect and the second aspect), the first window row setting unit is configured to perform only the beat period from the peak included in one search window. The next search window is set with the elapsed time as the center of the window width (for example, part (B) and part (C) in FIG. 12). In the above specific example, since the peak in the search window is used as a starting point for setting the next search window, each beat point can be accurately detected even when the beat cycle of the acoustic signal is fluctuated. There are advantages. In the aspect including the second window row setting means, the second window row setting means sets the next search window at the center of the window width at the time when the beat period has elapsed from the peak included in one search window. A configuration for setting is also adopted.

以上の各態様に係る音響処理装置の具体例において、拍点確定手段は、拍点として確定した候補点から拍周期に応じた間隔で配列された各検索窓内のピークを拍点として検出する。以上の具体例においては、音響信号の全体にわたる拍点の時系列を検出することが可能となる。また、拍点確定手段が確定した各拍点の間隔が拍周期を上回る場合に、当該各拍点の間に新たな拍点を設定する拍点補充手段を具備する構成によれば、音響信号において特徴量の変化が比較的に小さい拍点(すなわち拍指標値の時系列に顕著なピークとして現れない拍点)も適切に特定できるという利点がある。   In the specific example of the sound processing apparatus according to each aspect described above, the beat point determination unit detects, as beat points, peaks in each search window arranged at intervals according to the beat period from candidate points determined as beat points. . In the above specific example, it is possible to detect a time series of beat points over the entire acoustic signal. Further, according to the configuration including the beat point supplementing means for setting a new beat point between the beat points when the beat point interval determined by the beat point determining means exceeds the beat cycle, the acoustic signal There is an advantage that a beat point with a relatively small change in feature value (that is, a beat point that does not appear as a significant peak in the time series of beat index values) can be appropriately identified.

以上の各態様に係る音響処理装置の具体例において、拍周期特定手段は、拍指標値の時系列を区分した各単位区間について自己相関値を算定する相関算定手段と、相関算定手段が算定した自己相関値を複数の単位区間について平均する平均手段とを含み、平均手段による平均後の自己相関値から拍周期を特定する。以上の具体例においては、複数の単位区間にわたる自己相関値の平均が拍周期の特定に使用されるから、例えば、音響信号の特定の区間(例えばひとつの単位区間)の自己相関値のみから拍周期を特定する場合と比較して、音響信号の拍点以外の要因(例えば雑音)に起因した拍指標値のピークの影響を緩和して高精度に拍周期を特定できるという利点がある。   In the specific examples of the sound processing device according to each of the above aspects, the beat period specifying means calculates the correlation calculation means for calculating the autocorrelation value for each unit section into which the time series of the beat index values is divided, and the correlation calculation means Average means for averaging the autocorrelation values for a plurality of unit intervals, and the beat period is specified from the autocorrelation values after averaging by the averaging means. In the above specific examples, since the average of autocorrelation values over a plurality of unit intervals is used for specifying the beat cycle, for example, beats are calculated only from the autocorrelation values of a specific interval (for example, one unit interval) of an acoustic signal. Compared with the case where the period is specified, there is an advantage that the beat period can be specified with high accuracy by reducing the influence of the peak of the beat index value caused by factors other than the beat point of the acoustic signal (for example, noise).

以上の各態様に係る音響処理装置の具体例において、拍指標特定手段は、音響信号の特徴量の変化を示す拍指標値の時系列を算定する指標算定手段と、指標算定手段が算定した拍指標値の時系列における拍指標値の増減を強調するピーク強調手段とを含む。以上の具体例においては、拍指標値の時系列における拍指標値の増減(ピーク)が強調されるから、拍指標値の増減を強調しない場合と比較して拍点を正確に特定できるという利点がある。   In the specific examples of the acoustic processing device according to each of the above aspects, the beat index specifying means includes an index calculation means for calculating a time series of beat index values indicating changes in the feature amount of the acoustic signal, and a beat calculated by the index calculation means. Peak emphasizing means for emphasizing increase / decrease of beat index values in the time series of index values. In the above specific example, since the increase / decrease (peak) of the beat index value in the time series of the beat index value is emphasized, the advantage that the beat point can be accurately identified as compared with the case where the increase / decrease of the beat index value is not emphasized. There is.

以上の総ての態様に係る音響処理装置は、入力音の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される
本発明の第1の態様に係るプログラムは、音響信号の特徴量の変化を示す拍指標値の時系列を特定する拍指標特定処理と、音響信号の拍周期を特定する拍周期特定処理と、拍指標値の時系列における複数のピークを検出する候補検出処理と、複数のピークの各々を拍点の候補点として、拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定処理と、複数の第1窓列のうち拍指標値のピークを包含する検索窓の個数が多い2以上の窓列に対応した候補点を選択する選択処理と、選択処理で選択した2以上の候補点のうち、当該候補点から拍周期に応じた間隔で配列した各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する拍点確定処理とをコンピュータに実行させる。本発明のプログラムによれば、第1の態様に係る音響処理装置と同様の作用および効果が実現される。
本発明の第2の態様に係るプログラムは、音響信号の特徴量の変化を示す拍指標値の時系列を特定する拍指標特定処理と、前記音響信号の拍周期を特定する拍周期特定処理と、前記拍指標値の時系列における複数のピークを検出する候補検出処理と、前記複数のピークの各々を拍点の候補点として、前記拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定処理と、前記第1窓列内の第1個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、前記第1窓列設定処理で設定した複数の第1窓列から選別する第1抽出処理と、前記第1窓列内において前記第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が最大となる第1窓列を、前記第1抽出処理で検出した前記2以上の第1窓列から選別し、当該第1窓列に対応する候補点を拍点として確定する第2抽出処理とをコンピュータに実行させる。本発明のプログラムによれば、第2の態様に係る音響処理装置と同様の作用および効果が実現される。
本発明の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
The sound processing apparatus according to all the aspects described above is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to processing of input sound, and a general purpose such as a CPU (Central Processing Unit). This is also realized by cooperation between the arithmetic processing unit and the program .
The program according to the first aspect of the present invention includes a beat index specifying process for specifying a time series of beat index values indicating a change in a characteristic amount of an acoustic signal, a beat cycle specifying process for specifying a beat period of the acoustic signal, Candidate detection processing for detecting a plurality of peaks in the time series of beat index values, and a plurality of search windows arranged from the candidate points at intervals according to the beat period, with each of the plurality of peaks as a candidate point of a beat point First window sequence setting processing for setting one window sequence, and selection for selecting candidate points corresponding to two or more window sequences having a large number of search windows including a peak of the beat index value among a plurality of first window sequences Among the two or more candidate points selected in the process and the selection process, the candidate point selected according to the beat index value of the peak in each search window arranged at intervals according to the beat period from the candidate point as a beat point Causes the computer to execute beat point determination processing to be determined. According to the program of this invention, the effect | action and effect similar to the sound processing apparatus which concern on a 1st aspect are implement | achieved.
The program according to the second aspect of the present invention includes a beat index specifying process for specifying a time series of beat index values indicating a change in a characteristic amount of an acoustic signal, and a beat cycle specifying process for specifying a beat period of the acoustic signal. , Candidate detection processing for detecting a plurality of peaks in the time series of the beat index value, and using each of the plurality of peaks as a candidate point for a beat point, a plurality of search windows at intervals according to the beat period A first window row setting process for setting the first window row arranged from the above, and a number of search windows including a peak of a beat index value among a first number of search windows in the first window row is greater than 2 A first extraction process for selecting a first window row from a plurality of first window rows set in the first window row setting process; and a second number of search windows exceeding the first number in the first window row. The first window row in which the number of search windows including the peak of the beat index value is the maximum, Serial The sorted from two or more first window sequence detected by the first extraction process, to execute a second extraction process to determine the candidate points corresponding to the first window column as beats the computer. According to the program of this invention, the effect | action and effect similar to the sound processing apparatus which concern on a 2nd aspect are implement | achieved.
The program according to each aspect of the present invention is provided to the user in a form stored in a computer-readable recording medium and installed in the computer, and is also provided from the server device in the form of distribution via a communication network. Installed on the computer.

図1は、本発明の実施の形態に係る音響処理装置のブロック図である。図1に示すように、音響処理装置100は、制御装置12と記憶装置14とを具備するコンピュータシステムで実現される。制御装置12は、プログラムを実行することで複数の要素(周波数分析部20,拍指標特定部30,拍周期特定部40,候補検出部60,拍点特定部70)として機能する演算処理装置(CPU)である。ただし、制御装置12の各要素は専用の電子回路(DSP)でも実現される。記憶装置14は、制御装置12が実行するプログラムや制御装置12が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置14として任意に採用される。   FIG. 1 is a block diagram of a sound processing apparatus according to an embodiment of the present invention. As shown in FIG. 1, the sound processing device 100 is realized by a computer system including a control device 12 and a storage device 14. The control device 12 is an arithmetic processing device that functions as a plurality of elements (frequency analysis unit 20, beat index specification unit 30, beat cycle specification unit 40, candidate detection unit 60, beat point specification unit 70) by executing a program ( CPU). However, each element of the control device 12 is also realized by a dedicated electronic circuit (DSP). The storage device 14 stores a program executed by the control device 12 and various data used by the control device 12. A known recording medium such as a semiconductor storage device or a magnetic storage device is arbitrarily adopted as the storage device 14.

記憶装置14は、楽曲毎に音響信号Sを記憶する。音響信号Sは、楽曲の演奏音(楽音や音声)の時間軸上の波形を例えば44.1kHzの標本化周波数で標本化した多数のサンプルの時系列である。制御装置12は、音響信号Sの拍周期(テンポ)Tと各拍点(拍位置)Bとを特定する。拍周期Tは、相前後する各拍点Bの時間的な間隔である。本形態においては、音響信号Sが表す楽曲の全体にわたって拍周期Tが一定である場合(例えばダンス音楽やポップ音楽などテンポが楽曲の全体にわたって略一定の楽曲)を想定する。   The storage device 14 stores an acoustic signal S for each piece of music. The acoustic signal S is a time series of a large number of samples obtained by sampling a waveform on the time axis of a musical performance sound (musical sound or voice) at a sampling frequency of 44.1 kHz, for example. The control device 12 specifies the beat period (tempo) T and each beat point (beat position) B of the acoustic signal S. The beat period T is a time interval between successive beat points B. In this embodiment, it is assumed that the beat period T is constant throughout the music represented by the acoustic signal S (for example, music whose tempo is substantially constant throughout the music, such as dance music and pop music).

周波数分析部20は、図2に示すように音響信号Sを時間軸上で区分した複数のフレームFの各々についてフーリエ変換(例えばハニング窓を利用した短時間フーリエ変換)を実行することで各フレームFの周波数スペクトル(パワースペクトル)Qを特定する。各フレームFは例えば音響信号Sのサンプルの2048個分に相当し、相前後するフレームFのズレ量(hop size)は例えば音響信号Sのサンプルの200個分に相当する。したがって、相前後する各フレームFは時間軸上で相互に重複する。   As shown in FIG. 2, the frequency analysis unit 20 performs a Fourier transform (for example, a short-time Fourier transform using a Hanning window) on each of a plurality of frames F obtained by dividing the acoustic signal S on the time axis. The frequency spectrum (power spectrum) Q of F is specified. Each frame F corresponds to, for example, 2048 samples of the acoustic signal S, and the shift amount (hop size) of the adjacent frames F corresponds to, for example, 200 samples of the acoustic signal S. Therefore, the frames F that follow each other overlap each other on the time axis.

図1の拍指標特定部30は、音響信号Sの特徴量の経時的な変化を示す拍指標系列Xを特定する。本形態の拍指標系列Xは、音響信号Sの強度の変化量に応じてフレームF毎に算定されたN個(Nは自然数)の拍指標値OB(OB[1],OB[2],……,OB[N])の時系列である。   The beat index specifying unit 30 in FIG. 1 specifies a beat index series X indicating a change over time in the feature amount of the acoustic signal S. The beat index series X of this embodiment has N beat index values OB (OB [1], OB [2], N, which are natural numbers) calculated for each frame F according to the amount of change in the intensity of the acoustic signal S. ……, OB [N]).

図3に示すように、本形態の拍指標特定部30は、指標算定部32とピーク強調部34とを具備する。指標算定部32は、相前後する各フレームFにおける音響信号Sの強度の変化量に応じたN個の拍指標値OA(OA[1]〜OA[N])の時系列を拍指標系列X0として算定する。さらに詳述すると、拍指標系列X0における第j番目(j=1〜N)の拍指標値OA[j]は、以下に演算式(1)として例示するように、第j番目のフレームFの周波数スペクトルQと第(j+1)番目のフレームFの周波数スペクトルQとの各周波数における強度の差分(絶対値)を総ての周波数について合計(または平均)した数値である。演算式(1)の強度A[j,f]は、第j番目のフレームFの周波数スペクトルQのうち周波数fにおける強度を意味する。

Figure 0005092876
As shown in FIG. 3, the beat index specifying unit 30 of this embodiment includes an index calculation unit 32 and a peak enhancement unit 34. The index calculation unit 32 converts the time series of N beat index values OA (OA [1] to OA [N]) according to the amount of change in the intensity of the acoustic signal S in each successive frame F to the beat index series X0. Calculated as More specifically, the j-th (j = 1 to N) beat index value OA [j] in the beat index series X0 is the value of the j-th frame F, as exemplified by the following equation (1). This is a numerical value obtained by summing (or averaging) the difference (absolute value) in intensity at each frequency between the frequency spectrum Q and the frequency spectrum Q of the (j + 1) th frame F. The intensity A [j, f] in the arithmetic expression (1) means the intensity at the frequency f in the frequency spectrum Q of the j-th frame F.
Figure 0005092876

図4の部分(A)は、拍指標系列X0を表す曲線(つまり拍指標値OA[1]〜OA[N]を連結した曲線)である。図4の部分(A)に示すように、拍指標系列X0のうち音響信号Sの強度が大きく変化する時点(楽曲の拍点を含む)にはピークが現れる。   Part (A) of FIG. 4 is a curve representing the beat index series X0 (that is, a curve connecting beat index values OA [1] to OA [N]). As shown in part (A) of FIG. 4, a peak appears at the time (including the beat point of the music) when the intensity of the acoustic signal S changes greatly in the beat index series X0.

図3のピーク強調部34は、指標算定部32が算定した拍指標系列X0のピーク(拍指標値OAの急激な増減)を強調することで拍指標系列X(拍指標値OB[1],OB[2],……,OB[N])を特定する。さらに詳述すると、ピーク強調部34は、拍指標系列X0の増減を抑制(平滑化)した数値(以下「平滑値」という)MA[j]を拍指標系列X0の拍指標値OA[j]から減算することで拍指標値OB[j]を算定する(OB[j]=OA[j]−MA[j])。平滑値MA[j]は、拍指標値OA[j]の近傍の複数個の拍指標値OAの平均値(低域成分)であり、例えば以下の演算式(2A)から演算式(2C)で定義される。

Figure 0005092876
3 emphasizes the peak of the beat index series X0 calculated by the index calculation section 32 (rapid increase / decrease in the beat index value OA) to thereby increase the beat index series X (beat index value OB [1], OB [2], ..., OB [N]) is specified. More specifically, the peak emphasizing unit 34 uses a numerical value MA [j] (hereinafter referred to as “smooth value”) MA [j] obtained by suppressing (smoothing) increase / decrease in the beat index series X0 as the beat index value OA [j] The beat index value OB [j] is calculated by subtracting from (OB [j] = OA [j] −MA [j]). The smooth value MA [j] is an average value (low frequency component) of a plurality of beat index values OA in the vicinity of the beat index value OA [j]. For example, the following formula (2C) to formula (2C) Defined by
Figure 0005092876

図5および演算式(2B)に示すように、基本的には、拍指標系列X0のうち拍指標値OA[j]を中心とするn個の拍指標値OA(OA[j-(n-1)/2]〜OA[j+(n-1)/2])の平均値(移動平均)が平滑値MA[j]として算定される。一方、図5に示すように音響信号Sの始点の近傍の部分については拍指標値OA[j]を中心とするn個の拍指標値OAを確保できないから、図5および演算式(2A)に示すように、拍指標値OA[j]から拍指標値OA[j+(n-1)/2]までの(n+1)/2個の拍指標値OAの平均値が平滑値MA[j]として算定される。音響信号Sの終点の近傍の部分についても同様に拍指標値OA[j]を中心とするn個の拍指標値OAを確保できないから、図5および演算式(2C)に示すように、拍指標値OA[j]から最後の拍指標値OA[N]までの(N-j+1)個の拍指標値OAの平均値が平滑値MA[j]として算定される。以上の方法で算定された平滑値MA[j]を拍指標値OA[j]から減算することで拍指標値OB[j]が算定されるから、図4の部分(B)に示すように、拍指標系列Xの曲線(つまり拍指標値OB[1]〜OB[N]を連結した曲線)は、拍指標系列X0のピーク(高域成分)を強調した形状となる。図4の部分(B)に示すように、拍指標系列Xのうち音響信号Sの強度が大きく変化する時点(典型的には楽曲の拍点)にはピークPBが現れる。   As shown in FIG. 5 and the arithmetic expression (2B), basically, n beat index values OA (OA [j− (n−) with the beat index value OA [j] as the center in the beat index series X0. The average value (moving average) of 1) / 2] to OA [j + (n-1) / 2]) is calculated as the smoothed value MA [j]. On the other hand, as shown in FIG. 5, n beat index values OA centered on the beat index value OA [j] cannot be secured in the vicinity of the start point of the acoustic signal S, so FIG. 5 and the calculation formula (2A) As shown, the average value of (n + 1) / 2 beat index values OA from the beat index value OA [j] to the beat index value OA [j + (n-1) / 2] is the smoothed value MA [ j]. Similarly, the n beat index values OA centered on the beat index value OA [j] cannot be secured in the vicinity of the end point of the acoustic signal S, so that the beat is calculated as shown in FIG. 5 and the arithmetic expression (2C). An average value of (N−j + 1) beat index values OA from the index value OA [j] to the last beat index value OA [N] is calculated as the smoothed value MA [j]. Since the beat index value OB [j] is calculated by subtracting the smooth value MA [j] calculated by the above method from the beat index value OA [j], as shown in part (B) of FIG. The curve of the beat index series X (that is, the curve connecting the beat index values OB [1] to OB [N]) has a shape that emphasizes the peak (high frequency component) of the beat index series X0. As shown in part (B) of FIG. 4, the peak PB appears at the time point (typically the beat point of the music) at which the intensity of the acoustic signal S greatly changes in the beat index series X.

図1の拍周期特定部40は音響信号Sの拍周期Tを特定する。拍周期Tの特定には、拍指標特定部30が特定した拍指標系列X(OB[1]〜OB[N])が利用される。図6は、拍周期特定部40のブロック図である。図6の区間設定部42は、拍指標系列XをNU個(NUは自然数)の単位区間Uに区分する。図4の部分(C)に示すように、各単位区間Uは、例えば拍指標値OBの1024個分(フレームFの1024個分)に相当する区間であり、相前後する単位区間Uのズレ量(hop size)は、例えば拍指標値OB(フレームF)の128個分に相当する。したがって、相前後する各単位区間Uは時間軸上で相互に重複する。   The beat period specifying unit 40 in FIG. 1 specifies the beat period T of the acoustic signal S. For specifying the beat period T, the beat index series X (OB [1] to OB [N]) specified by the beat index specifying unit 30 is used. FIG. 6 is a block diagram of the beat period specifying unit 40. The section setting unit 42 in FIG. 6 divides the beat index series X into NU (NU is a natural number) unit sections U. As shown in part (C) of FIG. 4, each unit section U is a section corresponding to, for example, 1024 beat index values OB (1024 frames F), and a difference between successive unit sections U. The amount (hop size) corresponds to, for example, 128 beat index values OB (frame F). Therefore, successive unit sections U overlap each other on the time axis.

図6の相関算定部44は、NU個の単位区間Uの各々について拍指標系列Xの自己相関演算を実行することで単位区間U毎に自己相関値C0を算定する。自己相関演算は、拍指標値OBの1個分を単位として順次に変化させた複数の時間差Lの各々について、当該時間差Lを付与した拍指標系列Xと当初の拍指標系列X(すなわち時間差Lが付加されていない拍指標系列X)とで拍指標値OBの自己相関値C0を算定する処理である。図7の部分(A)は、時間差Lと自己相関値C0との関係を示すグラフである。拍指標系列XのピークPBの間隔に合致する時間差Lにて自己相関値C0は増大する。   The correlation calculation unit 44 in FIG. 6 calculates the autocorrelation value C0 for each unit section U by executing the autocorrelation calculation of the beat index series X for each of the NU unit sections U. In the autocorrelation calculation, for each of a plurality of time differences L sequentially changed in units of one beat index value OB, the beat index series X to which the time difference L is given and the original beat index series X (that is, the time difference L Is a process of calculating the autocorrelation value C0 of the beat index value OB with the beat index series X) to which is not added. Part (A) of FIG. 7 is a graph showing the relationship between the time difference L and the autocorrelation value C0. The autocorrelation value C0 increases at the time difference L that matches the interval between the peaks PB of the beat index series X.

ところで、各単位区間Uでの自己相関値C0の算定に使用される拍指標値OB(すなわち、時間差Lを付与した拍指標系列Xと当初の拍指標系列Xとが重複する区間内の拍指標値OB)の個数mは時間差Lが増加するほど減少する。したがって、図7の部分(A)に示すように、時間差Lが増加するほど自己相関値C0の変動は減少して雑音の影響を受け易くなる。そこで、本形態の相関算定部44は、自己相関値C0の算定に使用した拍指標値OBの個数mを利用して自己相関値C0を正規化することで自己相関値Cを算定する。個数mは、単位区間Uに包含される拍指標値OBの総数mU(本形態では1024)から時間差L内の拍指標値OBの総数mLを減算した数値である(m=mU−mL)。相関算定部44は、自己相関値C0を個数mで除算することで自己相関値Cを算定する(C=C0/m)。以上のように自己相関値C0を正規化することで、図7の部分(B)に示すように、時間差Lが大きい場合についても適切な自己相関値Cを算定することが可能となる。図7の部分(B)に示すように、拍指標系列XのピークPBの間隔(すなわち拍点の間隔)の整数倍に相当する時間差Lにて自己相関値Cにピークが現れる。   By the way, the beat index value OB used for calculating the autocorrelation value C0 in each unit section U (that is, the beat index in the section where the beat index series X given the time difference L and the original beat index series X overlap). The number m of the values OB) decreases as the time difference L increases. Therefore, as shown in part (A) of FIG. 7, as the time difference L increases, the fluctuation of the autocorrelation value C0 decreases and becomes more susceptible to noise. Therefore, the correlation calculation unit 44 of this embodiment calculates the autocorrelation value C by normalizing the autocorrelation value C0 using the number m of beat index values OB used for calculating the autocorrelation value C0. The number m is a numerical value obtained by subtracting the total number mL of beat index values OB within the time difference L from the total number mU of beat index values OB included in the unit interval U (1024 in this embodiment) (m = mU−mL). The correlation calculation unit 44 calculates the autocorrelation value C by dividing the autocorrelation value C0 by the number m (C = C0 / m). By normalizing the autocorrelation value C0 as described above, an appropriate autocorrelation value C can be calculated even when the time difference L is large, as shown in part (B) of FIG. As shown in part (B) of FIG. 7, a peak appears in the autocorrelation value C at a time difference L corresponding to an integral multiple of the interval between peaks PB of the beat index series X (that is, the interval between beat points).

以上のように時間差Lと自己相関値Cとの関係がNU個の単位区間Uの各々について特定される。図8の部分(A)は、時間差L(横軸)を共通化してNU個の単位区間Uの各々の自己相関値Cを縦軸(単位区間Uの番号)に配置した概念図である。図8の部分(A)において縦方向に延在する実線は各単位区間Uの自己相関値Cのピークの頂点を示す。本形態では音響信号Sの全体にわたって拍周期T(テンポ)が固定された場合を想定するから、図8の部分(A)に示すように、各単位区間Uの自己相関値Cのピークは時間差軸に沿って略等間隔に配置する。   As described above, the relationship between the time difference L and the autocorrelation value C is specified for each of the NU unit intervals U. Part (A) of FIG. 8 is a conceptual diagram in which the time difference L (horizontal axis) is shared and the autocorrelation values C of the NU unit sections U are arranged on the vertical axis (number of the unit section U). The solid line extending in the vertical direction in the part (A) of FIG. 8 indicates the peak apex of the autocorrelation value C of each unit section U. In this embodiment, since it is assumed that the beat period T (tempo) is fixed over the entire acoustic signal S, the peak of the autocorrelation value C in each unit section U is a time difference as shown in part (A) of FIG. It arrange | positions at substantially equal intervals along an axis | shaft.

図6の平均部46は、相関算定部44がNU個の単位区間Uの各々について算定した自己相関値Cを時間差L毎に平均(または合計)することで平均相関値Caveを算定する。すなわち、特定の時間差Lに対応する平均相関値Caveは、図8の部分(A)および部分(B)に示すように、当該時間差Lにおける自己相関値CをNU個の単位区間Uについて平均した数値である。   The average unit 46 in FIG. 6 calculates the average correlation value Cave by averaging (or summing) the autocorrelation values C calculated for each of the NU unit intervals U by the correlation calculation unit 44 for each time difference L. That is, the average correlation value Cave corresponding to a specific time difference L is obtained by averaging the autocorrelation values C at the time difference L over NU unit intervals U as shown in part (A) and part (B) of FIG. It is a numerical value.

図6のピーク検出部48は、平均部46が算定した平均相関値Caveについて複数のピークPTを検出する。図9の部分(A)においては、ピーク検出部48が平均相関値Caveから検出したピークPTが黒丸で図示されている。ピークPTの検出には公知の技術が任意に採用される。   The peak detector 48 in FIG. 6 detects a plurality of peaks PT for the average correlation value Cave calculated by the average unit 46. In part (A) of FIG. 9, the peak PT detected by the peak detector 48 from the average correlation value Cave is shown by a black circle. A known technique is arbitrarily adopted for detection of the peak PT.

平均相関値Caveには、拍指標系列XのピークPBの間隔に対応した各時間差LにてピークPTが現れる。一方、拍指標系列XのピークPBの時点は、音響信号Sの強度が大きく変化する時点(典型的には楽曲の拍点B)である。したがって、平均相関値Caveの複数のピークPTのなかには、楽曲の拍周期Tに応じた間隔で時間差軸に沿って周期的に現れるピークPTが存在する。そこで、図6の窓列設定部50と信頼度算定部52と拍周期確定部54とは、拍周期Tの候補となる複数の間隔Δk(k=1〜K)の各々について、時間差軸上の当該間隔Δkで平均相関値CaveにピークPTが現れる確度(以下「信頼度」という)rを算定し、信頼度rが高い間隔Δkを拍周期Tとして確定する。   In the average correlation value Cave, a peak PT appears at each time difference L corresponding to the interval between the peaks PB of the beat index series X. On the other hand, the time point of the peak PB of the beat index series X is the time point when the intensity of the acoustic signal S changes greatly (typically, the beat point B of the music). Therefore, among the plurality of peaks PT of the average correlation value Cave, there are peaks PT that appear periodically along the time difference axis at intervals corresponding to the beat period T of the music. Therefore, the window sequence setting unit 50, the reliability calculation unit 52, and the beat period determination unit 54 in FIG. 6 are on the time difference axis for each of a plurality of intervals Δk (k = 1 to K) that are candidates for the beat period T. The probability (hereinafter referred to as “reliability”) r at which the peak PT appears in the average correlation value Cave at the interval Δk is calculated, and the interval Δk with the high reliability r is determined as the beat period T.

ところで、一般的な楽曲のテンポは60BPM(Beat-Per-Minute)から200BPMまでの範囲内にある。そこで、本形態においては、拍周期Tが、200BPMに対応する周期(0.3s(秒))から60BPMに対応する周期(1s)までの範囲内にあると仮定する。時間差Lの単位量は、拍指標値OBの1個分(すなわち音響信号S(44.1kHz)のサンプルの200個分)に相当する4.54ms(ミリ秒)であるから、200BPMに対応する拍周期(0.3s)は時間差Lに換算すると66(=0.3s/4.54ms)となり、60BPMに対応する拍周期(1s)は時間差Lに換算すると220(=1s/4.54ms)となる。そこで、本形態においては、間隔Δkを66から220までの範囲A内に制限する。以上の構成によれば、間隔Δkを制限しない場合と比較して信頼度rの算定の回数(演算量)が削減されるという利点がある。   By the way, the tempo of general music is in the range from 60 BPM (Beat-Per-Minute) to 200 BPM. Therefore, in this embodiment, it is assumed that the beat period T is within a range from a period corresponding to 200 BPM (0.3 s (seconds)) to a period corresponding to 60 BPM (1 s). Since the unit amount of the time difference L is 4.54 ms (milliseconds) corresponding to one beat index value OB (that is, 200 samples of the sound signal S (44.1 kHz)), the beat period corresponding to 200 BPM. (0.3 s) is 66 (= 0.3 s / 4.54 ms) when converted to time difference L, and the beat period (1 s) corresponding to 60 BPM is 220 (= 1 s / 4.54 ms) when converted to time difference L. Therefore, in this embodiment, the interval Δk is limited within the range A from 66 to 220. According to the above configuration, there is an advantage that the number of times of calculation of the reliability r (calculation amount) is reduced as compared with the case where the interval Δk is not limited.

図6の窓列設定部50は、図9の部分(A)および部分(B)(部分(A)の範囲A内の拡大図)に示すように、ピーク検出部48が平均相関値Caveから検出した総てのピークPTのなかから時間差軸上の66から220までの範囲A内にあるK個(Kは自然数)のピークPT(PT[1]〜PT[K])の各々について窓列GT(GT[1]〜GT[K])を設定する。   As shown in part (A) and part (B) of FIG. 9 (enlarged view within the range A of part (A)), the window array setting unit 50 in FIG. A window sequence for each of K peaks (PT [1] to PT [K]) of K peaks (K is a natural number) within a range A of 66 to 220 on the time difference axis from all detected peaks PT. Set GT (GT [1] to GT [K]).

第k番目のピークPT[k]に対応する窓列GT[k]は、図9の部分(C)に示すように、ピークPT[k]から間隔Δkをあけて順次に時間差軸上に配置された4個の検索窓WT(WT[1]〜WT[4])の集合である。間隔Δkは、時間軸上の原点(すなわち時間差Lがゼロである地点)からピークPT[k]までの時間に相当する。したがって、窓列GT毎に間隔Δkは相違する。間隔Δkの設定に使用されるピークPT(PT[1]〜PT[K])は範囲A内に位置するから、間隔Δkは前述のように66から220までの範囲A内に制限される。各検索窓WT(WT[1]〜WT[4])の窓幅は所定値(例えば拍指標値OBの20個分)に設定される。図9の部分(C)に示すように、窓列GT[k]の検索窓WT[1]は、時間差軸の原点から間隔Δkだけ離間した時点に中点が位置するように配置される。窓列GT[k]の第2番目以降の各検索窓WTは、直前の検索窓WTの中点から間隔Δkだけ離間した時点に中点が位置するように配置される。なお、窓列GTを構成する検索窓WTの個数は任意に変更される   The window row GT [k] corresponding to the kth peak PT [k] is sequentially arranged on the time difference axis with an interval Δk from the peak PT [k], as shown in part (C) of FIG. This is a set of four search windows WT (WT [1] to WT [4]). The interval Δk corresponds to the time from the origin on the time axis (that is, the point where the time difference L is zero) to the peak PT [k]. Therefore, the interval Δk is different for each window row GT. Since the peak PT (PT [1] to PT [K]) used for setting the interval Δk is located in the range A, the interval Δk is limited to the range A from 66 to 220 as described above. The window width of each search window WT (WT [1] to WT [4]) is set to a predetermined value (for example, 20 beat index values OB). As shown in part (C) of FIG. 9, the search window WT [1] of the window row GT [k] is arranged so that the midpoint is located at a point separated by the interval Δk from the origin of the time difference axis. The second and subsequent search windows WT in the window row GT [k] are arranged so that the midpoint is located at a time point spaced apart from the midpoint of the immediately preceding search window WT by the interval Δk. The number of search windows WT constituting the window row GT is arbitrarily changed.

図6の信頼度算定部52は、範囲A内のK個のピークPT(PT[1]〜PT[K])に対して窓列設定部50が設定したK個の窓列GT(GT[1]〜GT[K])の各々について信頼度r(r[1]〜r[K])を算定する。窓列GT[k]に対応する信頼度r[k]は、ピーク検出部48が平均相関値Caveから検出した複数のピークPT(範囲Aの外側のピークPTを含む)のうち当該窓列GT[k]の各検索窓WT(WT[1]〜WT[4])内に位置するピークPTの強度の平均値(または合計値)である。ひとつの検索窓WT内に複数のピークPTが存在する場合には、当該検索窓WTの中点に近いピークPTが信頼度r[k]の算定に使用される。   The reliability calculation unit 52 in FIG. 6 performs the K window rows GT (GT [GT [GT [) set by the window row setting unit 50 for the K peaks PT (PT [1] to PT [K]) within the range A. 1] to GT [K]), the reliability r (r [1] to r [K]) is calculated. The reliability r [k] corresponding to the window row GT [k] is the window row GT among the plurality of peaks PT (including the peak PT outside the range A) detected by the peak detector 48 from the average correlation value Cave. [k] is an average value (or total value) of the intensities of the peaks PT located in each search window WT (WT [1] to WT [4]). When a plurality of peaks PT exist in one search window WT, the peak PT close to the midpoint of the search window WT is used to calculate the reliability r [k].

窓列GT[k]における検索窓WTの間隔Δkが音響信号Sの拍周期Tに該当する可能性が高いほど窓列GT[k]の信頼度r[k]は大きい数値となる。図6の拍周期確定部54は、K個の窓列GT(GT[1]〜GT[K])のうち信頼度rが最大となる窓列GT[k]を選択し、当該窓列GT[k]における検索窓WTの間隔Δkを音響信号Sの拍周期Tとして確定する。拍周期特定部40が特定した拍周期Tは、例えば音響信号Sに対応するように記憶装置14に格納される。以上が拍周期特定部40の構成および動作である。   The higher the possibility that the interval Δk of the search window WT in the window row GT [k] corresponds to the beat period T of the acoustic signal S, the greater the reliability r [k] of the window row GT [k]. The beat cycle determining unit 54 in FIG. 6 selects the window row GT [k] having the maximum reliability r from the K window rows GT (GT [1] to GT [K]), and the window row GT. The interval Δk of the search window WT at [k] is determined as the beat period T of the acoustic signal S. The beat period T specified by the beat period specifying unit 40 is stored in the storage device 14 so as to correspond to the acoustic signal S, for example. The above is the configuration and operation of the beat period specifying unit 40.

図1の候補検出部60および拍点特定部70は、拍指標特定部30が特定した拍指標系列X(OB[1]〜OB[N])と拍周期特定部40が特定した拍周期Tとを利用して音響信号Sの拍点(拍位置)Bを検出する。拍点Bにおいては音響信号Sの強度が大きく変化する傾向があるから、拍点Bに対応するピークPBが拍指標系列Xに現れる可能性は高い。しかし、音響信号PBのうち拍点以外で強度が大きく変化した時点においても拍指標系列Xにピークが現れるから、ピークPBを単純に拍点Bとして特定することはできない。候補検出部60は、図10の部分(A)に示すように、拍指標系列Xに現れるM個(Mは自然数)のピークPBを検出し、ピークPBが現れる各時点を拍点Bの候補点BC(BC[1]〜BC[M])として特定したうえで記憶装置14に格納する。図1の拍点特定部70は、候補検出部60が特定したM個の候補点BC(BC[1]〜BC[M])から最終的な拍点Bを確定する。なお、拍指標系列Xに現れる総てのピークPBを拍点Bの候補点BCとする必要は必ずしもない。   The candidate detection unit 60 and the beat point specifying unit 70 in FIG. 1 include the beat index series X (OB [1] to OB [N]) specified by the beat index specifying unit 30 and the beat cycle T specified by the beat cycle specifying unit 40. And the beat point (beat position) B of the acoustic signal S is detected. Since the intensity of the acoustic signal S tends to change greatly at the beat point B, there is a high possibility that the peak PB corresponding to the beat point B appears in the beat index series X. However, since the peak appears in the beat index series X even when the intensity of the acoustic signal PB changes greatly except at the beat point, the peak PB cannot be simply specified as the beat point B. Candidate detection unit 60 detects M (M is a natural number) peaks PB appearing in beat index series X as shown in part (A) of FIG. The point BC (BC [1] to BC [M]) is specified and stored in the storage device 14. 1 determines the final beat point B from the M candidate points BC (BC [1] to BC [M]) specified by the candidate detection unit 60. It is not always necessary to set all the peaks PB appearing in the beat index series X as the candidate points BC of the beat point B.

図11は、拍点特定部70のブロック図である。図11の窓列設定部72は、候補検出部60が特定したM個の候補点BC(BC[1]〜BC[M])の各々について窓列GA(GA[1]〜GA[M])を設定する。図10の部分(B)に示すように、第i番目(i=1〜M)の候補点BC[i]に対応する窓列GA[i]は、候補点BC[i]から拍周期Tに応じた間隔で時間軸上に順次に配置されたmA個の検索窓WA(WA[1]〜WA[mA])の集合である。各検索窓WAの窓幅w1は、M個の窓列GA(GA[1]〜GA[M])について共通の所定値(例えば拍指標値OBの20個分)に設定される。窓列GA[i]の第1番目の検索窓WA[1]は中点が候補点BC[i]に合致するように配置され、第2番目の検索窓WA[2]は検索窓WA[1]の中点(候補点BC[i])から拍周期Tだけ離間した時点に中点が位置するように設定される。第3番目以降の検索窓WA(WA[3]〜WA[mA])は以下の手順で設定される。   FIG. 11 is a block diagram of the beat point specifying unit 70. The window row setting unit 72 in FIG. 11 sets the window row GA (GA [1] to GA [M]) for each of the M candidate points BC (BC [1] to BC [M]) specified by the candidate detection unit 60. ) Is set. As shown in part (B) of FIG. 10, the window sequence GA [i] corresponding to the i-th (i = 1 to M) candidate point BC [i] A set of mA search windows WA (WA [1] to WA [mA]) sequentially arranged on the time axis at intervals according to. The window width w1 of each search window WA is set to a common predetermined value (for example, 20 beat index values OB) for the M window rows GA (GA [1] to GA [M]). The first search window WA [1] of the window row GA [i] is arranged so that the midpoint coincides with the candidate point BC [i], and the second search window WA [2] is the search window WA [ 1] is set so that the midpoint is located at a point separated from the midpoint (candidate point BC [i]) by the beat period T. The third and subsequent search windows WA (WA [3] to WA [mA]) are set by the following procedure.

図12の部分(A)に示すように検索窓WA[p-1](p=3〜mA)内に拍指標系列XのピークPBが存在しない場合、窓列設定部72は、検索窓WA[p-1]の中点から拍周期Tだけ離間した時点が中点となるように検索窓WA[p]を設定する。一方、図12の部分(B)に示すように検索窓WA[p-1]内にピークPBが存在する場合、窓列設定部72は、当該ピークPBから拍周期Tだけ離間した時点が中点となるように検索窓WA[p]を設定する。また、図12の部分(C)に示すように検索窓WA[p-1]内に複数のピークPBが存在する場合、窓列設定部72は、検索窓WA[p-1]の中点に近いピークPBから拍周期Tだけ離間した時点が中点となるように検索窓WA[p]を設定する。図10の部分(B)に示すように、音響信号Sの終点(拍指標値OB[N])から所定長ΔLだけ手前の時点を超えない範囲で検索窓WAの配置が反復される。所定長ΔLは、例えば拍周期Tと所定値(例えば10)との加算値である。窓列設定部72は、M個の窓列GA(GA[1]〜GA[M])の各々について、当該窓列GA[i]の各検索窓WA(WA[1]〜WA[mA])が拍指標系列XのピークPBを内包するか否かを示す情報(フラグ)を記憶装置14に格納する。   When the peak PB of the beat index series X does not exist in the search window WA [p-1] (p = 3 to mA) as shown in part (A) of FIG. 12, the window row setting unit 72 displays the search window WA. The search window WA [p] is set so that the time point separated from the midpoint of [p-1] by the beat period T is the midpoint. On the other hand, when the peak PB is present in the search window WA [p-1] as shown in the part (B) of FIG. 12, the window row setting unit 72 sets the time when the peak PB is separated by the beat period T from the middle. The search window WA [p] is set to be a point. When there are a plurality of peaks PB in the search window WA [p-1] as shown in part (C) of FIG. 12, the window row setting unit 72 selects the midpoint of the search window WA [p-1]. The search window WA [p] is set so that the time point separated from the peak PB close to by the beat period T is the midpoint. As shown in part (B) of FIG. 10, the arrangement of the search windows WA is repeated within a range that does not exceed a point in time before the end point (beat index value OB [N]) of the acoustic signal S by a predetermined length ΔL. The predetermined length ΔL is, for example, an added value of the beat period T and a predetermined value (for example, 10). For each of the M window rows GA (GA [1] to GA [M]), the window row setting unit 72 selects each search window WA (WA [1] to WA [mA]) of the window row GA [i]. ) Stores in the storage device 14 information (flag) indicating whether or not the peak PB of the beat index series X is included.

図11の選択部74は、窓列設定部72が設定したM個の窓列GA(GA[1]〜GA[M])のうち拍指標系列XのピークPBを内包する検索窓WAの個数が多いn2個の窓列GA(すなわちn2個の候補点BC)を選択する。図11に示すように、本形態の選択部74は、第1抽出部741と第2抽出部742とで構成される。第1抽出部741は、M個の窓列GA(GA[1]〜GA[M])のなかから所定の条件を充足するn1個の窓列GAを抽出し、第2抽出部742は、第1抽出部741が抽出したn1個の窓列GAのなかから所定の条件を充足するn2個の窓列GAを抽出する。すなわち、M個の窓列GA(換言するとM個の候補点BC(BC[1]〜BC[M])が2段階にわたってn2個まで絞り込まれる。   11 selects the number of search windows WA including the peak PB of the beat index series X among the M window lines GA (GA [1] to GA [M]) set by the window line setting unit 72. N2 window rows GA (that is, n2 candidate points BC) having a large number are selected. As shown in FIG. 11, the selection unit 74 of this embodiment includes a first extraction unit 741 and a second extraction unit 742. The first extraction unit 741 extracts n1 window rows GA satisfying a predetermined condition from the M window rows GA (GA [1] to GA [M]), and the second extraction unit 742 includes: From the n1 window rows GA extracted by the first extraction unit 741, n2 window rows GA satisfying a predetermined condition are extracted. That is, M window rows GA (in other words, M candidate points BC (BC [1] to BC [M]) are narrowed down to n2 in two stages.

第1抽出部741は、図13に示すように、M個の窓列GA(GA[1]〜GA[M])の各々について、当該窓列GA[i]のmA個の検索窓WA(WA[1]〜WA[mA])から選択されたH1個(H1は自然数)の検索窓WAのうち拍指標系列XのピークPBを内包する検索窓WAの個数h1を特定する。個数H1は所定値(例えば32)に設定される。H1個の検索窓WAは、図10の部分(B)における窓列GA[1]について例示するように、窓列GA[i]を構成するmA個の検索窓WA(WA[1]〜WA[mA])のうち音響信号Sの始点側から順番に選択された検索窓WA(WA[1]〜WA[H1])の集合である。   As shown in FIG. 13, the first extraction unit 741 takes mA search windows WA (in the window row GA [i] for each of the M window rows GA (GA [1] to GA [M]). The number h1 of search windows WA including the peak PB of the beat index series X is specified among the H1 (H1 is a natural number) search windows WA selected from WA [1] to WA [mA]). The number H1 is set to a predetermined value (for example, 32). As illustrated for the window row GA [1] in the part (B) of FIG. 10, the H1 search windows WA are mA search windows WA (WA [1] to WA constituting the window row GA [i]. [mA]) is a set of search windows WA (WA [1] to WA [H1]) sequentially selected from the start point side of the acoustic signal S.

図13に示すように、第1抽出部741は、M個の窓列GA(GA[1]〜GA[M])のうち個数h1が所定の閾値TH1を上回るn1個の窓列GAを選択する。閾値TH1は、M個の窓列GAにおける個数h1の最大値(図13では窓列GA[2]に対応する個数h1)から所定値ΔTH1(例えば4)を減算した数値に設定される。図13においては、窓列GA[2],GA[4],GA[7],GA[9],……を含むn1個の窓列GAを第1抽出部741が選択した場合が想定されている。   As shown in FIG. 13, the first extraction unit 741 selects n1 window rows GA in which the number h1 exceeds a predetermined threshold TH1 among the M window rows GA (GA [1] to GA [M]). To do. The threshold TH1 is set to a value obtained by subtracting a predetermined value ΔTH1 (for example, 4) from the maximum value of the number h1 in the M window rows GA (the number h1 corresponding to the window row GA [2] in FIG. 13). In FIG. 13, it is assumed that the first extraction unit 741 selects n1 window rows GA including window rows GA [2], GA [4], GA [7], GA [9],. ing.

図11の第2抽出部742は、図14に示すように、第1抽出部741が抽出したn1個の窓列GAの各々について、当該窓列GA[i]のmA個(全部)の検索窓WA(WA[1]〜WA[mA])のうち拍指標系列XのピークPBを内包する検索窓WAの個数h2を特定する。さらに、第2抽出部742は、n1個の窓列GAのうち個数h2が閾値TH2を上回るn2個の窓列GAを選択する。閾値TH2は、第1抽出部741が抽出したn1個の窓列GAにおける個数h2の最大値(図14では窓列GA[2]に対応する個数h2)から所定値ΔTH2(例えば2)を減算した数値に設定される。図14においては、第1抽出部741が抽出したn1個の窓列GA(GA[2],GA[4],GA[7],GA[9],……)のうち窓列GA[2],GA[7],……を含むn2個の窓列GAを第2抽出部742が選択した場合が想定されている。   As shown in FIG. 14, the second extraction unit 742 in FIG. 11 searches for the mA (all) of the window sequence GA [i] for each of the n1 window sequences GA extracted by the first extraction unit 741. Of the windows WA (WA [1] to WA [mA]), the number h2 of search windows WA that contain the peak PB of the beat index series X is specified. Further, the second extraction unit 742 selects n2 window rows GA in which the number h2 exceeds the threshold TH2 among the n1 window rows GA. The threshold TH2 is obtained by subtracting a predetermined value ΔTH2 (for example, 2) from the maximum value of the number h2 in the n1 window rows GA extracted by the first extraction unit 741 (the number h2 corresponding to the window row GA [2] in FIG. 14). It is set to the numerical value. In FIG. 14, among the n1 window rows GA (GA [2], GA [4], GA [7], GA [9],...) Extracted by the first extraction unit 741, the window row GA [2 ], GA [7],... It is assumed that the second extraction unit 742 selects n2 window rows GA including.

図11の窓列設定部76は、選択部74が選択した各窓列GAに対応するn2個の候補点BCの各々について窓列GBを設定する。候補点BC[i]に対応する窓列GB[i]は、候補点BC[i]から拍周期Tに応じた間隔で配置されたmB個の検索窓WB(WB[1]〜WB[mB])の集合である。図10の部分(C)には、候補点BC[2]の窓列GB[2]が代表的に例示されている。窓列GB[i]の各検索窓WB(WB[1]〜WB[mB])の中点の位置は、窓列設定部72による検索窓WAの配置と同様の方法で拍周期Tに応じて決定される。図10の部分(C)に示すように、n2個の窓列GBにおける各検索窓WBの窓幅w2は、窓列設定部72が設定した検索窓WAの窓幅w1を下回る所定値(例えば拍指標値OBの10個分)に設定される。以上のように検索窓WAの窓幅w1と検索窓WBの窓幅w2とは相違するから、窓列GA[i]の各検索窓WAの位置と窓列GB[i]の各検索窓WBの位置とは必ずしも合致しない。   The window row setting unit 76 in FIG. 11 sets a window row GB for each of n2 candidate points BC corresponding to each window row GA selected by the selection unit 74. The window sequence GB [i] corresponding to the candidate point BC [i] is represented by mB search windows WB (WB [1] to WB [mB] arranged at intervals according to the beat period T from the candidate point BC [i]. ]). Part (C) of FIG. 10 typically illustrates a window row GB [2] of candidate points BC [2]. The position of the midpoint of each search window WB (WB [1] to WB [mB]) in the window row GB [i] depends on the beat period T in the same manner as the arrangement of the search windows WA by the window row setting unit 72. Determined. As shown in part (C) of FIG. 10, the window width w2 of each search window WB in the n2 window rows GB is a predetermined value (for example, lower than the window width w1 of the search window WA set by the window row setting unit 72). 10 beat index values OB). Since the window width w1 of the search window WA and the window width w2 of the search window WB are different as described above, the position of each search window WA in the window row GA [i] and each search window WB in the window row GB [i]. Does not necessarily match the position of.

図11の信頼度算定部78は、窓列設定部76が設定したn2個の窓列GBの各々について信頼度Rを算定する。窓列GB[i](候補点BC[i])に対応する信頼度R[i]は、候補点BC[i]が音響信号Sの拍点Bに該当する可能性の指標となる数値である。例えば、信頼度R[i]は、窓列GB[i]の各検索窓WB(WB[1]〜WB[mB])内に位置するピークPBの強度(拍指標値OB)の平均値または合計値である。ひとつの検索窓WB内に複数のピークPTが存在する場合には、当該検索窓WBの中点に近いピークPBが信頼度Rの算定に使用される。   The reliability calculation unit 78 in FIG. 11 calculates the reliability R for each of the n2 window rows GB set by the window row setting unit 76. The reliability R [i] corresponding to the window row GB [i] (candidate point BC [i]) is a numerical value serving as an index of the possibility that the candidate point BC [i] corresponds to the beat point B of the acoustic signal S. is there. For example, the reliability R [i] is the average value of the intensity (beat index value OB) of the peak PB located in each search window WB (WB [1] to WB [mB]) in the window row GB [i] or It is the total value. When a plurality of peaks PT exist in one search window WB, the peak PB close to the midpoint of the search window WB is used for calculating the reliability R.

拍点確定部80は、選択部74が選択したn2個の窓列GB(候補点BC)の何れかを各々の信頼度Rに応じて選択し、当該窓列GB[i]に対応する候補点BC[i]を拍点Bとして確定する。拍指標系列Xに高強度で周期的に現れるピークPBは拍点Bである可能性が高い。そこで、拍点確定部80は、n2個の窓列GBのうち信頼度R[i]が最大である窓列GB[i]に対応する候補点BC[i]を拍点Bとして確定する。さらに、拍点確定部80は、信頼度R[i]から拍点Bとして確定した候補点BC[i]の窓列GB[i]を構成するmB個の検索窓WB(WB[1]〜WB[mB])の各々が内包するピークPBの時点を拍点Bの系列として確定する。   The beat point determination unit 80 selects any one of the n2 window rows GB (candidate points BC) selected by the selection unit 74 according to the reliability R, and the candidate corresponding to the window row GB [i]. The point BC [i] is determined as the beat point B. The peak PB that appears periodically in the beat index series X with high intensity is likely to be the beat point B. Therefore, the beat point determination unit 80 determines the candidate point BC [i] corresponding to the window row GB [i] having the highest reliability R [i] among the n2 window rows GB as the beat point B. Furthermore, the beat point determination unit 80 determines mB search windows WB (WB [1] to WB [1] to BB [i] of the candidate points BC [i] determined as the beat points B from the reliability R [i]. The time point of the peak PB included in each of WB [mB]) is determined as a series of beat points B.

ところで、信頼度R[i]が最大となる窓列GB[i]のmB個の検索窓WB(WB[1]〜WB[mB])のなかにはピークPBを包含しない検索窓WBも存在する。図11の拍点補充部82は、拍点確定部80が確定した複数の拍点Bの系列において相前後する各拍点Bの間隔gを算定し、拍周期Tを上回る間隔g内に新たな拍点Bnewを設定(補充)する。例えば、図15の部分(A)に示すように、相隣接する拍点Baと拍点Bbとの間隔gが拍周期Tの1.5倍から2.5倍までの範囲内にある場合(1.5T≦g<2.5T)、拍点補充部82は、拍点Baと拍点Bbとの中点に新たな拍点Bnewを追加する。また、図15の部分(B)に示すように、拍点Baと拍点Bbとの間隔gが拍周期Tの2.5倍から3.5倍までの範囲内にある場合(2.5T≦g<3.5T)、拍点補充部82は、拍点Baと拍点Bbとの間隔を3等分する各地点に拍点Bnewを追加する。   By the way, among the mB search windows WB (WB [1] to WB [mB]) of the window row GB [i] having the maximum reliability R [i], there is also a search window WB that does not include the peak PB. The beat point supplementing unit 82 in FIG. 11 calculates the interval g between the beat points B that are in succession in the series of the plurality of beat points B determined by the beat point determining unit 80, and newly adds the interval g exceeding the beat period T. A new beat point Bnew is set (supplemented). For example, as shown in part (A) of FIG. 15, when the interval g between adjacent beat points Ba and Bb is within a range of 1.5 to 2.5 times the beat period T (1.5T ≦ g <2.5T), the beat point supplementing unit 82 adds a new beat point Bnew at the midpoint between the beat points Ba and Bb. As shown in part (B) of FIG. 15, when the interval g between the beat point Ba and the beat point Bb is in the range of 2.5 to 3.5 times the beat period T (2.5T ≦ g <3.5T). ) The beat point supplementing unit 82 adds a beat point Bnew to each point that divides the interval between the beat point Ba and the beat point Bb into three equal parts.

さらに、拍点補充部82は、新たな拍点Bnewを中点として所定の範囲内に拍指標系列XのピークPBが存在する場合、当該拍点Bnewを、当該ピークPBに対応した時点に補正する。拍点確定部80が確定した拍点Bの時点と拍点補充部82が設定した拍点Bnewの時点とは、例えば音響信号Sに対応するように記憶装置14に格納される。   Further, when the peak PB of the beat index series X exists within a predetermined range with the new beat point Bnew as the midpoint, the beat point supplementing unit 82 corrects the beat point Bnew to a time corresponding to the peak PB. To do. The time point of the beat point B determined by the beat point determining unit 80 and the time point of the beat point Bnew set by the beat point supplementing unit 82 are stored in the storage device 14 so as to correspond to the acoustic signal S, for example.

以上の形態においては、第1に、選択部74が、拍指標系列XのピークPBを内包する検索窓WAの個数が多いn2個の窓列GAに対応した候補点BCを選択し、第2に、拍点確定部80が、n2個の候補点BCに対応した窓列GBのうち各検索窓WB内のピークPBの強度(拍指標値OB)に応じて選択した窓列GBの候補点BCを拍点Bとして確定する。拍指標系列XのピークPBを内包する検索窓WAの個数(n1,n2)は簡素な処理で計数されるから、本形態によれば、例えば各候補点BC(BC[1]〜BC[N])に対応したN個の窓列GA(GA[1]〜GA[N])の各々について各検索窓WA内のピークPBの強度に応じた信頼度Rを算定したうえで拍点Bを特定する構成と比較して、拍点特定部70による演算量(特に信頼度Rの算定の頻度)が削減されるという利点がある。さらに、窓列GBにおける検索窓WBの窓幅w2は窓列GAにおける検索窓WAの窓幅w1よりも狭いから、検索窓WAと検索窓WBとで窓幅を共通させた場合と比較して拍点Bを正確かつ効率的に検出することが可能である。   In the above embodiment, first, the selection unit 74 selects a candidate point BC corresponding to n2 window rows GA having a large number of search windows WA including the peak PB of the beat index series X, and the second Furthermore, the candidate point of the window sequence GB selected by the beat point determination unit 80 according to the intensity (beat index value OB) of the peak PB in each search window WB among the window sequences GB corresponding to the n2 candidate points BC. Confirm BC as beat point B. Since the number (n1, n2) of the search windows WA including the peak PB of the beat index series X is counted by a simple process, for example, according to this embodiment, each candidate point BC (BC [1] to BC [N ]) For each of the N window rows GA (GA [1] to GA [N]) corresponding to the intensity of the peak PB in each search window WA and calculating the beat point B Compared to the configuration to be specified, there is an advantage that the calculation amount (particularly the frequency of calculation of the reliability R) by the beat point specifying unit 70 is reduced. Further, since the window width w2 of the search window WB in the window row GB is narrower than the window width w1 of the search window WA in the window row GA, compared with the case where the search window WA and the search window WB have a common window width. It is possible to detect the beat point B accurately and efficiently.

また、第1に、第1抽出部741が、窓列GAを構成するmA個の検索窓WAから選択されたH1個の検索窓WAのうちピークPBを内包する検索窓WAの個数h1に応じてn1個の窓列GAを選択し、第2に、第2抽出部742が、n1個の窓列GAの各々における総ての検索窓WAのうちピークPBを内包する検索窓WAの個数h2に応じてn2個の窓列GAを選択する。したがって、窓列GAのH1個の検索窓WA内のピークPBの個数h1からn2個の窓列GAを選択する処理のみを実行する場合と比較して、実際の拍点Bに対応する窓列GAを正確に抽出できるという利点がある。また、第2抽出部742による処理の対象が事前にn1個に削減されるから、M個の窓列GA(GA[1]〜GA[M])の各々について総ての検索窓WA内のピークPBの個数h2からn2個の窓列GAを選択する場合と比較して選択部74による演算量が軽減されるという利点もある。   First, the first extraction unit 741 corresponds to the number h1 of search windows WA including the peak PB among the H1 search windows WA selected from the mA search windows WA constituting the window row GA. N1 window rows GA are selected, and secondly, the second extraction unit 742 includes the number h2 of search windows WA including the peak PB among all the search windows WA in each of the n1 window rows GA. N2 window rows GA are selected according to the above. Therefore, the window sequence corresponding to the actual beat point B is compared with the case where only the process of selecting n2 window sequences GA from the number h1 of peaks PB in the H1 search windows WA of the window sequence GA is performed. There is an advantage that GA can be accurately extracted. In addition, since the number of objects to be processed by the second extraction unit 742 is reduced to n1 in advance, all of the M window rows GA (GA [1] to GA [M]) are included in all the search windows WA. Compared with the case where n2 window rows GA are selected from the number h2 of peaks PB, there is also an advantage that the calculation amount by the selection unit 74 is reduced.

窓列設定部72が各検索窓WAを配置する場合に、検索窓WAに内包されるピークPBの時点から拍周期Tだけ経過した時点を中点として次の検索窓WAが設定されるから、例えば拍周期Tの起算点を各検索窓WAの中点に固定した構成と比較して、音響信号Sの拍周期Tに揺らぎがある場合であっても各拍点Bを正確に検出できるという利点がある。以上においては検索窓WAについて言及したが、窓列設定部76による検索窓WBの設定についても同様の効果が実現される。   When the window row setting unit 72 arranges each search window WA, the next search window WA is set with the point when the beat period T has elapsed from the point of the peak PB included in the search window WA as a midpoint. For example, compared to a configuration in which the starting point of the beat period T is fixed at the midpoint of each search window WA, each beat point B can be accurately detected even when there is fluctuation in the beat period T of the acoustic signal S. There are advantages. Although the search window WA has been described above, the same effect can be realized for the setting of the search window WB by the window row setting unit 76.

拍点確定部80の確定した拍点Bの間隔gが拍周期Tを上回る場合に当該間隔g内に新規な拍点Bnewが補充されるから、音響信号Sにおいて強度の変化が比較的に小さい拍点B(すなわち拍指標系列Xに顕著なピークPBとして現れない拍点B)も適切に特定できるという利点がある。   When the interval g between the beat points B determined by the beat point determination unit 80 exceeds the beat period T, a new beat point Bnew is supplemented within the interval g, so that the intensity change in the acoustic signal S is relatively small. There is an advantage that a beat point B (that is, a beat point B that does not appear as a prominent peak PB in the beat index series X) can also be specified appropriately.

<変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下に例示する各態様を任意に組合わせてもよい。
<Modification>
Various modifications are added to the above embodiments. An example of a specific modification is as follows. In addition, you may combine each aspect illustrated below arbitrarily.

(1)変形例1
拍周期Tを特定する方法は以上の例示に限定されない。例えば、以上の形態においては、単位区間U毎の自己相関値CをNU個の単位区間Uについて平均した平均相関値Caveを拍周期Tの特定に利用したが、特定の単位区間Uの自己相関値Cを平均相関値Caveの代わりに利用する構成(平均部46を省略した構成)も採用される。ただし、ひとつの単位区間Uの自己相関値Cにおいては拍点B以外の要因(例えば雑音)の影響が顕在化するから、拍周期Tの特定の精度が制限されるという問題がある。図6の構成においてはNU個の単位区間Uにわたる平均相関値Caveが使用されるから、音響信号Sにおける拍点B以外の要因の影響を緩和して高精度に拍周期Tを特定できるという利点がある。
(1) Modification 1
The method for specifying the beat period T is not limited to the above examples. For example, in the above embodiment, the average correlation value Cave obtained by averaging the autocorrelation value C for each unit interval U with respect to NU unit intervals U is used for specifying the beat period T. However, the autocorrelation of a specific unit interval U is used. A configuration in which the value C is used instead of the average correlation value Cave (a configuration in which the average unit 46 is omitted) is also employed. However, in the autocorrelation value C of one unit section U, the influence of factors other than the beat point B (for example, noise) becomes obvious, so that there is a problem that the specific accuracy of the beat period T is limited. In the configuration of FIG. 6, an average correlation value Cave over NU unit intervals U is used, so that the influence of factors other than the beat point B in the acoustic signal S can be reduced and the beat period T can be specified with high accuracy. There is.

以上の例示以外にも拍周期Tの特定には公知の技術が任意に採用される。また、拍周期Tを音響信号Sに対する演算で算定する処理は本発明において必須ではない。例えば、音響信号Sの拍周期Tが記憶装置14に格納された構成においては、拍周期Tを記憶装置14から読出す処理が本発明における「拍周期の特定」に相当する。ただし、図6の構成においては、拍指標特定部30の特定した拍指標系列Xが、拍周期特定部40による拍周期Tの特定と拍点特定部70による拍点Bの特定とに兼用されるから、拍周期特定部40が拍周期Tの特定に拍指標系列Xを使用しない構成と比較して、音響処理装置100の全体としての演算量が削減されるという利点がある。   In addition to the above examples, a known technique is arbitrarily employed for specifying the beat period T. Moreover, the process which calculates the beat period T by the calculation with respect to the acoustic signal S is not essential in this invention. For example, in the configuration in which the beat period T of the acoustic signal S is stored in the storage device 14, the process of reading the beat period T from the storage device 14 corresponds to “specification of the beat period” in the present invention. However, in the configuration of FIG. 6, the beat index series X specified by the beat index specifying unit 30 is used both for specifying the beat period T by the beat period specifying unit 40 and for specifying the beat point B by the beat point specifying unit 70. Therefore, as compared with a configuration in which the beat period specifying unit 40 does not use the beat index series X to specify the beat period T, there is an advantage that the calculation amount of the sound processing apparatus 100 as a whole is reduced.

(2)変形例2
拍指標系列X(X0)の定義や算定の方法は適宜に変更される。例えば、以上においては各フレームFの音響信号Sの全帯域にわたる強度の変化量を拍指標値OAとして拍指標系列Xを算定したが、音響信号Sのうち特定の周波数帯域(例えば高音域)に属する成分の強度から拍指標系列Xを算定する構成や、相前後する各フレームFにおける音響信号Sの強度の相対比を拍指標値OAとして拍指標系列Xを算定する構成も採用される。
(2) Modification 2
The definition and calculation method of the beat index series X (X0) are changed as appropriate. For example, in the above description, the beat index series X is calculated using the change in intensity over the entire band of the acoustic signal S of each frame F as the beat index value OA, but the acoustic signal S has a specific frequency band (for example, a high frequency range). A configuration for calculating the beat index series X from the intensity of the component to which it belongs, and a structure for calculating the beat index series X using the relative ratio of the intensity of the acoustic signal S in each successive frame F as the beat index value OA are also employed.

また、拍指標系列Xの基礎となる特徴量は音響信号Sの強度に限定されない。例えば、各フレームFの複素スペクトルの位相偏差を拍指標値OAとして拍指標系列Xが算定される。さらに詳述すると、過去のフレームFから各フレームFについて予測される音響信号Sの短時間複素スペクトルの位相と当該フレームFの実際の位相との差分値(あるいは単純に前後の各フレームFの位相の差分値)を周波数毎に算定し、各差分値の絶対値を全帯域にわたって合計または平均した数値を各フレームFの拍指標値OAとすることで拍指標系列Xが生成される。位相偏差を利用した場合にも拍点B(打撃音)の位置を高精度に検出することが可能である。   Further, the feature quantity that is the basis of the beat index series X is not limited to the intensity of the acoustic signal S. For example, the beat index series X is calculated using the phase deviation of the complex spectrum of each frame F as the beat index value OA. More specifically, the difference between the phase of the short-time complex spectrum of the acoustic signal S predicted for each frame F from the past frame F and the actual phase of the frame F (or simply the phases of the preceding and subsequent frames F). The beat index series X is generated by calculating a value obtained by summing or averaging the absolute values of the difference values over the entire band as the beat index value OA of each frame F. Even when the phase deviation is used, the position of the beat point B (striking sound) can be detected with high accuracy.

さらに、相前後する各フレームFの周波数スペクトルQから特定されるベクトル間の距離(例えばユークリッド距離)を拍指標値OAとして拍指標系列X0を特定する構成や、音響信号Sにおいて相前後する各フレームFの強度(音量)の差分の時系列を拍指標系列X0として算定する構成(周波数スペクトルQの算定を省略した構成)も採用される。以上の例示から理解されるように、音響信号Sの特徴量の変化の程度の指標となる任意の数値が本発明における拍指標値として利用される。   Further, a configuration in which the beat index series X0 is specified using a distance (for example, Euclidean distance) between vectors specified from the frequency spectrum Q of each successive frame F as a beat index value OA, and each successive frame in the acoustic signal S. A configuration (a configuration in which the calculation of the frequency spectrum Q is omitted) that calculates the time series of the difference in F intensity (volume) as the beat index sequence X0 is also employed. As can be understood from the above examples, any numerical value serving as an index of the degree of change in the characteristic amount of the acoustic signal S is used as the beat index value in the present invention.

また、ピーク強調部34を省略した構成も好適である。すなわち、指標算定部32が算定した拍指標値OA(OA[1]〜OA[N])の系列が拍指標系列Xとして拍周期特定部40や候補検出部60に使用される。また、ピーク強調部34を具備する構成において、拍指標系列X0のピークを強調する方法は以上の例示に限定されない。例えば、拍指標系列X0に対してハイパスフィルタ処理を実行することで拍指標系列Xが特定される。   A configuration in which the peak emphasizing unit 34 is omitted is also suitable. That is, the series of beat index values OA (OA [1] to OA [N]) calculated by the index calculation unit 32 is used as the beat index series X by the beat period specifying unit 40 and the candidate detection unit 60. In the configuration including the peak emphasizing unit 34, the method for emphasizing the peak of the beat index series X0 is not limited to the above example. For example, the beat index series X is specified by performing high-pass filter processing on the beat index series X0.

(3)変形例3
以上の形態においては、第1抽出部741による候補点BC(窓列GA)の絞込みと第2抽出部742による候補点BC(窓列GA)の絞込みと信頼度Rに応じた候補点BCの絞込み(拍点Bの確定)とを実行する構成を例示したが、以上の3種類の絞込みのうち任意の2種類の絞込みのみを採用した構成も好適である。例えば、第1抽出部741および第2抽出部742の一方を省略した構成や信頼度算定部78(さらには窓列設定部76)を省略した構成も採用される。信頼度算定部78を省略した構成においては、例えば、第1抽出部741が選別したn1個の窓列GAのうちピークPBを内包する検索窓WAの個数h2が最大となる窓列GA[i]に対応した候補点BC[i]が拍点Bとして確定される。
(3) Modification 3
In the above embodiment, the candidate point BC (window row GA) is narrowed down by the first extraction unit 741, the candidate point BC (window row GA) is narrowed down by the second extraction unit 742, and the candidate point BC corresponding to the reliability R is selected. Although the configuration for performing the narrowing (determination of beat point B) is illustrated, a configuration that employs only two arbitrary types of narrowing out of the above three types of narrowing down is also suitable. For example, a configuration in which one of the first extraction unit 741 and the second extraction unit 742 is omitted or a configuration in which the reliability calculation unit 78 (and further the window row setting unit 76) is omitted is also employed. In the configuration in which the reliability calculation unit 78 is omitted, for example, the window row GA [i [i] in which the number h2 of search windows WA including the peak PB among the n1 window rows GA selected by the first extraction unit 741 is maximum. ] Corresponding to the point BC [i] is determined as the beat point B.

(4)変形例4
以上の形態においては、第2抽出部742が窓列GA[i]の総て(mA個)の検索窓WA(WA[1]〜WA[mA])を対象として個数h2を特定したが、窓列GA[i]のうち一部の検索窓WAのみを個数h2の計数に使用してもよい。すなわち、第1抽出部741と第2抽出部742とを具備する構成においては、第2抽出部742による個数h2の計数に使用される検索窓WAの個数H2が、第1抽出部741による個数h1の計数に使用される検索窓WAの個数H1を上回る構成が好適であり、個数H2の検索窓WAが窓列GAの全部であるか一部であるかは不問である。
(4) Modification 4
In the above embodiment, the second extraction unit 742 specifies the number h2 for all (mA) search windows WA (WA [1] to WA [mA]) in the window row GA [i]. Only a part of the search windows WA in the window row GA [i] may be used for counting the number h2. That is, in the configuration including the first extraction unit 741 and the second extraction unit 742, the number H2 of search windows WA used for counting the number h2 by the second extraction unit 742 is the number by the first extraction unit 741. A configuration in which the number of search windows WA used for counting h1 exceeds the number H1 is suitable, and it does not matter whether the number of search windows WA is all or part of the window row GA.

また、第1抽出部741が個数h1の計数に使用するH1個の検索窓WAは窓列GAから任意に選択される。例えば、音響信号Sの中途の部分や最後の部分に対応するH1個の検索窓WAを選択する構成や、音響信号Sの始点から終点までにわたって分散的にH1個の検索窓WAを選択する構成が採用される。ただし、拍点B(拍間隔T)は、楽曲のうちの最初の部分で明確かつ安定的に現れる場合が特に多いという傾向があるから、個数h1の計数に使用するH1個の検索窓WAを音響信号S(楽曲)の始点側から順番に選択する構成によれば、他の部分の検索窓WAを使用する場合と比較して正確かつ安定的に拍点Bを検出できるという利点がある。   The H1 search windows WA used by the first extraction unit 741 for counting the number h1 are arbitrarily selected from the window row GA. For example, a configuration for selecting H1 search windows WA corresponding to the middle part or the last part of the acoustic signal S, or a configuration for selecting H1 search windows WA in a distributed manner from the start point to the end point of the acoustic signal S. Is adopted. However, since beat point B (beat interval T) tends to appear clearly and stably in the first part of the music, there are many H1 search windows WA used for counting the number h1. According to the configuration in which the acoustic signal S (musical piece) is selected in order from the start point side, there is an advantage that the beat point B can be detected accurately and stably as compared with the case where the search window WA of another part is used.

(5)変形例5
以上の形態においては音響信号Sの全体にわたって拍周期T(テンポ)が一定である場合を例示したが、拍周期Tが音響信号Sの各部分で変化する場合であっても、以上の形態に例示した拍周期Tや拍点Bの特定は適用される。図16は、楽曲内で拍周期Tが変化する場合における単位区間U毎の自己相関値Cを図8の部分(A)と同様の方法で図示した概念図である。自己相関値Cには拍周期Tに応じた間隔でピーク(PT)が発生するから、楽曲内で拍周期Tが相異なる各区間V(V1,V2,V3)においては自己相関値CのピークPTの間隔が相違する。図17は、変形例に係る拍周期特定部40のブロック図である。図17の区間検出部56は、各単位区間Uにおける自己相関値CのピークPTの間隔を算定するとともに当該間隔が変化する時点を境界として音響信号Sを複数の区間Vに区分する。図17の平均部46から拍周期確定部54までの各要素は、複数の区間Vの各々について以上の形態(図1)と同様の処理を実行することで区間V毎に拍周期Tを特定する。一方、拍点特定部70は、音響信号Sの複数の区間Vの各々について、当該区間V内の拍指標系列Xと当該区間Vの拍周期Tとを利用して以上の形態と同様の方法で拍点Bの系列を特定する。なお、拍周期Tの変化を検出する方法は以上の例示に限定されない。
(5) Modification 5
Although the case where the beat period T (tempo) is constant over the entire acoustic signal S has been exemplified in the above form, even if the beat period T changes in each part of the acoustic signal S, the above form is adopted. The specified beat period T and beat point B are applied. FIG. 16 is a conceptual diagram illustrating the autocorrelation value C for each unit section U when the beat period T changes in the music piece in the same manner as the part (A) of FIG. Since the autocorrelation value C has a peak (PT) at intervals corresponding to the beat period T, the peak of the autocorrelation value C is obtained in each section V (V1, V2, V3) having a different beat period T in the music. The interval of PT is different. FIG. 17 is a block diagram of the beat period specifying unit 40 according to the modification. 17 calculates the interval of the peak PT of the autocorrelation value C in each unit interval U, and divides the acoustic signal S into a plurality of intervals V with the time when the interval changes as a boundary. Each element from the averaging unit 46 to the beat period determining unit 54 in FIG. 17 specifies the beat period T for each section V by executing the same processing as in the above form (FIG. 1) for each of the plurality of sections V. To do. On the other hand, the beat point specifying unit 70 uses the beat index series X in the section V and the beat period T in the section V for each of the plurality of sections V of the acoustic signal S, and uses the same method as the above embodiment. The beat point B series is identified with. In addition, the method of detecting the change of the beat period T is not limited to the above illustration.

(6)変形例6
以上の形態においては信頼度R[i]の算定に窓列GB[i]を利用したが、窓列設定部72が設定した窓列GA[i]を利用して信頼度算定部78が信頼度R[i]を算定する構成も採用される。例えば、信頼度算定部78は、選択部74が選択したn2個の窓列GAの各々について、当該窓列GA[i]の各検索窓WA(WA[1]〜WA[mA])内に位置するピークPBの強度(拍指標値OB)の平均値または合計値を信頼度R[i]として算定する。以上のように信頼度R[i]の算定に窓列GA[i]を使用する構成においては窓列設定部76が省略される。もっとも、図10の部分(B)および部分(C)のように検索窓WAの窓幅w1と比較して窓幅w2が狭い検索窓WBを配列した窓列GBを信頼度R[i]の算定に使用する構成によれば、拍点B以外の要因(例えば雑音)に起因して検索窓WBにピークPBが現れる可能性が低減されるから、窓列設定部76を省略した構成と比較して正確に拍点Bを検出できるという利点がある。
(6) Modification 6
In the above embodiment, the window row GB [i] is used to calculate the reliability R [i]. However, the reliability calculation unit 78 uses the window row GA [i] set by the window row setting unit 72 to perform the trust. A configuration for calculating the degree R [i] is also employed. For example, the reliability calculation unit 78 includes, for each of the n2 window rows GA selected by the selection unit 74, within each search window WA (WA [1] to WA [mA]) of the window row GA [i]. The average value or total value of the intensities (beat index value OB) of the peak PB located is calculated as the reliability R [i]. As described above, the window row setting unit 76 is omitted in the configuration in which the window row GA [i] is used for calculating the reliability R [i]. However, the window row GB in which the search windows WB having a narrow window width w2 compared to the window width w1 of the search window WA as shown in the parts (B) and (C) of FIG. According to the configuration used for the calculation, the possibility that the peak PB appears in the search window WB due to factors other than the beat point B (for example, noise) is reduced. Compared with the configuration in which the window row setting unit 76 is omitted. Thus, there is an advantage that the beat point B can be accurately detected.

(7)変形例7
以上の形態においては音響信号Sの全体にわたる拍点Bを検出したが、楽曲の最初の拍点B(候補点BC)のみを検出する構成も採用される。例えば、拍点確定部80は、信頼度R[i]が最大となる窓列GB[i]に対応した候補点BC[i]のみを楽曲の最初の拍点Bとして確定する。また、拍点補充部82を省略した構成も採用される。
(7) Modification 7
In the above embodiment, the beat point B over the entire acoustic signal S is detected, but a configuration in which only the first beat point B (candidate point BC) of the music is detected is also employed. For example, the beat point determining unit 80 determines only the candidate point BC [i] corresponding to the window row GB [i] having the maximum reliability R [i] as the first beat point B of the music. Moreover, the structure which abbreviate | omitted the beat point supplement part 82 is also employ | adopted.

(8)変形例8
以上の形態においては音響信号Sが記憶装置14に格納された構成を例示したが、音響信号Sの各フレームFの周波数スペクトルQが事前に算定されて記憶装置14に格納された構成においては、記憶装置14に音響信号Sが保持される必要はない。
(8) Modification 8
In the above embodiment, the configuration in which the acoustic signal S is stored in the storage device 14 is illustrated. However, in the configuration in which the frequency spectrum Q of each frame F of the acoustic signal S is calculated in advance and stored in the storage device 14, The acoustic signal S need not be held in the storage device 14.

(9)変形例9
以上の形態においては、拍指標特定部30と拍周期特定部40と拍点特定部70とを具備する音響処理装置100を例示したが、拍指標特定部30と拍周期特定部40と拍点特定部70とは各々が独立した装置として成立する。すなわち、拍指標特定部30を具備する音響処理装置は、拍周期Tの特定や拍点Bの検出に使用される拍指標系列X(拍指標値OB[1]〜OB[N])を特定する装置として成立し、拍周期特定部40を具備する音響処理装置は、拍指標系列X(拍指標値OB[1]〜OB[N])から拍周期T(テンポ)を特定する装置として成立し、拍点特定部70を具備する音響処理装置は、拍指標系列X(拍指標値OB[1]〜OB[N])と拍周期Tとから拍点Bを特定する装置として成立する。
(9) Modification 9
In the above embodiment, the sound processing device 100 including the beat index specifying unit 30, the beat cycle specifying unit 40, and the beat point specifying unit 70 is exemplified. However, the beat index specifying unit 30, the beat cycle specifying unit 40, and the beat point are exemplified. Each of the specifying units 70 is established as an independent device. That is, the sound processing apparatus including the beat index specifying unit 30 specifies the beat index series X (beat index values OB [1] to OB [N]) used for specifying the beat period T and detecting the beat point B. The sound processing apparatus including the beat period specifying unit 40 is established as an apparatus for specifying the beat period T (tempo) from the beat index series X (beat index values OB [1] to OB [N]). The sound processing device including the beat point specifying unit 70 is established as a device that specifies the beat point B from the beat index series X (beat index values OB [1] to OB [N]) and the beat period T.

本発明の実施形態に係る音響処理装置のブロック図である。1 is a block diagram of a sound processing apparatus according to an embodiment of the present invention. 音響信号の各フレームを説明するための概念図である。It is a conceptual diagram for demonstrating each flame | frame of an acoustic signal. 図1における拍指標特定部のブロック図である。It is a block diagram of the beat index specific part in FIG. 拍指標系列と単位区間とについて説明するための概念図である。It is a conceptual diagram for demonstrating a beat parameter | index series and a unit area. ピーク強調部で使用される平滑値を説明するための概念図である。It is a conceptual diagram for demonstrating the smooth value used in a peak emphasis part. 図1における拍周期特定部のブロック図である。It is a block diagram of the beat period specific | specification part in FIG. 拍指標系列の自己相関値を示すグラフである。It is a graph which shows the autocorrelation value of a beat index series. 平均相関値の算定を説明するための概念図である。It is a conceptual diagram for demonstrating calculation of an average correlation value. 拍周期特定部における窓列の設定を説明するための概念図である。It is a conceptual diagram for demonstrating the setting of the window row | line | column in a beat period specific | specification part. 図1における候補検出部および拍点特定部の動作を説明するための概念図である。It is a conceptual diagram for demonstrating operation | movement of the candidate detection part and beat point specific | specification part in FIG. 図1における拍点特定部のブロック図である。It is a block diagram of the beat point specific | specification part in FIG. 窓列設定部の動作を説明するための概念図である。It is a conceptual diagram for demonstrating operation | movement of a window row setting part. 第1抽出部の動作を説明するための概念図である。It is a conceptual diagram for demonstrating operation | movement of a 1st extraction part. 第2抽出部の動作を説明するための概念図である。It is a conceptual diagram for demonstrating operation | movement of a 2nd extraction part. 拍点補充部の動作を説明するための概念図である。It is a conceptual diagram for demonstrating operation | movement of a beat point supplement part. 拍周期が変化する場合における各単位区間の自己相関値を示す概念図である。It is a conceptual diagram which shows the autocorrelation value of each unit area in case a beat cycle changes. 変形例に係る拍周期特定部のブロック図である。It is a block diagram of the beat period specific part concerning a modification.

符号の説明Explanation of symbols

100……音響処理装置、12……制御装置、14……記憶装置、20……周波数分析部、30……拍指標特定部、32……指標算定部、34……ピーク強調部、40……拍周期特定部、42……区間設定部、44……相関算定部、46……平均部、48……ピーク検出部、50……窓列設定部、52……信頼度算定部、54……拍周期確定部、56……区間検出部、60……候補検出部、70……拍点特定部、72……窓列設定部、74……選択部、741……第1抽出部、742……第2抽出部、76……窓列設定部、78……信頼度算定部、80……拍点確定部、82……拍点補充部。 DESCRIPTION OF SYMBOLS 100 ... Acoustic processing apparatus, 12 ... Control apparatus, 14 ... Memory | storage device, 20 ... Frequency analysis part, 30 ... Beat index specific | specification part, 32 ... Index calculation part, 34 ... Peak emphasis part, 40 ... ... Beat period specifying part, 42 ... Section setting part, 44 ... Correlation calculating part, 46 ... Average part, 48 ... Peak detecting part, 50 ... Window row setting part, 52 ... Reliability calculating part, 54 ...... Beat cycle determination unit, 56 …… Section detection unit, 60 …… Candidate detection unit, 70 …… Beat point identification unit, 72 …… Window sequence setting unit, 74 …… Selection unit, 741 …… First extraction unit 742 ... second extraction unit 76 ... window row setting unit 78 ... reliability calculation unit 80 ... beat point determination unit 82 ... beat point supplementation unit

Claims (12)

音響信号の特徴量の変化を示す拍指標値の時系列を特定する拍指標特定手段と、
前記音響信号の拍周期を特定する拍周期特定手段と、
前記拍指標値の時系列における複数のピークを検出する候補検出手段と、
前記複数のピークの各々を拍点の候補点として、前記拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定手段と、
複数の前記第1窓列のうち前記拍指標値のピークを包含する検索窓の個数が多い2以上の窓列に対応した候補点を選択する選択手段と、
前記選択手段が選択した2以上の候補点のうち、当該候補点から前記拍周期に応じた間隔で配列した各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する拍点確定手段と
を具備する音響処理装置。
A beat index specifying means for specifying a time series of beat index values indicating changes in the characteristic amount of the acoustic signal;
Beat period specifying means for specifying a beat period of the acoustic signal;
Candidate detection means for detecting a plurality of peaks in the time series of the beat index value;
Each of the plurality of peaks as beat point candidate points, a first window row setting means for setting a first window row in which a plurality of search windows are arranged from the candidate points at intervals according to the beat period;
Selecting means for selecting candidate points corresponding to two or more window rows having a large number of search windows including a peak of the beat index value among the plurality of first window rows;
Of the two or more candidate points selected by the selection means, a candidate point selected according to the peak beat index value in each search window arranged at an interval corresponding to the beat cycle from the candidate point is determined as a beat point. A sound processing apparatus comprising: beat point determination means.
前記選択手段が選択した2以上の候補点の各々について、前記第1窓列の各検索窓の窓幅よりも狭い窓幅の複数の検索窓を前記拍周期に応じた間隔で当該候補点から配列した第2窓列を設定する第2窓列設定手段を具備し、
前記拍点確定手段は、前記複数の第2窓列のうち各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する
請求項1の音響処理装置。
For each of the two or more candidate points selected by the selection means, a plurality of search windows having a window width narrower than the window width of each search window in the first window row are extracted from the candidate points at intervals corresponding to the beat period. Comprising second window row setting means for setting the arranged second window rows;
The sound processing device according to claim 1, wherein the beat point determination unit determines a candidate point selected according to a peak beat index value in each search window from the plurality of second window rows as a beat point.
前記選択手段は、
前記第1窓列内の第1個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、前記第1窓列設定手段が設定した複数の第1窓列から選別する第1抽出手段と、
前記第1窓列内において前記第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、前記第1抽出手段が検出した前記2以上の第1窓列から選別する第2抽出手段とを含む
請求項1または請求項2の音響処理装置。
The selection means includes
Among the first number of search windows in the first window row, a plurality of first window rows having two or more search windows including a peak of the beat index value are set by the first window row setting means. First extraction means for selecting from the first window row;
The first extracting means selects two or more first window rows having a large number of search windows including a peak of a beat index value among a second number of search windows exceeding the first number in the first window row. The sound processing apparatus according to claim 1, further comprising: a second extraction unit that selects the detected two or more first window rows.
音響信号の特徴量の変化を示す拍指標値の時系列を特定する拍指標特定手段と、
前記音響信号の拍周期を特定する拍周期特定手段と、
前記拍指標値の時系列における複数のピークを検出する候補検出手段と、
前記複数のピークの各々を拍点の候補点として、前記拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定手段と、
前記第1窓列内の第1個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、前記第1窓列設定手段が設定した複数の第1窓列から選別する第1抽出手段と、
前記第1窓列内において前記第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が最大となる第1窓列を、前記第1抽出手段が検出した前記2以上の第1窓列から選別し、当該第1窓列に対応する候補点を拍点として確定する第2抽出手段と
を具備する音響処理装置。
A beat index specifying means for specifying a time series of beat index values indicating changes in the characteristic amount of the acoustic signal;
Beat period specifying means for specifying a beat period of the acoustic signal;
Candidate detection means for detecting a plurality of peaks in the time series of the beat index value;
Each of the plurality of peaks as beat point candidate points, a first window row setting means for setting a first window row in which a plurality of search windows are arranged from the candidate points at intervals according to the beat period;
Among the first number of search windows in the first window row, a plurality of first window rows having two or more search windows including a peak of the beat index value are set by the first window row setting means. First extraction means for selecting from the first window row;
The first extraction means detects the first window row in which the number of search windows including the peak of the beat index value is the maximum among the second number of search windows exceeding the first number in the first window row. And a second extraction unit that selects from the two or more first window rows and determines a candidate point corresponding to the first window row as a beat point.
前記第1個数の検索窓は、前記第1窓列の複数の検索窓のうち前記音響信号の始点側から順番に選択された複数の検索窓である
請求項3または請求項4の音響処理装置。
5. The acoustic processing device according to claim 3, wherein the first number of search windows is a plurality of search windows sequentially selected from a start point side of the acoustic signal among the plurality of search windows of the first window row. .
前記第1窓列設定手段は、ひとつの検索窓に包含されるピークから前記拍周期だけ経過した時点を窓幅の中心として次の検索窓を設定する
請求項1から請求項5の音響処理装置。
The sound processing device according to any one of claims 1 to 5, wherein the first window row setting means sets the next search window with the time when the beat period has elapsed from a peak included in one search window as the center of the window width. .
前記拍点確定手段は、拍点として確定した候補点から前記拍周期に応じた間隔で配列された各検索窓内のピークを拍点として検出する
請求項1から請求項3の何れかの音響処理装置。
The sound according to any one of claims 1 to 3 , wherein the beat point determining means detects, as beat points, peaks in each search window arranged at intervals according to the beat period from candidate points determined as beat points. Processing equipment.
前記拍点確定手段が確定した各拍点の間隔が前記拍周期を上回る場合に、当該各拍点の間に新たな拍点を設定する拍点補充手段
を具備する請求項7の音響処理装置。
The sound processing device according to claim 7, further comprising beat point supplementing means for setting a new beat point between the beat points when the interval between the beat points determined by the beat point determining means exceeds the beat cycle. .
前記拍周期特定手段は、
前記拍指標値の時系列を区分した各単位区間について自己相関値を算定する相関算定手段と、
前記相関算定手段が算定した自己相関値を複数の単位区間について平均する平均手段と
を含み、前記平均手段による平均後の自己相関値から前記拍周期を特定する
請求項1から請求項8の何れかの音響処理装置。
The beat period specifying means includes
Correlation calculating means for calculating an autocorrelation value for each unit section dividing the time series of the beat index values;
9. An average means for averaging the autocorrelation values calculated by the correlation calculation means for a plurality of unit sections, wherein the beat period is specified from the autocorrelation values after the averaging by the averaging means. Sound processing device.
前記拍指標特定手段は、
前記音響信号の特徴量の変化を示す拍指標値の時系列を算定する指標算定手段と、
前記指標算定手段が算定した拍指標値の時系列における拍指標値の増減を強調するピーク強調手段とを含む
請求項1から請求項9の何れかの音響処理装置。
The beat index specifying means includes
Index calculation means for calculating a time series of beat index values indicating changes in the characteristic amount of the acoustic signal;
The sound processing apparatus according to claim 1, further comprising: a peak emphasizing unit that emphasizes an increase / decrease in a beat index value in a time series of beat index values calculated by the index calculating unit.
音響信号の特徴量の変化を示す拍指標値の時系列を特定する拍指標特定処理と、
前記音響信号の拍周期を特定する拍周期特定処理と、
前記拍指標値の時系列における複数のピークを検出する候補検出処理と、
前記複数のピークの各々を拍点の候補点として、前記拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定処理と、
前記複数の第1窓列のうち前記拍指標値のピークを包含する検索窓の個数が多い2以上の窓列に対応した候補点を選択する選択処理と、
前記選択処理で選択した2以上の候補点のうち、当該候補点から前記拍周期に応じた間隔で配列した各検索窓内のピークの拍指標値に応じて選択した候補点を拍点として確定する拍点確定処理と
をコンピュータに実行させるプログラム。
A beat index specifying process for specifying a time series of beat index values indicating changes in the characteristic amount of the acoustic signal;
A beat period specifying process for specifying a beat period of the acoustic signal;
Candidate detection processing for detecting a plurality of peaks in the time series of the beat index value;
Each of the plurality of peaks as beat point candidate points, a first window row setting process for setting a first window row in which a plurality of search windows are arranged from the candidate points at intervals according to the beat period;
A selection process for selecting candidate points corresponding to two or more window rows having a large number of search windows including the peak of the beat index value among the plurality of first window rows;
Of the two or more candidate points selected in the selection process, the candidate point selected according to the beat index value of the peak in each search window arranged at intervals according to the beat period from the candidate point is determined as the beat point. A program that causes a computer to execute beat point determination processing.
音響信号の特徴量の変化を示す拍指標値の時系列を特定する拍指標特定処理と、A beat index specifying process for specifying a time series of beat index values indicating changes in the characteristic amount of the acoustic signal;
前記音響信号の拍周期を特定する拍周期特定処理と、A beat period specifying process for specifying a beat period of the acoustic signal;
前記拍指標値の時系列における複数のピークを検出する候補検出処理と、Candidate detection processing for detecting a plurality of peaks in the time series of the beat index value;
前記複数のピークの各々を拍点の候補点として、前記拍周期に応じた間隔で複数の検索窓を当該候補点から配列した第1窓列を設定する第1窓列設定処理と、Each of the plurality of peaks as beat point candidate points, a first window row setting process for setting a first window row in which a plurality of search windows are arranged from the candidate points at intervals according to the beat period;
前記第1窓列内の第1個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が多い2以上の第1窓列を、前記第1窓列設定処理で設定した複数の第1窓列から選別する第1抽出処理と、Among the first number of search windows in the first window row, a plurality of two or more first window rows having a large number of search windows including the peak of the beat index value are set in the first window row setting process. A first extraction process for selecting from the first window row;
前記第1窓列内において前記第1個数を上回る第2個数の検索窓のうち拍指標値のピークを包含する検索窓の個数が最大となる第1窓列を、前記第1抽出処理で検出した前記2以上の第1窓列から選別し、当該第1窓列に対応する候補点を拍点として確定する第2抽出処理とThe first extraction process detects the first window row having the maximum number of search windows including the peak of the beat index value among the second number of search windows exceeding the first number in the first window row. A second extraction process for selecting from the two or more first window rows and determining candidate points corresponding to the first window rows as beat points;
をコンピュータに実行させるプログラム。A program that causes a computer to execute.
JP2008117104A 2008-04-28 2008-04-28 Sound processing apparatus and program Expired - Fee Related JP5092876B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008117104A JP5092876B2 (en) 2008-04-28 2008-04-28 Sound processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008117104A JP5092876B2 (en) 2008-04-28 2008-04-28 Sound processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2009265493A JP2009265493A (en) 2009-11-12
JP5092876B2 true JP5092876B2 (en) 2012-12-05

Family

ID=41391400

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008117104A Expired - Fee Related JP5092876B2 (en) 2008-04-28 2008-04-28 Sound processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5092876B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6064561B2 (en) * 2012-12-05 2017-01-25 ヤマハ株式会社 Beat information estimation device
JP6179140B2 (en) 2013-03-14 2017-08-16 ヤマハ株式会社 Acoustic signal analysis apparatus and acoustic signal analysis program
JP6123995B2 (en) 2013-03-14 2017-05-10 ヤマハ株式会社 Acoustic signal analysis apparatus and acoustic signal analysis program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2900976B2 (en) * 1994-04-27 1999-06-02 日本ビクター株式会社 MIDI data editing device
JP3789326B2 (en) * 2000-07-31 2006-06-21 松下電器産業株式会社 Tempo extraction device, tempo extraction method, tempo extraction program, and recording medium
JP4767691B2 (en) * 2005-07-19 2011-09-07 株式会社河合楽器製作所 Tempo detection device, code name detection device, and program

Also Published As

Publication number Publication date
JP2009265493A (en) 2009-11-12

Similar Documents

Publication Publication Date Title
JP6017687B2 (en) Audio signal analysis
EP2854128A1 (en) Audio analysis apparatus
JP5593608B2 (en) Information processing apparatus, melody line extraction method, baseline extraction method, and program
US8050910B2 (en) Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency
TWI426501B (en) A method and apparatus for melody recognition
EP2816550A1 (en) Audio signal analysis
US8494668B2 (en) Sound signal processing apparatus and method
CN110599987A (en) Piano note recognition algorithm based on convolutional neural network
Stark et al. Real-time beat-synchronous analysis of musical audio
US9646592B2 (en) Audio signal analysis
KR101952552B1 (en) Radar signal Processing apparatus for spectrogram extraction and method thereof
CN107210029B (en) Method and apparatus for processing a series of signals for polyphonic note recognition
US9570060B2 (en) Techniques of audio feature extraction and related processing apparatus, method, and program
JPWO2010097870A1 (en) Music search device
JP5092876B2 (en) Sound processing apparatus and program
JP6729515B2 (en) Music analysis method, music analysis device and program
JP2012032677A (en) Tempo detector, tempo detection method and program
WO2020061346A1 (en) Methods and apparatuses for tracking weak signal traces
Verma et al. Structural segmentation of Hindustani concert audio with posterior features
US11205407B2 (en) Song analysis device and song analysis program
CN111785237B (en) Audio rhythm determination method and device, storage medium and electronic equipment
Vinutha et al. Reliable tempo detection for structural segmentation in sarod concerts
Chien et al. An Acoustic-Phonetic Approach to Vocal Melody Extraction.
JP2015040970A (en) Measure interval estimation, and device, method and program for performing feature value extraction for the estimation
JP5054646B2 (en) Beat position estimating apparatus, beat position estimating method, and beat position estimating program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120903

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees