JP6286933B2 - Apparatus, method, and program for estimating measure interval and extracting feature amount for the estimation - Google Patents

Apparatus, method, and program for estimating measure interval and extracting feature amount for the estimation Download PDF

Info

Publication number
JP6286933B2
JP6286933B2 JP2013171660A JP2013171660A JP6286933B2 JP 6286933 B2 JP6286933 B2 JP 6286933B2 JP 2013171660 A JP2013171660 A JP 2013171660A JP 2013171660 A JP2013171660 A JP 2013171660A JP 6286933 B2 JP6286933 B2 JP 6286933B2
Authority
JP
Japan
Prior art keywords
time
signal
interval
peak
autocorrelation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013171660A
Other languages
Japanese (ja)
Other versions
JP2015040970A (en
JP2015040970A5 (en
Inventor
崇史 山谷
崇史 山谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2013171660A priority Critical patent/JP6286933B2/en
Publication of JP2015040970A publication Critical patent/JP2015040970A/en
Publication of JP2015040970A5 publication Critical patent/JP2015040970A5/ja
Application granted granted Critical
Publication of JP6286933B2 publication Critical patent/JP6286933B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、小節間隔を推定し、またその推定のための特徴量を抽出する装置、方法、およびプログラムに関する。   The present invention relates to an apparatus, a method, and a program for estimating a measure interval and extracting a feature amount for the estimation.

音楽を構成する要素にテンポ(拍間隔)や小節間隔がある。拍間隔は一般的にBPM(1分間に4分音符が何拍あるか)で表し、楽曲全体の速さに対応する。小節は一般的に音楽の構造の最小単位で、コード(和音)やリズムパターンが多くの場合1小節毎(2小節の場合もある)に割り当てられる。従って、小節間隔を推定することは、コードを抽出して電子楽器の自動演奏を行ったり、音楽構造の分析を行ったりするために必要な技術である。   Tempo (beat interval) and measure interval are elements that compose music. The beat interval is generally expressed in BPM (how many quarter notes there are in one minute) and corresponds to the speed of the entire music. In general, a measure is the smallest unit of music structure, and chords (chords) and rhythm patterns are often assigned to each measure (in some cases, two measures). Therefore, estimating the bar interval is a technique necessary for extracting chords to automatically play electronic musical instruments or to analyze music structures.

小節間隔・拍間隔を推定する第1の従来技術として、バスドラムやスネアドラムなど打楽器が一定時間以上一定のビートを刻むことを前提としたものが提案されている。より具体的には例えば、楽曲データから周波数帯別の音圧データを作成し、この音圧データからリズムを最も刻む周波数帯を特定し、この特定した周波数帯の音圧データにおける変化周期をもとにリズム成分を推定する手法が提案されている(例えば特許文献1)。   As a first conventional technique for estimating measure intervals and beat intervals, a technique based on the premise that a percussion instrument such as a bass drum or a snare drum cuts a certain beat for a certain period of time has been proposed. More specifically, for example, sound pressure data for each frequency band is created from the music data, the frequency band in which the rhythm is most marked is specified from the sound pressure data, and the change period in the sound pressure data of the specified frequency band is also specified. In addition, a method for estimating a rhythm component has been proposed (for example, Patent Document 1).

小節間隔・拍間隔を推定する第2の従来技術として、次のような手法が提案されている(例えば特許文献2)。まず、フレーム毎のパワー(自乗平均)を計算して、その微分値(実施例によればフレーム間の差分ではなく、前後複数フレームのパワーを最小2乗法で直線近似したときの傾きを微分値としてロバスト性を高めている)の自己相関を計算する。この相関値の極大(小節間隔が期待される範囲内で最大)を与える位置を小節間隔とする。拍子数は既知として拍間隔を計算する。パワーの微分値が大きいフレームが発音時刻に相当し、自己相関と極大位置検出で周期の推定になっている。   As a second conventional technique for estimating the bar interval / beat interval, the following method has been proposed (for example, Patent Document 2). First, the power for each frame (root mean square) is calculated, and the differential value (according to the embodiment, not the difference between frames, but the gradient when the power of multiple frames before and after is linearly approximated by the least square method is the differential value. As an autocorrelation). The position giving the local maximum of the correlation value (maximum within the expected range of the bar interval) is defined as the bar interval. The beat interval is calculated assuming that the time signature is known. A frame with a large power differential value corresponds to the sound generation time, and the period is estimated by autocorrelation and maximum position detection.

小節間隔・拍間隔を推定する第3の従来技術として、次のような手法が提案されている(例えば特許文献3)。まず、音楽信号から発音時刻を検出して発音時系列信号を生成し、この生成信号の自己相関を算出する。この自己相関のピーク位置とピーク値を検出する。このピーク位置とその値をグルーピング階層化することで音楽のビート構造を解析する。また自己相関のピーク値から算出したテンポ候補と解析したビート構造から、最も適切と思われるテンポを推定する。   The following technique has been proposed as a third conventional technique for estimating the bar interval / beat interval (for example, Patent Document 3). First, the sound generation time is detected from the music signal to generate a sound generation time-series signal, and the autocorrelation of the generated signal is calculated. The autocorrelation peak position and peak value are detected. The beat structure of music is analyzed by hierarchizing this peak position and its value into a grouping hierarchy. The tempo that seems to be most appropriate is estimated from the tempo candidate calculated from the peak value of the autocorrelation and the analyzed beat structure.

特開2000−250534JP 2000-250534 A 特開平05−027751JP 05-027751 特開2002−116754JP 2002-116754 A

しかし、例えばピアノソロのように、楽曲中に打楽器が存在せず、また、発音時刻が揺らぐような楽曲では、小節間隔・拍間隔の正しい推定が難しい場合がある。   However, for example, a percussion instrument does not exist in a musical piece, such as a piano solo, and a musical piece whose pronunciation time fluctuates may be difficult to accurately estimate the measure interval and the beat interval.

具体的には、ピアノソロでは、特定の周波数帯にビートが集中することはないので、上述した第1の従来技術では、そのような楽曲に対して小節間隔・拍間隔を正しく推定することはできない。   Specifically, since the piano solo does not concentrate beats in a specific frequency band, the first prior art described above cannot correctly estimate the bar interval / beat interval for such music. .

また、上述した第2または第3の従来技術のように発音時刻の周期性を利用する手法では、発音時刻が正確なビートを刻んでいるときには、自己相関がピーキーになるが、発音時刻に揺らぎがある場合は自己相関が低下するために小節間隔の検出精度が悪化する。
実際のピアノソロ曲(以下「楽曲1」と呼ぶ)を第2の従来技術の手法で自己相関信号を計算して得られる波形例を図17に示す。さらに、比較対象として、あるポップス曲(以下「楽曲2」と呼ぶ)を第2の従来技術の手法で自己相関信号を計算して得られる波形例を図18に示す。楽曲1は4分の3拍子、楽曲2は4分の4拍子である。
In addition, in the method using the periodicity of the pronunciation time as in the second or third prior art described above, the autocorrelation becomes peaky when the pronunciation time has an accurate beat, but it fluctuates at the pronunciation time. If there is, the autocorrelation is lowered, and the bar interval detection accuracy is deteriorated.
FIG. 17 shows an example of a waveform obtained by calculating an autocorrelation signal of an actual piano solo song (hereinafter referred to as “music 1”) by the second prior art technique. Further, as a comparison object, FIG. 18 shows an example of a waveform obtained by calculating an autocorrelation signal of a certain pop music (hereinafter referred to as “music 2”) by the second prior art method. Music 1 has a 3/4 time signature, and music 2 has a 4/4 time signature.

図17または図18において、楽曲1または2の実際の拍間隔および小節間隔と、これらの楽曲から抽出された極大位置を図示している。ここで、極大位置とは、76BPM〜140BPM程度の拍間隔において、小節間隔が存在する時間範囲、例えば、1.3秒〜4秒程度の時間範囲内での、計算された自己相関値から抽出される最大値である。   In FIG. 17 or FIG. 18, the actual beat interval and measure interval of the music 1 or 2 and the maximum position extracted from these music are illustrated. Here, the maximum position is extracted from a calculated autocorrelation value in a time range in which a bar interval exists in a beat interval of about 76 BPM to 140 BPM, for example, a time range of about 1.3 seconds to 4 seconds. Is the maximum value

まず、図18の楽曲2についてみると、実際の小節位置と検出された極大位置が一致している。また、自己相関値のピークの時間間隔もほぼ等間隔で並んでおり、ビート構造もはっきりと現れている。   First, with respect to the music piece 2 in FIG. 18, the actual bar position matches the detected maximum position. In addition, the time intervals of the autocorrelation value peaks are arranged at almost equal intervals, and the beat structure clearly appears.

一方、図17の楽曲1においては、小節間隔と極大位置の間にある小さなピークを加えて、検出された極大位置は5拍目に現れており、実際の小節間隔の3拍目とまったく関連がない。さらに、ビート構造らしきものも見当たらない。   On the other hand, in the musical piece 1 of FIG. 17, a small peak between the bar interval and the maximum position is added, and the detected maximum position appears at the fifth beat, which is completely related to the third beat of the actual bar interval. There is no. In addition, there is no beat structure.

以上のように、従来技術では、小節間隔・拍間隔を正しく推定することができない場合があるという問題点を有していた。   As described above, the prior art has a problem in that the measure interval and beat interval may not be correctly estimated.

本発明は、ピアノソロなどのような楽曲でもビートの効いた楽曲でも、小節間隔や拍間隔の特徴がよく現れる特徴量抽出を行えるようにし、この特徴量を使って小節間隔の抽出精度を向上させるようにすることを目的とする。   The present invention makes it possible to perform feature extraction in which features of bar intervals and beat intervals often appear in music such as a piano solo or in music with a beat, and improve the accuracy of extracting bar intervals using this feature amount. The purpose is to do so.

態様の一例の特徴量抽出装置は、入力する音響信号に対して時間周波数解析を行って、単位時間毎に複数の周波数成分毎の周波数成分信号を算出する時間周波数解析部と、単位時間毎に、複数の周波数成分毎の周波数成分信号のうち、振幅が最大の周波数成分信号を最大振幅信号として抽出する最大振幅抽出部と、単位時間毎の最大振幅信号の時系列データの自己相関信号を導出し、その自己相関信号を特徴量として抽出する自己相関導出部とを備える。   An example feature amount extraction apparatus includes a time-frequency analysis unit that performs time-frequency analysis on an input acoustic signal and calculates a frequency component signal for each of a plurality of frequency components per unit time, and a unit time A maximum amplitude extraction unit that extracts a frequency component signal having the maximum amplitude as a maximum amplitude signal among frequency component signals for a plurality of frequency components, and an autocorrelation signal of time-series data of the maximum amplitude signal for each unit time are derived. And an autocorrelation deriving unit that extracts the autocorrelation signal as a feature amount.

態様の他の一例の小節間隔推定装置は、特徴量抽出装置によって抽出された自己相関信号を特徴量として、その自己相関信号の所定位置から始まる時間範囲内で、第1の時間長を有する時間範囲である第1の検査範囲を移動させながら、第1の検査範囲で指定される各時間範囲内で最大値をとる自己相関信号の各ピークを抽出するピーク抽出部と、抽出された各ピークに基づいて、音響信号が表す楽曲に対応する強弱パターン周期が存在すると仮定される時間範囲内で、第2の時間長を有する時間範囲である第2の検査範囲を移動させながら、第2の検査範囲で指定される各時間範囲内で最初に最大値をとるピークを抽出された各ピークから選択し、その選択したピークに基づいて強弱パターン周期を推定する強弱パターン周期推定部と、拍間隔を推定する拍間隔推定部と、強弱パターン周期と拍間隔とに基づいて小節間隔を計算して推定された小節間隔として出力する小節間隔計算部とを備える。   In another example of the measure interval estimation device, the autocorrelation signal extracted by the feature amount extraction device is used as a feature amount, and a time having a first time length within a time range starting from a predetermined position of the autocorrelation signal. A peak extraction unit that extracts each peak of the autocorrelation signal that takes the maximum value within each time range specified in the first inspection range while moving the first inspection range that is the range; and each extracted peak The second inspection range, which is the time range having the second time length, is moved within the time range in which a strong and weak pattern period corresponding to the music represented by the acoustic signal is present based on A strong and weak pattern period estimator for selecting a peak having the maximum value in each time range specified in the inspection range from the extracted peaks and estimating a strong and weak pattern period based on the selected peak, and a beat Comprising a beat interval estimation unit that estimates a septum, and a measure interval calculating unit for outputting as a measure interval estimated by calculating the measure interval based on the intensity pattern period and beat interval.

本発明によれば、ピアノソロなどのような楽曲でもビートの効いた楽曲でも、小節間隔や拍間隔の特徴がよく現れる特徴量抽出を行うことが可能となり、この特徴量を使って小節間隔の抽出精度を向上させることが可能となる。   According to the present invention, it is possible to perform feature amount extraction in which features such as piano solos and beats are effective in features of measure intervals and beat intervals. Extraction of measure intervals is performed using these feature amounts. The accuracy can be improved.

本発明による小節間隔推定装置の実施形態のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of embodiment of the bar space estimation apparatus by this invention. 小節間隔推定装置の処理機能の構成例を示すブロック図である。It is a block diagram which shows the structural example of the processing function of measure interval estimation apparatus. 本実施形態に係る自己相関信号の波形例(楽曲1)を示す図である。It is a figure which shows the example of a waveform (music 1) of the autocorrelation signal which concerns on this embodiment. 本実施形態に係る自己相関信号の波形例(楽曲2)を示す図である。It is a figure which shows the waveform example (music 2) of the autocorrelation signal which concerns on this embodiment. 本実施形態に係る自己相関信号の波形例(楽曲3)を示す図である。It is a figure which shows the example of a waveform (music 3) of the autocorrelation signal which concerns on this embodiment. パワーの自己相関信号の波形例(楽曲1)を示す図である。It is a figure which shows the waveform example (music 1) of a power autocorrelation signal. パワーの自己相関信号の波形例(楽曲2)を示す図である。It is a figure which shows the waveform example (music 2) of an autocorrelation signal of power. パワーの自己相関信号の波形例(楽曲3)を示す図である。It is a figure which shows the example of a waveform (music 3) of a power autocorrelation signal. 振幅の自己相関信号の波形例(楽曲1)を示す図である。It is a figure which shows the waveform example (music 1) of an autocorrelation signal of an amplitude. 振幅の自己相関信号の波形例(楽曲2)を示す図である。It is a figure which shows the waveform example (music 2) of an autocorrelation signal of an amplitude. 振幅の自己相関信号の波形例(楽曲3)を示す図である。It is a figure which shows the example of a waveform (music piece 3) of an autocorrelation signal of an amplitude. 小節間隔推定装置の全体の処理例を示すフローチャートである。It is a flowchart which shows the process example of the whole bar interval estimation apparatus. 特徴量抽出部の詳細な処理例を示すフローチャートである。It is a flowchart which shows the detailed process example of a feature-value extraction part. ピーク抽出部の詳細な処理例を示すフローチャートである。It is a flowchart which shows the detailed process example of a peak extraction part. 強弱パターン周期推定部の詳細な処理例を示すフローチャートである。It is a flowchart which shows the detailed process example of an intensity pattern period estimation part. 小節間隔計算部の詳細な処理例を示すフローチャートである。It is a flowchart which shows the detailed process example of a bar space | interval calculation part. 従来技術(特許文献2)による自己相関信号の波形例(楽曲1)を示す図である。It is a figure which shows the example of a waveform (music 1) of the autocorrelation signal by a prior art (patent document 2). 従来技術(特許文献2)による自己相関信号の波形例(楽曲2)を示す図である。It is a figure which shows the example of a waveform (music 2) of the autocorrelation signal by a prior art (patent document 2).

以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。   Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings.

図1は、本発明による小節間隔推定装置の実施形態のハードウェア構成の一例を示す図である。この小節間隔推定装置は、CPU(中央演算処理装置)101、ROM(リードオンリーメモリ)102、RAM(ランダムアクセスメモリ)103、入力部104、出力部105、音響入力部106、外部記憶装置107が、バス108によって相互に接続された構成を備える。   FIG. 1 is a diagram illustrating an example of a hardware configuration of an embodiment of a measure interval estimation device according to the present invention. This bar interval estimation device includes a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, an input unit 104, an output unit 105, an acoustic input unit 106, and an external storage device 107. , Each having a configuration connected to each other by a bus 108.

音響入力部106は、音楽音響データを取り込み、必要に応じて、内部のRAM103やハードディスク記憶装置またはソリッドステートドライブ装置等の外部記憶装置107に記憶する。この音響入力部106は例えば、インターネット上の音楽配信サイトに接続して音楽音響データをダウンロードしてRAM103や外部記憶装置107に取り込むネットワーク接続装置を含む。また、音響入力部106は例えば、CD(コンパクトディスク)やDVD(デジタルバーサタイルディスク)等のディスク記録媒体に録音された音楽音響データを読み出し、必要に応じてRAM103や外部記憶装置107に記憶させるディスク記録媒体駆動装置を含む。あるいは、音響入力部106は例えば、SDメモリカード等の可搬記録媒体に録音された音楽音響データを読み出し、必要に応じてRAM103や外部記憶装置107に記憶させる可変記録媒体駆動装置を含む。   The sound input unit 106 takes in music sound data and stores it in the internal RAM 103, a hard disk storage device, or an external storage device 107 such as a solid state drive device as necessary. The sound input unit 106 includes, for example, a network connection device that connects to a music distribution site on the Internet, downloads music sound data, and loads the data into the RAM 103 or the external storage device 107. The sound input unit 106 reads out music sound data recorded on a disk recording medium such as a CD (compact disk) or a DVD (digital versatile disk), and stores it in the RAM 103 or the external storage device 107 as necessary. Including a recording medium driving device. Alternatively, the acoustic input unit 106 includes, for example, a variable recording medium driving device that reads music acoustic data recorded on a portable recording medium such as an SD memory card and stores the data in the RAM 103 or the external storage device 107 as necessary.

CPU101は、ROM102に記憶された制御プログラムに従って、当該小節間隔推定装置全体の制御を行う。RAM103は、制御プログラムの実行に必要な各種制御データや、小節間隔が推定される対象となる音楽音響データを、一時的に記憶する。   The CPU 101 controls the whole measure interval estimation device according to a control program stored in the ROM 102. The RAM 103 temporarily stores various control data necessary for execution of the control program and music acoustic data for which measure intervals are estimated.

入力部104は、ユーザによるキーボード、マウス、各種スイッチ等による入力操作を検出し、その検出結果をCPU101に通知する。   The input unit 104 detects an input operation by a user using a keyboard, a mouse, various switches, and the like, and notifies the CPU 101 of the detection result.

出力部105は、CPU101の制御によって送られてくるデータを液晶ディスプレイやプリンタに出力する。例えば、出力部105は、小節間隔の推定結果を液晶ディスプレイに表示する。   The output unit 105 outputs data sent under the control of the CPU 101 to a liquid crystal display or a printer. For example, the output unit 105 displays a measure interval estimation result on the liquid crystal display.

外部記憶装置107は、音楽音響データや小節間隔の推定結果のデータ等を保存する。   The external storage device 107 stores music acoustic data, measure interval data, and the like.

本実施形態による小節間隔推定装置の動作は、後述する図2の構成で示される処理機能を備え、それらの機能を実現する図12〜図16に示される各フローチャートの処理を実行する制御プログラムを、CPU101がROM102から読み出して順次実行することで実現される。そのプログラムは、例えば外部記憶装置107に記録して配布してもよく、或いは特には図示しないネットワーク接続装置によりネットワークから取得できるようにしてもよい。   The operation of the measure interval estimation apparatus according to the present embodiment has processing functions shown in the configuration of FIG. 2 to be described later, and a control program for executing the processing of each flowchart shown in FIGS. This is realized by the CPU 101 reading it from the ROM 102 and executing it sequentially. The program may be recorded and distributed in the external storage device 107, for example, or may be acquired from the network by a network connection device (not shown).

図2は、図1のハードウェア構成例を有する小節間隔推定装置201の処理機能の構成例を示すブロック図である。本実施形態による小節間隔推定装置201は、特徴量抽出部202、ピーク抽出部206、強弱パターン周期推定部207、拍間隔推定部208、および小節間隔計算部209を備える。   FIG. 2 is a block diagram illustrating a configuration example of processing functions of the measure interval estimation device 201 having the hardware configuration example of FIG. The measure interval estimation device 201 according to the present embodiment includes a feature amount extraction unit 202, a peak extraction unit 206, an intensity pattern period estimation unit 207, a beat interval estimation unit 208, and a measure interval calculation unit 209.

まず、特徴量抽出部202について、説明する。特徴量抽出部202は、小節間隔を推定するときの特徴量を、入力する音響信号のデジタルデータから抽出し、時間周波数解析部203、最大振幅抽出部204、および自己相関導出部205を備える。   First, the feature amount extraction unit 202 will be described. The feature amount extraction unit 202 includes a time frequency analysis unit 203, a maximum amplitude extraction unit 204, and an autocorrelation derivation unit 205, which extracts a feature amount when estimating the bar interval from digital data of an input acoustic signal.

時間周波数解析部203は、例えば外部記憶装置107から入力する音響信号のデジタルデータに対して時間周波数解析を行って、離散時間(例えば分析フレーム)毎に複数の周波数成分毎の周波数成分信号を算出する。   The time-frequency analysis unit 203 performs time-frequency analysis on the digital data of the acoustic signal input from the external storage device 107, for example, and calculates frequency component signals for a plurality of frequency components for each discrete time (for example, analysis frame). To do.

最大振幅抽出部204は、離散時間(例えば分析フレーム)毎に、複数の周波数成分毎の周波数成分信号のうち、振幅が最大の周波数成分信号を最大振幅信号として抽出する。   The maximum amplitude extraction unit 204 extracts a frequency component signal having the maximum amplitude among the frequency component signals for each of a plurality of frequency components as a maximum amplitude signal for each discrete time (for example, an analysis frame).

自己相関導出部205は、離散時間毎の最大振幅信号の時系列データの自己相関信号を導出し、その自己相関信号を特徴量として抽出する。   The autocorrelation deriving unit 205 derives an autocorrelation signal of time series data of the maximum amplitude signal for each discrete time, and extracts the autocorrelation signal as a feature amount.

以上のように、本実施形態では、特徴量抽出部202は、発音時刻のようなピーキー(時間変動が急峻)な信号の自己相関ではなく、もっと時間変動の緩やかな最大振幅信号の自己相関を特徴量とすることでロバスト性を高めている。   As described above, in the present embodiment, the feature amount extraction unit 202 does not perform autocorrelation of a peaky signal (such as a time fluctuation is steep) such as a pronunciation time, but an autocorrelation of a maximum amplitude signal having a more gradual time fluctuation. Robustness is enhanced by using features.

具体的には、上述の最大振幅信号の時系列データを用いることにより、小節内の拍の強弱パターンを手掛かりに周期性が推定されるようになる。強弱パターンとしては4分の4拍子では、強・弱・中・弱やバックビートと呼ばれる弱・強・弱・中などがある。それ以外は1拍目に強がくることが多い。この強弱パターンの自己相関を求めれば、強弱パターン周期に対応した位置にピークが現れることが期待される。多くの場合、強弱パターン周期が小節間隔になるので、強弱パターン周期を示すピークに基づいて小節間隔を決定することが可能となる。強弱パターン周期が2小節間隔の楽曲の場合でも、ピーク位置が小節間隔の2倍の位置に検出されるが、このようなケースは後述する小節間隔計算部209の機能によって補正することが可能である。   Specifically, by using the time-series data of the above-mentioned maximum amplitude signal, the periodicity is estimated based on the strength pattern of the beats in the measure. As for the strong / weak pattern, there are strong / weak / medium / weak and weak / strong / weak / medium called back beats in 4/4 time. Other than that, the first beat is often strong. If the autocorrelation of this strong and weak pattern is obtained, it is expected that a peak appears at a position corresponding to the strong and weak pattern period. In many cases, the intensity pattern period becomes the bar interval, so that the bar interval can be determined based on the peak indicating the intensity pattern period. Even in the case of a musical piece with a strong and weak pattern period of 2 bar intervals, the peak position is detected at a position twice the bar interval. Such a case can be corrected by the function of the bar interval calculation unit 209 described later. is there.

次に、強弱パターン周期の検出に用いるべき信号について説明する。音響信号の強度としてよく利用されるものに、パワーと振幅がある。音楽はダイナミックレンジが広いので、パワーの場合は強の影響が強くなりすぎ、弱の影響が弱くなりすぎるので適切とは言えない。よって、本実施形態では、振幅を強度信号とする。また、本実施形態では、振幅として、分析フレーム内のパワー合計を平方根したものでなく、例えば分析フレームを周波数解析して得られる複数の周波数成分信号のうち最大振幅を有するものを利用する。なぜなら、複数の楽器が演奏されるタイミングでは、それらのパワーが合算されるため強度信号としては適切でない。また、発音間隔が密な区間では前の音が減衰しきる前に新たな発音のパワーが次々加算されるので強弱パターンに規則性を乱す原因になるからでもある。本実施形態では、例えば分析フレーム毎に上述の最大振幅信号を抽出することにより、楽曲による強弱パターンが最も現れやすいような時系列データを生成することが可能となる。   Next, signals to be used for detecting the strong / weak pattern period will be described. Power and amplitude are often used as the intensity of an acoustic signal. Since music has a wide dynamic range, power is not appropriate because it has a strong influence that is too strong and a weak influence that is too weak. Therefore, in this embodiment, the amplitude is an intensity signal. Further, in the present embodiment, the amplitude having the maximum amplitude among a plurality of frequency component signals obtained by frequency analysis of the analysis frame, for example, is used as the amplitude, instead of the square root of the total power in the analysis frame. This is because, at the timing when a plurality of musical instruments are played, their powers are added together, so that they are not appropriate as intensity signals. In addition, in a section where the sound production interval is close, new sound power is added one after another before the previous sound is completely attenuated. In the present embodiment, for example, by extracting the above-mentioned maximum amplitude signal for each analysis frame, it is possible to generate time-series data in which a strong and weak pattern due to music is most likely to appear.

本実施形態においては、最大振幅の時系列データの自己相関を演算して自己相関信号を導出し、これを小節間隔・拍間隔情報に対応する強弱パターン周期を含む特徴量とする。   In the present embodiment, the autocorrelation signal is derived by calculating the autocorrelation of the time-series data with the maximum amplitude, and this is used as the feature amount including the strength / weakness pattern period corresponding to the bar interval / beat interval information.

図3、図4、および図5は、楽曲1、楽曲2、および楽曲3に対応して特徴量抽出部202が特徴量として抽出する各自己相関信号の波形例を示す図である。図3から図5において、楽曲1、2、または3の実際の強弱パターン周期、拍間隔、小節間隔と、これらの楽曲から後述するピーク抽出部206および強弱パターン周期推定部207により抽出される極大位置を図示している。   3, 4, and 5 are diagrams illustrating waveform examples of autocorrelation signals that are extracted as feature amounts by the feature amount extraction unit 202 corresponding to the music piece 1, the music piece 2, and the music piece 3. 3 to 5, the actual intensity pattern period, beat interval, and bar interval of the music 1, 2, or 3 and the maximum extracted from these music by the peak extraction unit 206 and the intensity pattern period estimation unit 207 described later. The position is illustrated.

図3〜図5の例をみると、特徴量抽出部202が出力する最大振幅信号の時系列データの自己相関信号の特徴量を用いることにより、拍間隔は、時間ゼロ付近を除く時間ゼロから1秒程度の時間範囲内で最初に現れるピークとして容易に検出可能なことがわかる。図2の拍間隔推定部208は、このようなロジックに基づいて、拍間隔を推定する。   3 to 5, by using the feature quantity of the autocorrelation signal of the time-series data of the maximum amplitude signal output from the feature quantity extraction unit 202, the beat interval is from time zero except for the vicinity of time zero. It can be seen that it can be easily detected as the first peak appearing within a time range of about 1 second. The beat interval estimation unit 208 in FIG. 2 estimates the beat interval based on such logic.

また、図3または図4の例において、特徴量抽出部202が出力する最大振幅信号の時系列データの自己相関信号の特徴量を用いることにより、強弱パターン周期の存在が仮定される1.3秒〜4秒程度の時間範囲内の極大位置が、強弱パターン周期に良く一致していることがわかる。   Further, in the example of FIG. 3 or FIG. 4, it is assumed that a strong and weak pattern period exists by using the feature quantity of the autocorrelation signal of the time-series data of the maximum amplitude signal output from the feature quantity extraction unit 202. It can be seen that the local maximum position in the time range of about 2 to 4 seconds is in good agreement with the strong and weak pattern period.

本実施形態では、図2のピーク抽出部206が、自己相関信号の所定位置(例えば時刻ゼロ)から始まる時間範囲内で、比較的短い第1の時間長を有する時間範囲である第1の検査範囲を移動させながら、第1の検査範囲で指定される各時間範囲内で最大値をとる自己相関信号の各ピークを抽出する。これにより、本実施形態では、ノイズに起因するピークを取り除いたロバストなピーク検出を行うことが可能となる。   In the present embodiment, the peak inspection unit 206 in FIG. 2 performs a first test that is a time range having a relatively short first time length within a time range starting from a predetermined position (for example, time zero) of the autocorrelation signal. While moving the range, each peak of the autocorrelation signal having the maximum value in each time range specified in the first inspection range is extracted. Thereby, in this embodiment, it becomes possible to perform the robust peak detection which removed the peak resulting from noise.

さらに、図3〜図5の例において、特徴量抽出部202が出力する最大振幅信号の時系列データの自己相関信号の波形は、時間が増加する方向に対して全体的に右肩下がりで、強弱パターン周期に対応するピーク毎にそのピークの周囲の波形を抉り取った形状になっていることがわかる。また、強弱パターン周期の自己相関値は、その2倍の時刻の自己相関値と比べて常に大きいことがわかる。そこで、本実施形態では、強弱パターン周期推定部207が、強弱パターン周期が存在すると仮定される例えば1.3〜4秒程度の時間範囲内で、比較的長い第2の時間長を有する時間範囲である第2の検査範囲を移動させながら、第2の検査範囲で指定される各時間範囲内で最初に最大値をとるピークを、ピーク抽出部206が抽出した各ピークから選択し、選択したピーク位置を強弱パターン周期として推定する。この結果、例えば図5の波形例において、「極大位置」と表示されているピークについては、そのピークの直前の第2の検査範囲内に大きなピークが存在し、かつその直前のピークは強弱パターン周期が仮定される例えば1.3〜4秒程度の時間範囲よりも手前に存在する。従って、本実施形態では、この「極大位置」と表示されているピーク位置およびその直前のピーク位置ともに強弱パターン周期としては推定されないように動作させることができる。実際には「強弱パターン周期」と表示されているピーク位置が強弱パターン周期として推定される。このようにして、本実施形態では、特徴量抽出部202が出力する最大振幅信号の時系列データの自己相関信号の波形の特徴(右肩下がり)をうまく利用して、精度の高い強弱パターン周期の推定を行うことが可能となる。   Furthermore, in the examples of FIGS. 3 to 5, the waveform of the autocorrelation signal of the time-series data of the maximum amplitude signal output from the feature amount extraction unit 202 is generally downward in the direction in which time increases. It can be seen that each peak corresponding to the strong and weak pattern period has a shape obtained by scraping the waveform around the peak. It can also be seen that the autocorrelation value of the strong and weak pattern period is always larger than the autocorrelation value at twice the time. Therefore, in the present embodiment, the strong and weak pattern period estimation unit 207 has a relatively long second time length within a time range of about 1.3 to 4 seconds, for example, where the strong and weak pattern period is assumed to exist. The peak having the maximum value first in each time range specified in the second inspection range is selected from the peaks extracted by the peak extraction unit 206 while moving the second inspection range. The peak position is estimated as a strong and weak pattern period. As a result, for example, in the waveform example of FIG. 5, for the peak displayed as “maximum position”, a large peak exists in the second inspection range immediately before the peak, and the peak immediately before the peak is a strength pattern. For example, the period is in front of a time range of about 1.3 to 4 seconds. Therefore, in the present embodiment, it is possible to operate so that the peak position displayed as “maximum position” and the peak position immediately before the peak position are not estimated as the intensity pattern period. Actually, the peak position displayed as “strong / weak pattern period” is estimated as the strong / weak pattern period. As described above, in the present embodiment, the waveform characteristic (downwardly descending) of the autocorrelation signal of the time-series data of the maximum amplitude signal output from the feature amount extraction unit 202 is used well, and the pattern pattern period is highly accurate. Can be estimated.

さらに、図5の波形例では、強弱パターン周期が、実際の小節間隔の2倍の位置に現れている。実際の楽曲でも、2小節で1つの強弱パターン周期が形成されるケースがある。そこで、本実施形態では、図2の小節間隔計算部209が、拍間隔推定部208が推定した拍間隔を用いて、強弱パターン周期推定部207が推定した強弱パターン周期の拍数(拍間隔の何倍か)を求める。そして、小節間隔計算部209は、この拍数が所定値に比較して小さければ、強弱パターン周期推定部207が推定した強弱パターン周期を小節間隔として算出する。一方、小節間隔計算部209は、上記拍数が所定値に比較して大きければ、強弱パターン周期推定部207が推定した強弱パターン周期の半分の周期を小節間隔として算出する。   Furthermore, in the waveform example of FIG. 5, the strong and weak pattern period appears at a position twice the actual bar interval. Even in actual music, there is a case where one strong and weak pattern period is formed in two bars. Therefore, in the present embodiment, the measure interval calculation unit 209 in FIG. 2 uses the beat interval estimated by the beat interval estimation unit 208 to use the beat number (beat interval of the beat interval) estimated by the strength pattern period estimation unit 207. Several times). If the number of beats is smaller than the predetermined value, the measure interval calculation unit 209 calculates the strength pattern period estimated by the strength pattern period estimation unit 207 as the measure interval. On the other hand, if the number of beats is larger than the predetermined value, the measure interval calculation unit 209 calculates a cycle that is half the strength pattern cycle estimated by the strength pattern cycle estimation unit 207 as the measure interval.

図6、図7、および図8はそれぞれ、図3、図4、および図5に対する比較として、楽曲1、楽曲2、および楽曲3に対応して、特徴量として各分析フレームのパワーの自己相関信号を算出したときの波形例を示す図である。また、図9、図10、および図11はそれぞれ、図3、図4、および図5または図6、図7、および図8に対する比較として、楽曲1、楽曲2、および楽曲3に対応して、特徴量として各分析フレームの振幅(パワー合計の平方根)の自己相関信号を算出したときの波形例を示す図である。楽曲1に対しては、図6および図9ともに、本実施形態に基づく図3の波形例と同様に、比較的正確に強弱パターン周期が抽出されている。しかし、楽曲2に対しては、図7のパワーの自己相関信号の波形例では強弱パターンの周期がなんとか分かる程度であり、図10の振幅の自己相関信号の波形例では強弱パターンは十分に分かるレベルである。但し、本実施形態に基づく図4の波形例ほど顕著ではない。楽曲3に対しては、図8および図11ともに、本実施形態に基づく図5の波形例に比較して、さらに強弱パターン周期が分かりにくい。また、全体的に、図6から図8のパワーの自己相関信号の波形例では、ディテールが損なわれている。図9から図11の振幅の自己相関信号の波形例では、図6から図8のパワーの自己相関信号の波形例に比べて少しよいが、図3から図5の本実施形態による波形例に比べれば、やはりディテールが損なわれている。   FIG. 6, FIG. 7, and FIG. 8 show the autocorrelation of the power of each analysis frame as a feature amount corresponding to the music 1, the music 2, and the music 3, respectively, as a comparison with FIG. 3, FIG. 4, and FIG. It is a figure which shows the example of a waveform when a signal is calculated. 9, 10, and 11 correspond to music 1, music 2, and music 3 as a comparison with FIGS. 3, 4, 5, 5, 6, 7, and 8, respectively. It is a figure which shows the example of a waveform when the autocorrelation signal of the amplitude (square root of the total power) of each analysis frame is calculated as a feature quantity. 6 and 9, the strong and weak pattern periods are extracted relatively accurately as in the waveform example of FIG. 3 based on the present embodiment. However, for the music piece 2, the waveform example of the power autocorrelation signal in FIG. 7 can easily understand the period of the strong and weak pattern, and the waveform example of the autocorrelation signal of amplitude in FIG. Is a level. However, it is not as remarkable as the waveform example of FIG. 4 based on this embodiment. For music 3, both FIG. 8 and FIG. 11 are more difficult to understand the strength and weakness pattern period than the waveform example of FIG. 5 based on this embodiment. Also, overall, details are impaired in the waveform examples of the autocorrelation signals of power shown in FIGS. The waveform examples of the autocorrelation signals having the amplitudes shown in FIGS. 9 to 11 are slightly better than the waveform examples of the power autocorrelation signals shown in FIGS. 6 to 8, but the waveform examples according to the present embodiment shown in FIGS. Compared, the details are still lost.

以上のことより、本実施形態において特徴量抽出部202が抽出する最大振幅信号の自己相関信号は、拍間隔、強弱パターン周期、および小節間隔を推定するための特徴量として、優れているといえる。   From the above, it can be said that the autocorrelation signal of the maximum amplitude signal extracted by the feature amount extraction unit 202 in this embodiment is excellent as a feature amount for estimating the beat interval, the strength pattern period, and the measure interval. .

以下、図2の処理機能を実現する本実施形態の制御動作の詳細について、図12から図16の各フローチャートに沿って説明する。なお、各フローチャートの説明において、随時図1または図2の各部を参照するものとする。   Hereinafter, the details of the control operation of the present embodiment for realizing the processing function of FIG. 2 will be described with reference to the flowcharts of FIGS. In the description of each flowchart, each part of FIG. 1 or FIG. 2 is referred to as needed.

図12は、図1のハードウェア構成例および図2の処理機能構成例を有する小節間隔推定装置の全体の処理例を示すフローチャートである。このフローチャートは、CPU101が、ROM102に記憶された小節間隔推定プログラムを実行する動作として実現される。   FIG. 12 is a flowchart showing an example of the overall processing of the measure interval estimation apparatus having the hardware configuration example of FIG. 1 and the processing function configuration example of FIG. This flowchart is realized as an operation in which the CPU 101 executes a measure interval estimation program stored in the ROM 102.

図2の特徴量抽出部202、ピーク抽出部206、強弱パターン周期推定部207、拍間隔推定部208、および小節間隔計算部209の機能をそれぞれ実現する処理として、特徴量抽出処理(ステップS101)、ピーク抽出処理(ステップS102)、強弱パターン周期推定処理(ステップS103)、拍間隔推定処理(ステップS104)、および小節間隔計算処理(ステップS105)の順に、各制御処理が実行される。   Feature amount extraction processing (step S101) is performed as processing for realizing the functions of the feature amount extraction unit 202, peak extraction unit 206, strength pattern period estimation unit 207, beat interval estimation unit 208, and measure interval calculation unit 209 in FIG. The control processing is executed in the order of peak extraction processing (step S102), strength pattern period estimation processing (step S103), beat interval estimation processing (step S104), and measure interval calculation processing (step S105).

図13は、図12のステップS101の特徴量抽出処理の詳細な処理例を示すフローチャートである。   FIG. 13 is a flowchart showing a detailed processing example of the feature amount extraction processing in step S101 of FIG.

まず、例えば外部記憶装置107から入力する音響信号のデジタルデータに対して時間周波数解析処理が実行されて、離散時間(例えば分析フレーム)毎に複数の周波数成分毎の周波数成分信号が算出される(ステップS201)。この処理は、図2の時間周波数解析部203の機能を実現する。時間周波数解析処理としては、短時間フーリエ変換、ウェーブレット変換、定Qフィルタバンクなどを利用することができる。これにより、離散時間毎の各周波数チャネルの複素信号が得られる。   First, for example, time frequency analysis processing is performed on digital data of an acoustic signal input from the external storage device 107, and frequency component signals for a plurality of frequency components are calculated for each discrete time (for example, analysis frame) ( Step S201). This process realizes the function of the time-frequency analysis unit 203 in FIG. As the time-frequency analysis processing, short-time Fourier transform, wavelet transform, constant Q filter bank, or the like can be used. Thereby, the complex signal of each frequency channel for every discrete time is obtained.

次に、最大振幅抽出処理が実行される(ステップS202)。この処理では、離散時間(例えば分析フレーム)毎に、ステップS201の時間周波数解析処理により得られた複数の周波数成分毎の周波数成分信号のうち、振幅が最大の周波数成分信号が最大振幅信号として抽出される。この処理は、図2の最大振幅抽出部204の機能を実現する。このとき、各周波数成分の振幅を先に計算してから最大値を求めてもよいが、パワーの最大値を求め、これの平方根を計算した方が計算負荷的に有利である。   Next, maximum amplitude extraction processing is executed (step S202). In this processing, the frequency component signal having the maximum amplitude is extracted as the maximum amplitude signal among the frequency component signals for each of the plurality of frequency components obtained by the time frequency analysis processing in step S201 for each discrete time (for example, analysis frame). Is done. This process realizes the function of the maximum amplitude extraction unit 204 in FIG. At this time, the maximum value may be obtained after first calculating the amplitude of each frequency component. However, it is advantageous in terms of calculation load to obtain the maximum value of power and calculate the square root thereof.

最後に、自己相関演算処理が実行される(ステップS203)。この処理では、ステップS202で抽出された最大振幅信号の時系列データの自己相関が演算される。自己相関は例えば、最大振幅信号の時系列データのパワースペクトルの逆フーリエ変換にて求めることができる。   Finally, an autocorrelation calculation process is executed (step S203). In this process, the autocorrelation of the time series data of the maximum amplitude signal extracted in step S202 is calculated. The autocorrelation can be obtained, for example, by inverse Fourier transform of the power spectrum of the time series data of the maximum amplitude signal.

図14は、図12のステップS102のピーク抽出処理の詳細な処理例を示すフローチャートである。ここでは、図12のステップS101の特徴量抽出処理で抽出された特徴量から、ピーク抽出が行われる。拍間隔、小節間隔、強弱パターン周期は、このピークに含まれる。   FIG. 14 is a flowchart showing a detailed processing example of the peak extraction processing in step S102 of FIG. Here, peak extraction is performed from the feature amount extracted by the feature amount extraction processing in step S101 of FIG. Beat intervals, bar intervals, and strong and weak pattern periods are included in this peak.

まず、例えばRAM103上の変数である位置(図3から図5の横軸のうち、以下のフローのループで現在処理対象とする横軸位置を示すカウンタ)が、開始位置に設定され、ピークコンテナがクリア(空)される(ステップS301)。ピークコンテナは、抽出したピーク(位置)を格納するための、例えばRAM103上の配列変数である。   First, for example, a position which is a variable on the RAM 103 (a counter indicating the position of the horizontal axis to be processed in the following flow loop among the horizontal axes of FIGS. 3 to 5) is set as the start position, and the peak container Is cleared (empty) (step S301). The peak container is an array variable on the RAM 103, for example, for storing the extracted peak (position).

次に、位置に対応する検査範囲(第1の検査範囲:図3から図5の横軸で、現在処理対象となっている位置に対して検査する横軸範囲)が決定される(ステップS302)。単純に隣接間の自己相関信号値の比較でピーク判定をするとノイズを拾うことがあるので、ノイズを拾いにくい時間範囲を検査するようにする。例えば、図5に例示した楽曲3の波形例では、拍間隔の前後にノイズによるピークが見られ、自己相関はゼロ付近で急激に大きくなるのでこのようなノイズを拾いやすくなるが、こういったノイズは小さな出っ張りであることが多いので、第1の検査範囲を適切に設定すれば簡単に除去できる。また、位置によって検査範囲は変わるので、このように現在処理対象となっている位置毎に第1の検査範囲を決定するようにしている。   Next, the inspection range corresponding to the position (first inspection range: the horizontal axis range in which the horizontal axis in FIGS. 3 to 5 inspects the position currently being processed) is determined (step S302). ). Since noise may be picked up when a peak is determined simply by comparing autocorrelation signal values between adjacent neighbors, a time range in which noise is difficult to pick up is checked. For example, in the waveform example of the music piece 3 illustrated in FIG. 5, peaks due to noise are observed before and after the beat interval, and the autocorrelation suddenly increases near zero, so it is easy to pick up such noise. Since the noise is often a small protrusion, it can be easily removed if the first inspection range is set appropriately. Further, since the inspection range varies depending on the position, the first inspection range is determined for each position that is currently processed in this way.

そして、ステップS302で決定された第1の検査範囲内における自己相関値の最大値が取得される(ステップS303)。   Then, the maximum value of the autocorrelation value within the first inspection range determined in step S302 is acquired (step S303).

続いて、現在の処理対象位置における自己相関の値とステップS303で取得された最大値が等しいか否かが判定される(ステップS304)。   Subsequently, it is determined whether or not the autocorrelation value at the current processing target position is equal to the maximum value acquired in step S303 (step S304).

現在の処理対象位置における自己相関の値とステップS303で取得された自己相関値の最大値が等しくステップS304の判定がYesならば、現在の処理対象位置における自己相関の値はピークなので、位置をピークコンテナに追加する(ステップS305)。   If the autocorrelation value at the current processing target position is equal to the maximum value of the autocorrelation value acquired at step S303 and the determination at step S304 is Yes, the autocorrelation value at the current processing target position is a peak, so the position is It adds to a peak container (step S305).

一方、現在の処理対象位置における自己相関の値と、ステップS303で取得された自己相関値の最大値が等しくなくステップS304の判定がNoならば、現在の処理対象位置における自己相関の値はピークでないので何もしない。   On the other hand, if the autocorrelation value at the current processing target position is not equal to the maximum autocorrelation value acquired at step S303 and the determination at step S304 is No, the autocorrelation value at the current processing target position is a peak. Because it is not, do nothing.

この位置での処理が終了したので、位置が最終位置であるか否かが判定される(ステップS306)。   Since the process at this position is completed, it is determined whether or not the position is the final position (step S306).

最終位置でなくステップS306の判定がNoならば、まだ処理すべき位置があるので、位置が進められ(ステップS307)、ステップS302の処理に戻って処理が継続される。   If the determination in step S306 is not the final position, there is still a position to be processed, so the position is advanced (step S307), and the process returns to step S302 to continue the process.

そして、全ての位置の処理が完了すると、ステップS306の判定で位置が最終位置と等しくなってステップS306の判定がYesとなり、図14のフローチャートの処理が終了して、図12のステップS102のピーク抽出処理が終了する。   When the processing for all positions is completed, the position is equal to the final position in the determination in step S306, the determination in step S306 is Yes, the processing in the flowchart in FIG. 14 is terminated, and the peak in step S102 in FIG. The extraction process ends.

図15は、図12のステップS103の強弱パターン周期推定処理の詳細な処理例を示すフローチャートである。   FIG. 15 is a flowchart showing a detailed processing example of the strength pattern cycle estimation processing in step S103 of FIG.

まず、図12のステップS102のピーク抽出処理で抽出されたピーク群から、検査する範囲内のピークが取得される(ステップS401)。推定すべき強弱パターン周期は、ピーク抽出処理で抽出されたピーク位置のどれかに該当するので、強弱パターン周期が存在すると仮定される時間範囲内にあるピークを予め取得しておく。仮定される範囲としては、例えば1小節間隔が1.3〜4秒程度の時間範囲内と仮定すると、強弱パターン周期は1または2小節間隔なので、1.3〜8秒程度の時間範囲となる。この時間範囲は、どういったテンポのどういった拍子の楽曲を想定するか等に応じて、自由に定める事が可能である。   First, a peak within a range to be inspected is acquired from the peak group extracted by the peak extraction process in step S102 of FIG. 12 (step S401). Since the intensity pattern period to be estimated corresponds to one of the peak positions extracted by the peak extraction process, a peak within a time range in which an intensity pattern period is assumed to be acquired is acquired in advance. Assumed range is, for example, assuming that one bar interval is within a time range of about 1.3 to 4 seconds, the strong and weak pattern period is 1 or 2 bar intervals, so the time range is about 1.3 to 8 seconds. . This time range can be freely determined according to what kind of tempo and what time signature is assumed.

次に、検査するピークが、ステップS401で取得された最初のピークに設定される(ステップS402)。   Next, the peak to be inspected is set to the first peak acquired in step S401 (step S402).

そして、検査範囲(第2の検査範囲)が決定される(ステップS403)。前述したように自己相関信号の波形は全体的に右肩下がりで、強弱パターン周期に対応するピーク毎にそのピークの周囲の波形を抉り取った形状になっている。また、強弱パターン周期の自己相関値はその2倍の時刻の自己相関値と比べて常に大きいので、適切な第2の検査範囲内で最大値になる。例えば、第2の検査範囲は、図3〜図5の図で、検査するピーク位置に相当する横軸の位置の半分より若干小さい横軸の値となる位置から、検査するピーク位置に相当する横軸の位置の2倍より若干大きい横軸の値となる位置に設定される。   Then, an inspection range (second inspection range) is determined (step S403). As described above, the waveform of the autocorrelation signal is generally downward and has a shape obtained by scraping the waveform around the peak for each peak corresponding to the strong and weak pattern period. Further, since the autocorrelation value of the strong and weak pattern period is always larger than the autocorrelation value at twice the time, it becomes the maximum value within the appropriate second inspection range. For example, the second inspection range corresponds to the peak position to be inspected from the position having a value on the horizontal axis slightly smaller than half of the position of the horizontal axis corresponding to the peak position to be inspected in FIGS. The position is set to a value that is slightly larger than twice the position of the horizontal axis.

次に、ステップS403で決定された検査範囲内における自己相関の最大値が取得される(S404)。   Next, the maximum value of autocorrelation within the inspection range determined in step S403 is acquired (S404).

続いて、検査するピーク位置における自己相関の値と、ステップS404で取得された自己相関の最大値が等しいかが判定される(ステップS405)。   Subsequently, it is determined whether or not the autocorrelation value at the peak position to be inspected is equal to the maximum autocorrelation value acquired in step S404 (step S405).

検査するピーク位置における自己相関の値と、ステップS404で取得された自己相関の最大値が等しくステップS405の判定がYesならば、検査するピーク位置は強弱パターン周期としての条件を満たすので、強弱パターン周期にこのピーク位置の横軸位置に基づく周期が設定される(ステップS406)。そして、図15のフローチャートの処理が終了して、図12のステップS103の強弱パターン周期推定処理が終了する。   If the value of the autocorrelation at the peak position to be inspected is equal to the maximum value of the autocorrelation acquired in step S404, and the determination in step S405 is Yes, the peak position to be inspected satisfies the condition as a strong and weak pattern period, so the strength pattern A period based on the horizontal axis position of the peak position is set as the period (step S406). And the process of the flowchart of FIG. 15 is complete | finished, and the strong / weak pattern period estimation process of FIG.12 S103 is complete | finished.

一方、検査するピーク位置における自己相関の値と、ステップS404で取得された自己相関の最大値が等しくなくステップS405の判定がNoならば、このピーク位置は強弱パターン周期ではないので、処理が続行され、全ピークの検査が終了したか否かが判定される(ステップS407)。   On the other hand, if the autocorrelation value at the peak position to be inspected and the maximum value of the autocorrelation acquired in step S404 are not equal and the determination in step S405 is No, this peak position is not a strong or weak pattern cycle, and the process continues. Then, it is determined whether or not all the peaks have been inspected (step S407).

全ピークの検査が終了しておらずステップS407の判定がNoならば、検査するピーク位置が次のピークに設定され(ステップS408)、ステップS403の処理に戻って、検査処理が続行される。   If the inspection of all peaks has not been completed and the determination in step S407 is No, the peak position to be inspected is set to the next peak (step S408), the process returns to step S403, and the inspection process is continued.

そして、全ピークの検査が終了しステップS407の判定がYesになると、エラー処理が実行される(ステップS409)。そして、図15のフローチャートの処理が終了して、図12のステップS103の強弱パターン周期推定処理が終了する。強弱パターン周期が見つからなかったという状態は通常あり得ないので、エラーとなる。   Then, when all the peaks have been inspected and the determination in step S407 is Yes, error processing is executed (step S409). And the process of the flowchart of FIG. 15 is complete | finished, and the strong / weak pattern period estimation process of FIG.12 S103 is complete | finished. Since there is usually no state where the strong and weak pattern period was not found, an error occurs.

以上のようにして、図12のステップS103の強弱パターン周期推定処理が実現される。   As described above, the dynamic pattern period estimation process in step S103 of FIG. 12 is realized.

次に、図12のステップS104では、拍間隔が推定される。推定すべき拍間隔は、ステップS102のピーク抽出処理で抽出されたピーク位置のどれかに該当するので、拍間隔が存在すると仮定する時間範囲内にあるピーク位置のうちで最大の自己相関信号値を持つものが、拍間隔と推定される。例えば、拍間隔が多くの楽曲が入るであろう75〜150BPMの範囲に入るとすれば0.4〜0.8秒程度の時間範囲、もう少し広めに取って拍間隔が60〜180BPMの範囲に入るとすればならば0.33〜1.0秒程度の時間範囲が設定される。予め楽曲のジャンルとそのジャンルでの一般的なBPMの範囲が判っているならば、それが適用されてもよい。   Next, in step S104 of FIG. 12, the beat interval is estimated. Since the beat interval to be estimated corresponds to one of the peak positions extracted in the peak extraction process in step S102, the maximum autocorrelation signal value among the peak positions within the time range in which the beat interval is assumed to exist. It is estimated that there is a beat interval. For example, if it is in the range of 75 to 150 BPM where music with many beats will enter, the time range is about 0.4 to 0.8 seconds, and the beat interval is in the range of 60 to 180 BPM. If so, a time range of about 0.33 to 1.0 seconds is set. If the genre of music and the general BPM range in the genre are known in advance, it may be applied.

図16は、図12のステップS105の小節間隔計算処理の詳細な処理例を示すフローチャートである。ここでは、図12のステップS103の強弱パターン周期推定処理で推定された強弱パターン周期とステップS104の拍間隔推定処理で推定された拍間隔を使って、小節間隔が計算される。   FIG. 16 is a flowchart showing a detailed processing example of the measure interval calculation processing in step S105 of FIG. Here, the bar interval is calculated using the strength / pattern pattern estimated in the strength / pattern pattern estimation process in step S103 of FIG. 12 and the beat interval estimated in step S104.

まず、強弱パターン周期の拍数が計算される(S501)。具体的には、強弱パターン周期が拍間隔で除算されて、その除算結果が整数値に丸められる。   First, the beat number of the strong and weak pattern period is calculated (S501). Specifically, the dynamic pattern period is divided by the beat interval, and the division result is rounded to an integer value.

次に、ステップS501で計算された拍数が所定値以上であるか否かが判定される(S502)。多くの楽曲で4分の6拍子以上が使われることはまずないので、例えば所定値は6に設定される。もちろん、楽曲のジャンルが予め判ってれば、それに合わせた所定値が設定されてもよい。   Next, it is determined whether or not the number of beats calculated in step S501 is greater than or equal to a predetermined value (S502). For example, the predetermined value is set to 6 because it is unlikely that more than six quarters are used in many music pieces. Of course, if the genre of the music is known in advance, a predetermined value corresponding to the genre may be set.

計算された拍数が所定値未満でステップS502の判定がNoならば、強弱パターン周期は1小節間隔と推定できるので、小節間隔に強弱パターン周期が設定される(ステップS503)。そして、図16のフローチャートの処理が終了して、図12のステップS105の小節間隔推定処理が終了する。   If the calculated number of beats is less than the predetermined value and the determination in step S502 is No, the strength and weakness pattern period can be estimated as one bar interval, so that the strength and weakness pattern period is set as the bar interval (step S503). Then, the process of the flowchart of FIG. 16 ends, and the measure interval estimation process of step S105 of FIG. 12 ends.

一方、計算された拍数が所定値以上でステップS502の判定がYesならば、強弱パターン周期は2小節間隔と推定できるので、強弱パターン周期を0.5倍したものが小節間隔に設定される(ステップS504)。なお、強弱パターン周期を0.5倍したものがさらに上記の所定値6以上である場合には、強弱パターン周期を3や4等で除した値を用いることとしても良い。特に、ある種の音楽の場合、4小節でひとまとまりとなる場合も多いので、4で除した値を用いることとしても良い。そして、図16のフローチャートの処理が終了して、図12のステップS105の小節間隔推定処理が終了する。   On the other hand, if the calculated number of beats is equal to or greater than the predetermined value and the determination in step S502 is Yes, the strength / weakness pattern cycle can be estimated as a two-measure interval, so that the strength / weakness pattern cycle multiplied by 0.5 is set as the measure interval. (Step S504). In addition, when the value obtained by multiplying the strength pattern cycle by 0.5 is the predetermined value 6 or more, a value obtained by dividing the strength pattern cycle by 3, 4 or the like may be used. In particular, in the case of a certain kind of music, there are many cases where a group of four bars is used, so that a value divided by four may be used. Then, the process of the flowchart of FIG. 16 ends, and the measure interval estimation process of step S105 of FIG. 12 ends.

以上のようにして、本実施形態では、時間周波数解析から得られる最大振幅信号の自己相関を特徴量として用いることにより、図3から図5より明らかなように、ピアノソロなどのような楽曲でもビートの効いた楽曲でも、小節間隔と関連の高い強弱パターン周期や拍間隔の特徴を特徴量中に良く保持することが可能となる。   As described above, in this embodiment, by using the autocorrelation of the maximum amplitude signal obtained from the time-frequency analysis as a feature quantity, as is clear from FIGS. 3 to 5, even a musical piece such as a piano solo beats. It is possible to keep the characteristics of strong and weak pattern periods and beat intervals, which are highly related to the bar interval, in the feature amount even in the case of a musical piece with a good effect.

これは、発音時刻のようなピーキー(時間変動が急峻)な信号の自己相関ではなく、もっと時間変動の緩やかな最大振幅信号の自己相関を特徴量とすることでロバスト性を高めたことに起因する。   This is not due to the autocorrelation of a peaky signal (such as a steep time fluctuation) such as the pronunciation time, but because the robustness is enhanced by using the autocorrelation of the maximum amplitude signal with a more gradual time fluctuation as a feature value. To do.

また、本実施形態における強弱パターン周期の抽出方法は、従来からある極大値を見つけるものとは異なり、正確に強弱パターン周期を見つけることが可能となる。   In addition, the method of extracting the strong and weak pattern period in the present embodiment can accurately find the strong and weak pattern period unlike the conventional method of finding a local maximum value.

これにより、本実施例では、小節間隔の推定精度を向上させることが可能となる。   Thereby, in a present Example, it becomes possible to improve the estimation precision of measure interval.

以上の実施形態に関して、更に以下の付記を開示する。
(付記1)
入力する音響信号に対して時間周波数解析を行って、単位時間毎に複数の周波数成分毎の周波数成分信号を算出する時間周波数解析部と、
前記単位時間毎に、前記複数の周波数成分毎の周波数成分信号のうち、振幅が最大の周波数成分信号を最大振幅信号として抽出する最大振幅抽出部と、
前記単位時間毎の最大振幅信号の時系列データの自己相関信号を導出し、当該自己相関信号を特徴量として抽出する自己相関導出部と、
を備えることを特徴とする特徴量抽出装置。
(付記2)
付記1に記載の特徴量抽出装置によって抽出された自己相関信号を特徴量として、前記音響信号の小節間隔を推定する装置であって、
前記自己相関信号の所定位置から始まる時間範囲内で、第1の時間長を有する時間範囲である第1の検査範囲を移動させながら、当該第1の検査範囲で指定される各時間範囲内で最大値をとる前記自己相関信号の各ピークを抽出するピーク抽出部と、
前記音響信号が表す楽曲に対応する強弱パターン周期が存在すると仮定される時間範囲内で、第2の時間長を有する時間範囲である第2の検査範囲を移動させながら、当該第2の検査範囲で指定される各時間範囲内で最初に最大値をとるピークを前記抽出された各ピークから選択し、該選択したピークに基づいて前記強弱パターン周期を推定する強弱パターン周期推定部と、
前記抽出された各ピークに基づいて、拍間隔を推定する拍間隔推定部と、
前記強弱パターン周期と前記拍間隔とに基づいて小節間隔を計算して推定された小節間隔として出力する小節間隔計算部と、
を備えることを特徴とする小節間隔推定装置。
(付記3)
前記小節間隔計算部は、前記拍間隔に基づいて前記強弱パターン周期の拍数を算出し、当該拍数が所定値に比較して小さければ前記強弱パターン周期を前記小節間隔として算出し、当該拍数が所定値に比較して大きければ前記強弱パターン周期の半分の周期を前記小節間隔として算出する、
ことを特徴とする付記2に記載の小節間隔推定装置。
(付記4)
入力する音響信号に対して時間周波数解析を行って、単位時間毎に複数の周波数成分毎の周波数成分信号を算出し、
前記単位時間毎に、前記複数の周波数成分毎の周波数成分信号のうち、振幅が最大の周波数成分信号を最大振幅信号として抽出し、
前記単位時間毎の最大振幅信号の時系列データの自己相関信号を導出し、当該自己相関信号を特徴量として抽出する、
ことを特徴とする特徴量抽出方法。
(付記5)
付記4に記載の特徴量抽出方法によって抽出された自己相関信号を特徴量として、前記音響信号の小節間隔を推定する方法であって、
前記自己相関信号の所定位置から始まる時間範囲内で、第1の時間長を有する時間範囲である第1の検査範囲を移動させながら、当該第1の検査範囲で指定される各時間範囲内で最大値をとる前記自己相関信号の各ピークを抽出し、
前記抽出された各ピークに基づいて、拍間隔を推定し、
前記音響信号が表す楽曲に対応する強弱パターン周期が存在すると仮定される時間範囲内で、第2の時間長を有する時間範囲である第2の検査範囲を移動させながら、当該第2の検査範囲で指定される各時間範囲内で最初に最大値をとるピークを前記抽出された各ピークから選択し、該選択したピークに基づいて前記強弱パターン周期を推定し、
前記強弱パターン周期と前記拍間隔とに基づいて小節間隔を計算して推定された小節間隔として出力する、
ことを特徴とする小節間隔推定方法。
(付記6)
コンピュータに、
入力する音響信号に対して時間周波数解析を行って、単位時間毎に複数の周波数成分毎の周波数成分信号を算出し、
前記単位時間毎に、前記複数の周波数成分毎の周波数成分信号のうち、振幅が最大の周波数成分信号を最大振幅信号として抽出し、
前記単位時間毎の最大振幅信号の時系列データの自己相関信号を導出し、当該自己相関信号を特徴量として抽出する、
処理を実行させることを特徴とする特徴量抽出プログラム。
(付記7)
付記6に記載の特徴量抽出プログラムによって抽出された自己相関信号を特徴量として、前記音響信号の小節間隔を推定するプログラムであって、
コンピュータに、
前記自己相関信号の所定位置から始まる時間範囲内で、第1の時間長を有する時間範囲である第1の検査範囲を移動させながら、当該第1の検査範囲で指定される各時間範囲内で最大値をとる前記自己相関信号の各ピークを抽出し、
前記抽出された各ピークに基づいて、拍間隔を推定し、
前記音響信号が表す楽曲に対応する強弱パターン周期が存在すると仮定される時間範囲内で、第2の時間長を有する時間範囲である第2の検査範囲を移動させながら、当該第2の検査範囲で指定される各時間範囲内で最初に最大値をとるピークを前記抽出された各ピークから選択し、該選択したピークに基づいて前記強弱パターン周期を推定し、
前記強弱パターン周期と前記拍間隔とに基づいて小節間隔を計算して推定された小節間隔として出力する、
処理を実行させることを特徴とする小節間隔推定プログラム。
Regarding the above embodiment, the following additional notes are disclosed.
(Appendix 1)
A time-frequency analysis unit that performs time-frequency analysis on an input acoustic signal and calculates a frequency component signal for each of a plurality of frequency components per unit time;
A maximum amplitude extraction unit that extracts, as a maximum amplitude signal, a frequency component signal having a maximum amplitude among frequency component signals for each of the plurality of frequency components for each unit time;
An autocorrelation derivation unit for deriving an autocorrelation signal of time-series data of the maximum amplitude signal for each unit time and extracting the autocorrelation signal as a feature quantity;
A feature quantity extraction device comprising:
(Appendix 2)
An apparatus for estimating a bar interval of the acoustic signal using the autocorrelation signal extracted by the feature quantity extraction device according to attachment 1 as a feature quantity,
Within a time range starting from a predetermined position of the autocorrelation signal, while moving a first inspection range that is a time range having a first time length, within each time range specified in the first inspection range. A peak extractor for extracting each peak of the autocorrelation signal taking the maximum value;
The second inspection range is moved while moving the second inspection range, which is a time range having the second time length, within a time range in which a strong and weak pattern period corresponding to the music represented by the acoustic signal is present. Selecting a peak first having a maximum value in each time range specified in the above from each of the extracted peaks, and an intensity pattern period estimation unit that estimates the intensity pattern period based on the selected peak;
A beat interval estimator for estimating a beat interval based on each extracted peak;
A measure interval calculation unit that outputs a measure interval calculated by calculating a measure interval based on the strength and weakness pattern period and the beat interval;
A measure interval estimation device comprising:
(Appendix 3)
The measure interval calculation unit calculates the number of beats of the intensity pattern period based on the beat interval, and calculates the intensity pattern period as the measure interval if the number of beats is smaller than a predetermined value. If the number is large compared to a predetermined value, a period that is half the dynamic pattern period is calculated as the bar interval.
The measure interval estimation apparatus according to Supplementary Note 2, wherein
(Appendix 4)
Perform time-frequency analysis on the input acoustic signal, calculate the frequency component signal for each of multiple frequency components per unit time,
For each unit time, out of the frequency component signals for each of the plurality of frequency components, the frequency component signal having the maximum amplitude is extracted as the maximum amplitude signal,
Deriving the autocorrelation signal of the time-series data of the maximum amplitude signal per unit time, and extracting the autocorrelation signal as a feature amount,
A feature amount extraction method characterized by that.
(Appendix 5)
A method for estimating a bar interval of the acoustic signal using the autocorrelation signal extracted by the feature quantity extraction method according to attachment 4 as a feature quantity,
Within a time range starting from a predetermined position of the autocorrelation signal, while moving a first inspection range that is a time range having a first time length, within each time range specified in the first inspection range. Extract each peak of the autocorrelation signal that takes the maximum value,
Based on each extracted peak, a beat interval is estimated,
The second inspection range is moved while moving the second inspection range, which is a time range having the second time length, within a time range in which a strong and weak pattern period corresponding to the music represented by the acoustic signal is present. First, the peak having the maximum value in each time range specified in the above is selected from each of the extracted peaks, and the strong and weak pattern period is estimated based on the selected peak.
Calculating a measure interval based on the strength and weakness pattern period and the beat interval, and outputting the calculated measure interval,
A measure interval estimation method characterized by the above.
(Appendix 6)
On the computer,
Perform time-frequency analysis on the input acoustic signal, calculate the frequency component signal for each of multiple frequency components per unit time,
For each unit time, out of the frequency component signals for each of the plurality of frequency components, the frequency component signal having the maximum amplitude is extracted as the maximum amplitude signal,
Deriving the autocorrelation signal of the time-series data of the maximum amplitude signal per unit time, and extracting the autocorrelation signal as a feature amount,
A feature quantity extraction program characterized by causing a process to be executed.
(Appendix 7)
A program for estimating a bar interval of the acoustic signal using the autocorrelation signal extracted by the feature amount extraction program according to attachment 6 as a feature amount,
On the computer,
Within a time range starting from a predetermined position of the autocorrelation signal, while moving a first inspection range that is a time range having a first time length, within each time range specified in the first inspection range. Extract each peak of the autocorrelation signal that takes the maximum value,
Based on each extracted peak, a beat interval is estimated,
The second inspection range is moved while moving the second inspection range, which is a time range having the second time length, within a time range in which a strong and weak pattern period corresponding to the music represented by the acoustic signal is present. First, the peak having the maximum value in each time range specified in the above is selected from each of the extracted peaks, and the strong and weak pattern period is estimated based on the selected peak.
Calculating a measure interval based on the strength and weakness pattern period and the beat interval, and outputting the calculated measure interval,
A measure for estimating measure intervals, which is characterized by causing processing to be executed.

101 CPU
102 ROM
103 RAM
104 入力部
105 出力部
106 音響入力部
107 外部記憶装置
108 バス
201 小節間隔推定装置
202 特徴量抽出部
203 時間周波数解析部
204 最大振幅抽出部
205 自己相関演算部
206 ピーク抽出部
207 強弱パターン周期推定部
208 拍間隔推定部
209 小節間隔推定部
101 CPU
102 ROM
103 RAM
DESCRIPTION OF SYMBOLS 104 Input part 105 Output part 106 Sound input part 107 External storage device 108 Bus 201 Bar interval estimation apparatus 202 Feature quantity extraction part 203 Time frequency analysis part 204 Maximum amplitude extraction part 205 Autocorrelation calculation part 206 Peak extraction part 207 Strength pattern period estimation Part 208 beat interval estimation part 209 measure interval estimation part

Claims (7)

入力する音響信号データに対して時間周波数解析を行って、単位時間毎に複数の周波数成分毎の周波数成分信号を算出する時間周波数解析部と、
前記単位時間毎に、前記複数の周波数成分毎の周波数成分信号のうち、振幅が最大の周波数成分信号を最大振幅信号として抽出する最大振幅抽出部と、
前記最大振幅抽出部により抽出された前記単位時間毎の前記最大振幅信号から、前記最大振幅信号の時系列データの自己相関信号を導出し、当該自己相関信号を特徴量として抽出する自己相関導出部と、
を備えることを特徴とする特徴量抽出装置。
A time-frequency analysis unit that performs time-frequency analysis on input acoustic signal data and calculates a frequency component signal for each of a plurality of frequency components per unit time;
A maximum amplitude extraction unit that extracts, as a maximum amplitude signal, a frequency component signal having a maximum amplitude among frequency component signals for each of the plurality of frequency components for each unit time;
An autocorrelation deriving unit for deriving an autocorrelation signal of time-series data of the maximum amplitude signal from the maximum amplitude signal for each unit time extracted by the maximum amplitude extracting unit and extracting the autocorrelation signal as a feature amount When,
A feature quantity extraction device comprising:
請求項1に記載の特徴量抽出装置によって抽出された自己相関信号を特徴量として、前記音響信号データの小節間隔を推定する装置であって、
前記自己相関信号の所定位置から始まる時間範囲内で、第1の時間長を有する時間範囲である第1の検査範囲を移動させながら、当該第1の検査範囲で指定される各時間範囲内で最大値をとる前記自己相関信号の各ピークを抽出するピーク抽出部と、
前記音響信号データが表す楽曲に対応する強弱パターン周期が存在すると仮定される時間範囲内で、第2の時間長を有する時間範囲である第2の検査範囲を移動させながら、当該第2の検査範囲で指定される各時間範囲内で最初に最大値をとるピークを前記抽出された各ピークから選択し、該選択したピークに基づいて前記強弱パターン周期を推定する強弱パターン周期推定部と、
前記抽出された各ピークに基づいて、拍間隔を推定する拍間隔推定部と、
前記強弱パターン周期と前記拍間隔とに基づいて小節間隔を計算して推定された小節間隔として出力する小節間隔計算部と、
を備えることを特徴とする小節間隔推定装置。
An apparatus for estimating a bar interval of the acoustic signal data using the autocorrelation signal extracted by the feature quantity extraction device according to claim 1 as a feature quantity,
Within a time range starting from a predetermined position of the autocorrelation signal, while moving a first inspection range that is a time range having a first time length, within each time range specified in the first inspection range. A peak extractor for extracting each peak of the autocorrelation signal taking the maximum value;
The second inspection is performed while moving the second inspection range, which is a time range having the second time length, within a time range in which a strong and weak pattern period corresponding to the music represented by the acoustic signal data is present. An intensity pattern period estimation unit that selects a peak first having a maximum value in each time range specified by the range from each of the extracted peaks, and estimates the intensity pattern period based on the selected peak;
A beat interval estimator for estimating a beat interval based on each extracted peak;
A measure interval calculation unit that outputs a measure interval calculated by calculating a measure interval based on the strength and weakness pattern period and the beat interval;
A measure interval estimation device comprising:
前記小節間隔計算部は、前記拍間隔に基づいて前記強弱パターン周期の拍数を算出し、
当該拍数が所定値に比較して小さければ前記強弱パターン周期を前記小節間隔として算出し、当該拍数が所定値に比較して大きければ前記強弱パターン周期の半分の周期を前記小節間隔として算出する、
ことを特徴とする請求項2に記載の小節間隔推定装置。
The measure interval calculation unit calculates the number of beats of the intensity pattern period based on the beat interval,
If the beat number is small compared to a predetermined value, the strength pattern period is calculated as the bar interval, and if the beat number is large compared to a predetermined value, a half period of the strength pattern period is calculated as the bar interval. To
The measure interval estimation apparatus according to claim 2, wherein:
入力する音響信号データに対して時間周波数解析を行って、単位時間毎に複数の周波数成分毎の周波数成分信号を算出し、
前記単位時間毎に、前記複数の周波数成分毎の周波数成分信号のうち、振幅が最大の周波数成分信号を最大振幅信号として抽出し、
前記単位時間毎の最大振幅信号の時系列データの自己相関信号を導出し、当該自己相関信号を特徴量として抽出する、
ことを特徴とする特徴量抽出方法。
Performs time-frequency analysis on the input acoustic signal data, calculates a frequency component signal for each of a plurality of frequency components per unit time,
For each unit time, out of the frequency component signals for each of the plurality of frequency components, the frequency component signal having the maximum amplitude is extracted as the maximum amplitude signal,
Deriving the autocorrelation signal of the time-series data of the maximum amplitude signal per unit time, and extracting the autocorrelation signal as a feature amount,
A feature amount extraction method characterized by that.
請求項4に記載の特徴量抽出方法によって抽出された自己相関信号を特徴量として、前記音響信号データの小節間隔を推定する方法であって、
前記自己相関信号の所定位置から始まる時間範囲内で、第1の時間長を有する時間範囲である第1の検査範囲を移動させながら、当該第1の検査範囲で指定される各時間範囲内で最大値をとる前記自己相関信号の各ピークを抽出し、
前記抽出された各ピークに基づいて、拍間隔を推定し、
前記音響信号データが表す楽曲に対応する強弱パターン周期が存在すると仮定される時間範囲内で、第2の時間長を有する時間範囲である第2の検査範囲を移動させながら、当該第2の検査範囲で指定される各時間範囲内で最初に最大値をとるピークを前記抽出された各ピークから選択し、該選択したピークに基づいて前記強弱パターン周期を推定し、
前記強弱パターン周期と前記拍間隔とに基づいて小節間隔を計算して推定された小節間隔として出力する、
ことを特徴とする小節間隔推定方法。
A method for estimating a bar interval of the acoustic signal data using the autocorrelation signal extracted by the feature quantity extraction method according to claim 4 as a feature quantity,
Within a time range starting from a predetermined position of the autocorrelation signal, while moving a first inspection range that is a time range having a first time length, within each time range specified in the first inspection range. Extract each peak of the autocorrelation signal that takes the maximum value,
Based on each extracted peak, a beat interval is estimated,
The second inspection is performed while moving the second inspection range, which is a time range having the second time length, within a time range in which a strong and weak pattern period corresponding to the music represented by the acoustic signal data is present. A peak having the maximum value first in each time range specified by the range is selected from each of the extracted peaks, and the intensity pattern period is estimated based on the selected peak.
Calculating a measure interval based on the strength and weakness pattern period and the beat interval, and outputting the calculated measure interval,
A measure interval estimation method characterized by the above.
コンピュータに、
入力する音響信号データに対して時間周波数解析を行って、単位時間毎に複数の周波数成分毎の周波数成分信号を算出し、
前記単位時間毎に、前記複数の周波数成分毎の周波数成分信号のうち、振幅が最大の周波数成分信号を最大振幅信号として抽出し、
前記抽出された前記単位時間毎の前記最大振幅信号から、前記最大振幅信号の時系列データの自己相関信号を導出し、当該自己相関信号を特徴量として抽出する、
処理を実行させることを特徴とする特徴量抽出プログラム。
On the computer,
Performs time-frequency analysis on the input acoustic signal data, calculates a frequency component signal for each of a plurality of frequency components per unit time,
For each unit time, out of the frequency component signals for each of the plurality of frequency components, the frequency component signal having the maximum amplitude is extracted as the maximum amplitude signal,
Deriving an autocorrelation signal of the time-series data of the maximum amplitude signal from the extracted maximum amplitude signal for each unit time, and extracting the autocorrelation signal as a feature amount;
A feature quantity extraction program characterized by causing a process to be executed.
請求項6に記載の特徴量抽出プログラムによって抽出された自己相関信号を特徴量として、前記音響信号データの小節間隔を推定するプログラムであって、
コンピュータに、
前記自己相関信号の所定位置から始まる時間範囲内で、第1の時間長を有する時間範囲である第1の検査範囲を移動させながら、当該第1の検査範囲で指定される各時間範囲内
で最大値をとる前記自己相関信号の各ピークを抽出し、
前記抽出された各ピークに基づいて、拍間隔を推定し、
前記音響信号データが表す楽曲に対応する強弱パターン周期が存在すると仮定される時間範囲内で、第2の時間長を有する時間範囲である第2の検査範囲を移動させながら、当該第2の検査範囲で指定される各時間範囲内で最初に最大値をとるピークを前記抽出された各ピークから選択し、該選択したピークに基づいて前記強弱パターン周期を推定し、
前記強弱パターン周期と前記拍間隔とに基づいて小節間隔を計算して推定された小節間隔として出力する、
処理を実行させることを特徴とする小節間隔推定プログラム。
A program for estimating a bar interval of the acoustic signal data using the autocorrelation signal extracted by the feature quantity extraction program according to claim 6 as a feature quantity,
On the computer,
Within a time range starting from a predetermined position of the autocorrelation signal, while moving a first inspection range that is a time range having a first time length, within each time range specified in the first inspection range. Extract each peak of the autocorrelation signal that takes the maximum value,
Based on each extracted peak, a beat interval is estimated,
The second inspection is performed while moving the second inspection range, which is a time range having the second time length, within a time range in which a strong and weak pattern period corresponding to the music represented by the acoustic signal data is present. A peak having the maximum value first in each time range specified by the range is selected from each of the extracted peaks, and the intensity pattern period is estimated based on the selected peak.
Calculating a measure interval based on the strength and weakness pattern period and the beat interval, and outputting the calculated measure interval,
A measure for estimating measure intervals, which is characterized by causing processing to be executed.
JP2013171660A 2013-08-21 2013-08-21 Apparatus, method, and program for estimating measure interval and extracting feature amount for the estimation Active JP6286933B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013171660A JP6286933B2 (en) 2013-08-21 2013-08-21 Apparatus, method, and program for estimating measure interval and extracting feature amount for the estimation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013171660A JP6286933B2 (en) 2013-08-21 2013-08-21 Apparatus, method, and program for estimating measure interval and extracting feature amount for the estimation

Publications (3)

Publication Number Publication Date
JP2015040970A JP2015040970A (en) 2015-03-02
JP2015040970A5 JP2015040970A5 (en) 2016-09-29
JP6286933B2 true JP6286933B2 (en) 2018-03-07

Family

ID=52695166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013171660A Active JP6286933B2 (en) 2013-08-21 2013-08-21 Apparatus, method, and program for estimating measure interval and extracting feature amount for the estimation

Country Status (1)

Country Link
JP (1) JP6286933B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395669B2 (en) 2016-02-25 2019-08-27 Sony Interactive Entertainment Inc. Voice analysis apparatus, voice analysis method, and program
CN108335687B (en) * 2017-12-26 2020-08-28 广州市百果园信息技术有限公司 Method for detecting beat point of bass drum of audio signal and terminal

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5924968B2 (en) * 2011-02-14 2016-05-25 本田技研工業株式会社 Score position estimation apparatus and score position estimation method

Also Published As

Publication number Publication date
JP2015040970A (en) 2015-03-02

Similar Documents

Publication Publication Date Title
JP5454317B2 (en) Acoustic analyzer
JP4465626B2 (en) Information processing apparatus and method, and program
JP6017687B2 (en) Audio signal analysis
US7601907B2 (en) Signal processing apparatus and method, program, and recording medium
JP4973537B2 (en) Sound processing apparatus and program
JP5560861B2 (en) Music analyzer
JP5008766B2 (en) Tempo detection device and tempo detection program
US9378719B2 (en) Technique for analyzing rhythm structure of music audio data
JP2009031486A (en) Method, apparatus, and program for evaluating similarity of performance sound
Nedelcu et al. A structural health monitoring Python code to detect small changes in frequencies
JP6252147B2 (en) Acoustic signal analysis apparatus and acoustic signal analysis program
CN108292499A (en) Skill determining device and recording medium
JP5395399B2 (en) Mobile terminal, beat position estimating method and beat position estimating program
JP6286933B2 (en) Apparatus, method, and program for estimating measure interval and extracting feature amount for the estimation
CN107210029A (en) Method and apparatus for handling succession of signals to carry out polyphony note identification
JP2015036710A5 (en) Acoustic signal alignment apparatus, alignment method, and computer program
JP4347815B2 (en) Tempo extraction device and tempo extraction method
JP5203404B2 (en) Tempo value detection device and tempo value detection method
JP2010054535A (en) Chord name detector and computer program for chord name detection
JP6071274B2 (en) Bar position determining apparatus and program
JP5054646B2 (en) Beat position estimating apparatus, beat position estimating method, and beat position estimating program
JP5191025B2 (en) Subsequent music extraction system and subsequent music extraction method
JP5131172B2 (en) Period identification device and program
Kreutzer et al. Time Domain Attack and Release Modeling-Applied to Spectral Domain Sound Synthesis
Bapat et al. Pitch tracking of voice in tabla background by the two-way mismatch method

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180122

R150 Certificate of patent or registration of utility model

Ref document number: 6286933

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150