JP5229998B2 - Code name detection device and code name detection program - Google Patents

Code name detection device and code name detection program Download PDF

Info

Publication number
JP5229998B2
JP5229998B2 JP2008183561A JP2008183561A JP5229998B2 JP 5229998 B2 JP5229998 B2 JP 5229998B2 JP 2008183561 A JP2008183561 A JP 2008183561A JP 2008183561 A JP2008183561 A JP 2008183561A JP 5229998 B2 JP5229998 B2 JP 5229998B2
Authority
JP
Japan
Prior art keywords
chord
sound
scale
level
beat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008183561A
Other languages
Japanese (ja)
Other versions
JP2010025972A (en
Inventor
明裕 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kawai Musical Instrument Manufacturing Co Ltd
Original Assignee
Kawai Musical Instrument Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kawai Musical Instrument Manufacturing Co Ltd filed Critical Kawai Musical Instrument Manufacturing Co Ltd
Priority to JP2008183561A priority Critical patent/JP5229998B2/en
Publication of JP2010025972A publication Critical patent/JP2010025972A/en
Application granted granted Critical
Publication of JP5229998B2 publication Critical patent/JP5229998B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、コード名検出装置及びコード名検出用プログラムに関する。   The present invention relates to a code name detection device and a code name detection program.

ポピュラー系の音楽においてコードは非常に重要な要素であり、このようなジャンルの音楽を小編成のバンドで演奏する場合には、演奏する個々の音符が書かれた楽譜は使用しないで、コード譜またはリードシートと呼ばれるメロディとコード進行のみが書かれた楽譜を使用することが通常である。従って市販のCD等の曲をバンドで演奏するためには曲のコード進行を採譜する必要があるが、この作業は特別な音楽的知識を有する専門家のみが可能であり、一般の人には不可能であった。そこで、市販のパーソナルコンピュータなどを使用して、演奏音が収録された音楽CD等の音源から出力される音楽音響信号に基づいて、コード名を検出する自動採譜装置が求められていた。   In popular music, chords are a very important element. When playing music of such a genre in a small band, do not use the score on which the individual notes to be played are written. Or it is usual to use a musical score called a lead sheet in which only a melody and chord progression are written. Therefore, it is necessary to record the chord progression of a song in order to play a commercially available song such as a CD in a band, but this work can only be performed by experts with special musical knowledge. It was impossible. Therefore, there has been a demand for an automatic musical transcription device that detects a chord name based on a music acoustic signal output from a sound source such as a music CD on which performance sounds are recorded using a commercially available personal computer.

このような音楽音響信号からコードを検出する装置として、下記特許文献1の構成がある。同文献の構成では、パワー・スペクトルの計算結果から基本周波数候補を抽出し、この基本周波数候補から倍音と思われるものを除去して音符情報を検出し、この音符情報から和音を検出している。   As an apparatus for detecting a chord from such a music sound signal, there is a configuration of Patent Document 1 below. In the configuration of this document, a fundamental frequency candidate is extracted from the calculation result of the power spectrum, and what is considered to be a harmonic is removed from the fundamental frequency candidate to detect note information, and a chord is detected from this note information. .

同様に音楽音響信号からコードを検出する装置として、後述する特許文献2の構成がある。該特許文献2の構成では、入力される音響信号に対して、異なる特性のディジタルフィルタリング処理を時分割で行い、各音階音のレベルを検出し、検出したレベルのうちオクターブ内で同じ音階関係にあるレベル同士を積算して、その積算レベルのうち値が大きい所定数を使って和音検出をしている。この方法では音響信号に含まれる個々の音符情報を検出しないので、後述する特許文献1にあげるような問題は発生しない。
特許第2876861号 特許第3156299号
Similarly, as a device for detecting a chord from a music acoustic signal, there is a configuration of Patent Document 2 described later. In the configuration of Patent Document 2, digital filtering processing with different characteristics is performed on input acoustic signals in a time-sharing manner to detect the level of each scale sound, and the same scale relation within the octave is detected among the detected levels. The chords are detected by using a predetermined number having a large value among the integrated levels by integrating certain levels. Since this method does not detect individual note information contained in the acoustic signal, the problem described in Patent Document 1 described later does not occur.
Japanese Patent No. 28768861 Japanese Patent No. 3156299

しかし、該特許文献1に示す構成では、上記倍音を除去する作業は、楽器の種類による倍音構造の違い、打鍵強さによる倍音の出方の違い、時間による倍音のパワー変化、同じ周波数を倍音成分として持つ音同士の位相干渉の問題などから非常に困難であることが知られている。即ち、この音符情報を検出するという工程が、多くの楽器や歌唱などが混じった一般の音楽CDなどの音源で必ずしも正しく機能するとは考えられない。   However, in the configuration shown in Patent Document 1, the above-described operation for removing overtones includes the difference in overtone structure depending on the type of musical instrument, the difference in how harmonics are generated due to keystroke strength, the power change of overtones over time, and the same frequency overtones. It is known that it is very difficult due to the problem of phase interference between sounds possessed as components. That is, it is not considered that the step of detecting the note information functions correctly with a sound source such as a general music CD in which many musical instruments and singing are mixed.

他方、音楽音響信号からコードを検出する上記特許文献2に示す構成では、各音階音のレベルをオクターブ内で同じ音階関係にあるもの同士、つまり12の音名毎に積算してしまっているので、同じ構成音からなる複数の和音、例えばラ、ド、ミ、ソからなるAm7とド、ミ、ソ、ラからなるC6という2つのコードを判別することができない。   On the other hand, in the configuration shown in Patent Document 2 for detecting a chord from a music acoustic signal, the levels of the scales are integrated for each of the 12 pitch names having the same scale relationship within the octave. A plurality of chords composed of the same constituent sound, for example, Am7 composed of la, de, mi and so, and C6 composed of de, mi, so and la cannot be discriminated.

また、この特許文献2の和音検出装置には、テンポや小節の検出機能はなく、和音検出は所定のタイミング毎に行うとなっている。つまり、あらかじめ曲のテンポを設定してそのテンポで発音するメトロノームに合わせて演奏するようなケースを想定しており、音楽CD等のような演奏後の音響信号に適用した場合、一定時間間隔毎のコード名は検出できるが、テンポや小節を検出していないので、コード譜またはリードシートと呼ばれているような各小節のコード名が書かれた楽譜のような形式に出力することはできない。   In addition, the chord detection device of Patent Document 2 does not have a tempo or measure detection function, and chord detection is performed at predetermined timings. In other words, it is assumed that the tempo of the song is set in advance and the performance is performed in accordance with a metronome that produces the tempo. The chord name can be detected, but the tempo and measure are not detected, so it cannot be output in the form of a score in which the chord name of each measure such as a chord score or lead sheet is written. .

仮に曲のテンポを与えたとしても、一般的に音楽CDに収録されている演奏のテンポは一定ではなく多少揺らぐため、正しく小節毎のコードを検出することはできない。   Even if the tempo of the song is given, the tempo of the performance recorded on the music CD is generally not constant and slightly fluctuates, so that the chord for each measure cannot be detected correctly.

また、一定のテンポで発音されるメトロノームなどに合わせて正確なテンポで演奏することは初心者の演奏者にとっては非常に困難であり、一般的には演奏のテンポは揺らいでしまうのが通常である。   Also, it is very difficult for beginners to perform at an accurate tempo that matches a metronome that is pronounced at a constant tempo, and generally the performance tempo usually fluctuates. .

さらに、特許文献2の構成では、入力される音響信号に対して、異なる特性のディジタルフィルタリング処理を時分割で行う構成が採用されているが、この構成の採用理由として、FFT演算では低域で周波数分解が悪いことをあげている。しかし、入力音響信号をダウンサンプリングしてFFTを行うことで低域でもある程度の周波数分解能を得ることは可能であるし、ディジタルフィルタリング処理では、フィルタ出力信号のレベルを求めるためにエンベロープ抽出部が必要になってしまうのに対し、FFTでは、FFT後のパワーそのものが各周波数でのレベルを表しているためそのようなものは必要なく、FFTポイント数とシフト量のパラメータを適宜選ぶことで周波数分解能や時間分解能を自由に設定できるメリットもある。   Furthermore, in the configuration of Patent Document 2, a configuration in which digital filtering processing with different characteristics is performed in time division on an input acoustic signal is adopted. The reason for the adoption of this configuration is that the FFT operation has a low frequency range. The frequency resolution is bad. However, it is possible to obtain a certain level of frequency resolution even at low frequencies by down-sampling the input acoustic signal and performing FFT, and the digital filtering process requires an envelope extraction unit to determine the level of the filter output signal On the other hand, in FFT, the power itself after the FFT represents the level at each frequency, so that is not necessary, and the frequency resolution can be selected by appropriately selecting the parameters of the number of FFT points and the shift amount. And the time resolution can be set freely.

仮に和音が検出できたとしても、検出された和音中に、7th、9thなどの音程があると、実際には、3和音で良いのに、4和音のコードとして検出される可能性がある。また特徴的な音程の強度が比較的小さく、所望のコードが候補に入らないこともある。従って自動採譜ができるようになったとしても、採譜された結果にある程度ユーザ側で自由な設定ができる必要がある。   Even if a chord can be detected, if there are pitches such as 7th and 9th in the detected chord, the chord may be detected as a four-chord chord although it may actually be a three-chord. In addition, the intensity of the characteristic pitch is relatively small, and a desired chord may not enter the candidate. Therefore, even if automatic music recording can be performed, it is necessary that the user can freely set the recorded results to some extent.

特別な音楽的知識を有する専門家でなくても、音楽CD等の複数の楽器音の混ざり、しかも演奏テンポに揺らぎのある音楽音響信号(オーディオ信号)から、個々の音符情報を検出することなしに、全体の響きから、コード名(和音名)を検出することができるコード名検出装置を提供すると共に、その結果においてユーザ側で自由に採譜結果に手を加えることができるようにする構成が望まれる。   Even if you are not an expert with special musical knowledge, it does not detect individual note information from music sound signals (audio signals) that are mixed with multiple instrument sounds such as music CDs and that have fluctuations in the performance tempo. In addition, there is provided a chord name detection device capable of detecting chord names (chord names) from the overall sound, and a configuration in which the user can freely modify the scored results in the result. desired.

また、そのような構成が提供された場合でも、実際には、検出したコードの演奏音と元の音響信号を同時に聴き比べ、検出されたコードやベース音が合っているかどうかを確認する必要がある。仮に上記の様なコード検出装置が提供されたとしても、音響信号と検出されたコード演奏を別々に聴き比べるか、せいぜい同時に鳴らしたとしても、音響信号とコード演奏の夫々の音量は別個に調整され、検出されたベース音やコードが正しいものか判別するのに、その音量調整にさえも手間を割いてしまい、簡単に聴き比べを行うことが困難であった。   Even when such a configuration is provided, it is actually necessary to listen to the performance sound of the detected chord and the original sound signal at the same time and to check whether the detected chord and bass sound are correct. is there. Even if a chord detection device as described above is provided, even if the sound signal and the detected chord performance are listened to separately or at the same time, at the same time, the volume of the sound signal and the chord performance is adjusted separately. In order to determine whether or not the detected bass sound or chord is correct, it takes time and effort to adjust the volume, and it is difficult to make a simple listening comparison.

本発明は、以上のような問題に鑑み創案されたもので、コード検出を行いながらも、音響信号と検出されたコード演奏との聴き比べのために、1回の操作で両方の音量が調整できる構成を提案し、併せて、これらの構成をコンピュータ上に実現できるコンピュータ・プログラムについても、提供する。   The present invention was devised in view of the above-described problems, and both volume levels can be adjusted by a single operation for listening comparison between an acoustic signal and a detected chord performance while performing chord detection. The present invention also proposes a computer program that can implement these configurations on a computer.

そのため本発明に係るコード名検出装置の構成は、
音響信号を入力する入力手段と、
入力された音響信号から、所定の時間間隔で、ビート検出に適したパラメータを使ってFFT演算を行い、所定の時間毎の各音階音のレベルを求める第1の音階音レベル検出手段と、
この所定の時間毎の各音階音のレベルの増分値をすべての音階音について合計して、所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計を求め、この所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のレベルの平均値を計算し、このビート毎の各音階音の平均レベルの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定の時間間隔で、コード検出に適したパラメータを使ってFFT演算を行い、所定の時間毎の各音階音のレベルを求める第2の音階音レベル検出手段と、
検出した各音階音のレベルのうち、各小節内における低域側の音階音のレベルからベース音を検出するベース音検出手段と、
検出したベース音と各音階音のレベルから各小節のコード名を決定するコード名決定手段と、
検出した全てのコード毎に、コード位置、ベース検出期間におけるベースの検出音域の音階音のレベルより求められる(ベース検出期間におけるベース検出音域の各音階音のレベルの平均的なレベルを計算することによって求められる)ベース域音階音強度、ベース音、コード検出期間におけるコードの検出音域の音階音のレベルより求められる(コード検出期間における各音階音の平均的なレベルを計算することによって求められる)コード音階音強度、コード構成音、コード構成音数、コード名を記憶するコード情報記憶手段と、
上記コード名決定手段で決定されたコード名乃至コード構成音、及び/又はベース音を表示する表示手段と、
入力音響信号及び決定された上記コードを演奏する演奏手段と、
該演奏手段の両出力の音量バランスを調整する調整手段と、
構成音とする音階音の強度に対して設けられた閾値を増減させることで、そのコード音階音強度の高い順に、コード構成音数を増減させることができ、それによって、上記コード名乃至コード構成音を変更する変更手段と、
上記変更手段によるコード名乃至コード構成音の変更に基づき、コード情報記憶手段に記憶されたコード音階音強度及びコード構成音を参照して、コード構成音、コード構成音数、コード名を、コード名決定手段に変更させ、その変更情報を上記コード情報記憶手段に再記憶させると共に、少なくとも表示手段にコード名乃至コード構成音を再表示させる再設定手段と
を有することを基本的特徴としている。
Therefore, the configuration of the code name detection device according to the present invention is as follows.
An input means for inputting an acoustic signal;
First scale sound level detection means for performing FFT calculation using a parameter suitable for beat detection at predetermined time intervals from the input acoustic signal, and obtaining the level of each scale sound for each predetermined time;
The increment value of each scale sound level for each predetermined time is summed for all the scale sounds to obtain a total of level increment values indicating the degree of change in the overall sound for each predetermined time. Beat detection means for detecting the average beat interval and the position of each beat from the sum of the incremental values of the level indicating the degree of change in the overall sound for each,
The average value of the scale level for each beat is calculated, and the increment value of the average level of each scale sound for each beat is added for all the scale sounds to indicate the degree of change in the overall sound for each beat. A bar detecting means for obtaining a value and detecting a time signature and a bar line position from a value indicating a change degree of the whole sound for each beat;
From the input acoustic signal, an FFT operation is performed using a parameter suitable for chord detection at a predetermined time interval different from that at the time of the previous beat detection, and the level of each scale sound for each predetermined time is calculated. Second scale level detection means to be obtained;
Bass sound detection means for detecting a bass sound from the level of the low-frequency scale sound in each measure out of the detected scale levels,
Chord name determining means for determining the chord name of each measure from the detected bass sound and the level of each scale sound;
For each detected chord, it is obtained from the chord position and the level of the scale sound in the base detection range during the base detection period (calculate the average level of each scale sound in the base detection range during the base detection period (Obtained by calculating the average level of each scale tone in the chord detection period) (obtained by calculating the average level of each tone in the chord detection period) Chord information storage means for storing chord scale sound intensity, chord constituent sound, chord constituent sound number, chord name,
Display means for displaying the chord name or chord constituent sound and / or bass sound determined by the chord name determining means;
Performance means for playing the input acoustic signal and the determined chord;
Adjusting means for adjusting the volume balance of both outputs of the performance means;
By increasing or decreasing the threshold value that is set for the intensity of the scale sound that is the constituent sound, the number of chord constituent sounds can be increased or decreased in descending order of the chord scale sound intensity. Change means to change the sound;
Based on the change of the chord name or chord constituent sound by the changing means, the chord constituent sound, the chord constituent sound number, and the chord name are referred to by referring to the chord scale intensity and chord constituent sound stored in the chord information storing means. The basic feature is that the name determining means is changed, and the change information is re-stored in the code information storage means, and at least the display means has a resetting means for re-displaying the chord name or chord constituting sound.

上記構成によれば、入力手段に入力された音響信号から所定の時間毎の各音階音のレベルを音階音レベル検出手段によって求め、上記ビート検出手段によって、この所定の時間毎の各音階音のレベルの増分値をすべての音階音について合計して所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計を求め、同じくビート検出手段により、この所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計から、平均的なビート(拍)間隔(つまりテンポ)と各ビートの位置を検出し、次に上記小節検出手段により、このビート毎の各音階音のレベルの平均値を計算し、このビート毎の各音階音の平均レベルの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す上記値求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置(1拍目の位置)を検出することになる。   According to the above configuration, the scale level for each predetermined time is obtained from the acoustic signal input to the input means by the scale level detecting means, and the beat detection means determines the scale sound for each predetermined time. The level increment values are summed for all scales to obtain the total level increment value indicating the degree of change in the overall sound for each predetermined time, and the beat detection means also performs the overall sound for this predetermined time. The average beat interval (that is, tempo) and the position of each beat are detected from the sum of the level increments indicating the degree of change in the level, and then the measure detection means measures the tone of each scale note for each beat. The average value of the level is calculated, and the increment value of the average level of each scale sound for each beat is summed up for all the scale sounds, and the above value indicating the degree of change in the overall sound for each beat is obtained, and for each beat. all From a value that indicates the degree of change in tone, thereby detecting the beat and measure line position (first beat position).

すなわち、入力された音響信号から所定の時間毎の各音階音のレベルを求め、この所定の時間毎の各音階音のレベルの変化から平均的なビート(拍)間隔(つまりテンポ)と各ビートの位置を検出し、次にこのビート毎の各音階音のレベルの変化から拍子と小節線位置(1拍目の位置)を検出することになる。   That is, the level of each scale sound for each predetermined time is obtained from the input sound signal, and the average beat (beat) interval (that is, tempo) and each beat are determined from the change in the level of each scale sound for each predetermined time. Next, the time signature and bar line position (position of the first beat) are detected from the change in the level of each scale tone for each beat.

また上記ベース音検出手段において、ベース音が小節内で複数検出される場合は、そのベース音検出結果に応じて、上記コード名決定手段は、小節を幾つかのコード検出範囲に分断し、この各コード検出範囲におけるコード名を、ベース音と各コード検出範囲における各音階音のレベルから、決定するものとする。   In the bass sound detecting means, when a plurality of bass sounds are detected in a measure, the chord name determining means divides the measure into several chord detection ranges according to the bass sound detection result. The chord name in each chord detection range is determined from the base sound and the level of each scale sound in each chord detection range.

上記構成によれば、入力手段から入力された入力音響信号に対し、第1の音階音レベル検出手段により、所定の時間間隔で、まずビート検出に適したパラメータでFFT演算を行い、これにより所定の時間毎の各音階音のレベルを求め、ビート検出手段により、この所定の時間毎の各音階音のレベルの変化から平均的なビート間隔と各ビートの位置を検出する。次に、小節検出手段により、このビート毎の各音階音のレベルの変化から拍子と小節線位置を検出する。さらに、本発明のコード名検出装置は、第2の音階音レベル検出手段により、入力音響信号に対し先のビート検出の時とは異なる別の所定の時間間隔で、今度はコード検出に適したパラメータでFFT演算を行い、これにより所定の時間毎の各音階音のレベルを求める。そしてベース音検出手段により、この各音階音のレベルの内、低域側の音階音のレベルから各小節のベース音を検出し、コード名決定手段により、検出したベース音と各音階音のレベルから各小節のコード名を決定することになる。   According to the above configuration, the first acoustic scale level detection means first performs an FFT operation with a parameter suitable for beat detection on the input sound signal input from the input means at a predetermined time interval. The level of each scale sound for each time is obtained, and the beat detection means detects the average beat interval and the position of each beat from the change in the level of each scale sound for each predetermined time. Next, the measure and the bar line position are detected from the change in the level of each scale sound for each beat by the measure detecting means. Furthermore, the chord name detection apparatus according to the present invention is suitable for chord detection at a predetermined time interval different from the time of the previous beat detection with respect to the input acoustic signal by the second scale sound level detection means. An FFT operation is performed with the parameters, thereby obtaining the level of each scale sound for each predetermined time. The bass sound detecting means detects the bass sound of each measure from the scale sound level on the low frequency side, and the chord name determining means detects the bass sound and the level of each scale sound. The chord name of each measure will be determined from

また上記のように、ベース音検出手段でこのベース音が小節内で複数検出される場合は、そのベース音検出結果に応じて、上記コード名決定手段は、小節を幾つかのコード検出範囲に分断し、この各コード検出範囲におけるコード名をベース音と各コード検出範囲における各音階音のレベルから決定することになる。   In addition, as described above, when a plurality of bass sounds are detected in the measure by the bass sound detecting means, the chord name determining means determines that the measure is divided into several chord detection ranges according to the bass sound detection result. The chord name in each chord detection range is determined from the bass sound and the level of each tone in the chord detection range.

以上のように、本発明のコード名検出装置の構成では、簡単な構成のみでビート検出という時間分解能が必要な処理(謂わばテンポ検出装置の構成と言って良い)と、和音検出という周波数分解能が必要な処理(上記テンポ検出装置の構成を基にさらに和音を検出できる構成)を同時に行うことができるようになる。   As described above, in the configuration of the code name detection device of the present invention, processing that requires time resolution of beat detection with only a simple configuration (so-called tempo detection device configuration) and frequency resolution of chord detection are possible. Can be performed simultaneously (a configuration that can further detect chords based on the configuration of the tempo detection device).

さらに、検出されたコード毎に、上記コード情報記憶手段に、それらの、コード位置、ベース検出期間におけるベースの検出音域の音階音のレベルより求められるベース域音階音強度、ベース音、コード検出期間におけるコードの検出音域の音階音のレベルより求められるコード音階音強度、コード構成音、コード構成音数、コード名が記憶される。そして、上記表示手段に、上記コード名決定手段で決定されたコード名乃至コード構成音やベース音が表示される。   Further, for each detected chord, the chord information storage means stores the base range tone intensity, the base tone, and the chord detection period obtained from the chord position and the level of the scale tone of the base detection range in the base detection period. The chord scale sound intensity, the chord constituent sound, the chord constituent sound number, and the chord name obtained from the scale sound level of the chord detection tone range in FIG. And the chord name thru | or the chord constituent sound and the bass sound determined by the chord name determining means are displayed on the display means.

このコード名乃至コード構成音やベース音が表示されただけでは、実際にその検出結果が正しいか否かが判定できない。そのために、本発明装置では、上記演奏手段により、入力音響信号及び決定された上記コードが演奏される構成とした。   It is not possible to determine whether or not the detection result is actually correct only by displaying the chord name, chord constituent sound and bass sound. For this purpose, the apparatus according to the present invention is configured such that the input sound signal and the determined chord are played by the playing means.

ただし、上記の様な調整手段により、該演奏手段の両出力につき、その音量バランスが調整できるようにしている。すなわち、たとえばスライド抵抗の様な、1つの操作子で操作し、一回操作するだけで、全体の音量を変化させずに、これらの音量調整ができる様にしている。   However, the volume balance of both outputs of the performance means can be adjusted by the adjustment means as described above. That is, the volume can be adjusted without changing the overall volume by operating with a single operator, such as a slide resistor, and operating it once.

両方の音を適切な音量の調整ができた状態で聴いたユーザは、その結果においてコード名が適切でない、或いはコード進行を聞いた時に不自然、と感じて訂正を加えたい時は、上記変更手段を使用して、ユーザ側で、コード名乃至コード構成音の変更(コード構成音の数の変更できる)をすることができる。すなわち、コード構成音の数の変更として、採用個数を変える場合、3和音、4和音のコントロールをすることが可能となるなどである。 If the user who listened to both sounds with appropriate volume adjustments feels that the chord name is not appropriate in the result, or if he / she feels unnatural when he / she hears the chord progression, he / she wants to correct it. use means, on the user side, it is possible to change the code name to chord member (may change in the number of chord member). That is, as the number of changes of chord member, when changing the adoption number, triad, and the like becomes possible to four chords controls.

そのような変更が行われた場合、上記再設定手段により、コード情報記憶手段に記憶されたコード音階音強度及びコード構成音を参照させて、コード構成音、コード構成音数、コード名を、コード名決定手段に変更させ、その変更情報を上記コード情報記憶手段に再記憶させると共に、少なくとも表示手段にコード名乃至コード構成音を再表示させるようにすることになる。   When such a change is made, the chord scale sound intensity and chord constituent sound stored in the chord information storing means are referred to by the resetting means, and the chord constituent sound, the chord constituent sound number, the chord name, The code name determining means is changed, the change information is re-stored in the code information storage means, and at least the display means re-displays the chord name or chord constituting sound.

コード構成音数を変更させる場合に、コード情報記憶手段に記憶されたコード音階音強度やコード構成音を参照するのは、構成音とする音階音の強度に閾値が設けられており、その閾値を増減することで、そのコード音階音強度の高い順に、コード構成音数を簡単に増減できるようになるからである。そのコード構成音数の変更によっては、コード名も変わるようになる。 When the number of chord constituent sounds is changed, the chord scale intensity stored in the chord information storage means and the chord constituent sounds are referred to because a threshold is provided for the intensity of the scale sound as the constituent sound. This is because the number of chord constituent sounds can be easily increased or decreased in descending order of the chord scale sound intensity. Depending on the change in the number of chords, the chord name will also change.

さらに、2つ目の本発明の構成は、第1の発明の構成を、コンピュータに実行させるために、該コンピュータで実行可能なプログラム自身を規定している。すなわち、上述した課題を解決するための構成として、上記各手段を、コンピュータの構成を利用することで実現する、該コンピュータで読み込まれて実行可能なプログラムである。この場合、コンピュータとは中央演算処理装置の構成を含んだ汎用的なコンピュータの構成の他、特定の処理に向けられた専用機などを含むものであっても良く、中央演算処理装置の構成を伴うものであれば特に限定はない。   Further, the second configuration of the present invention defines a program itself that can be executed by the computer in order to cause the computer to execute the configuration of the first invention. In other words, as a configuration for solving the above-described problems, the above-described means is realized by using the configuration of a computer, and is a program that can be read and executed by the computer. In this case, the computer may include a general-purpose computer configuration including the configuration of the central processing unit, or may include a dedicated machine directed to a specific process, and the configuration of the central processing unit. If it accompanies, there will be no limitation in particular.

上記各手段を実現させるためのプログラムが該コンピュータに読み出されると、第1の発明の構成として規定された各機能実現手段と同様な機能実現手段が達成されることになる。   When a program for realizing the above means is read by the computer, the same function realizing means as the function realizing means defined as the configuration of the first invention is achieved.

第2の発明のより具体的構成は、
コンピュータに読み込まれて実行されることにより、該コンピュータを、
音響信号を入力する入力手段と、
入力された音響信号から、所定の時間間隔で、ビート検出に適したパラメータを使ってFFT演算を行い、所定の時間毎の各音階音のレベルを求める第1の音階音レベル検出手段と、
この所定の時間毎の各音階音のレベルの増分値をすべての音階音について合計して、所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計を求め、この所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のレベルの平均値を計算し、このビート毎の各音階音の平均レベルの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定の時間間隔で、コード検出に適したパラメータを使ってFFT演算を行い、所定の時間毎の各音階音のレベルを求める第2の音階音レベル検出手段と、
検出した各音階音のレベルのうち、各小節内における低域側の音階音のレベルからベース音を検出するベース音検出手段と、
検出したベース音と各音階音のレベルから各小節のコード名を決定するコード名決定手段と、
検出した全てのコード毎に、コード位置、ベース検出期間におけるベースの検出音域の音階音のレベルより求められるベース域音階音強度、ベース音、コード検出期間におけるコードの検出音域の音階音のレベルより求められるコード音階音強度、コード構成音、コード構成音数、コード名を記憶するコード情報記憶手段と、
上記コード名決定手段で決定されたコード名乃至コード構成音、及び/又はベース音を表示する表示手段と、
入力音響信号及び決定された上記コードを演奏する演奏手段と、
該演奏手段の両出力の音量バランスを調整する調整手段と、
構成音とする音階音の強度に対して設けられた閾値を増減させることで、そのコード音階音強度の高い順に、コード構成音数を増減させることができ、それによって、上記コード名乃至コード構成音を変更する変更手段と、
上記変更手段によるコード名乃至コード構成音の変更に基づき、コード情報記憶手段に記憶されたコード音階音強度及びコード構成音を参照して、コード構成音、コード構成音数、コード名を、コード名決定手段に変更させ、その変更情報を上記コード情報記憶手段に再記憶させると共に、少なくとも表示手段にコード名乃至コード構成音を再表示させる再設定手段と
して機能させることを特徴とするコード名検出用プログラムである。
A more specific configuration of the second invention is as follows:
By being read and executed by a computer, the computer is
An input means for inputting an acoustic signal;
First scale sound level detection means for performing FFT calculation using a parameter suitable for beat detection at predetermined time intervals from the input acoustic signal, and obtaining the level of each scale sound for each predetermined time;
The increment value of each scale sound level for each predetermined time is summed for all the scale sounds to obtain a total of level increment values indicating the degree of change in the overall sound for each predetermined time. Beat detection means for detecting the average beat interval and the position of each beat from the sum of the incremental values of the level indicating the degree of change in the overall sound for each,
The average value of the scale level for each beat is calculated, and the increment value of the average level of each scale sound for each beat is added for all the scale sounds to indicate the degree of change in the overall sound for each beat. A bar detecting means for obtaining a value and detecting a time signature and a bar line position from a value indicating a change degree of the whole sound for each beat;
From the input acoustic signal, an FFT operation is performed using a parameter suitable for chord detection at a predetermined time interval different from that at the time of the previous beat detection, and the level of each scale sound for each predetermined time is calculated. Second scale level detection means to be obtained;
Bass sound detection means for detecting a bass sound from the level of the low-frequency scale sound in each measure out of the detected scale levels,
Chord name determining means for determining the chord name of each measure from the detected bass sound and the level of each scale sound;
For every detected chord, from the chord position, the base tone scale intensity obtained from the scale sound level of the bass detection range during the base detection period, the base tone, and the scale sound level of the chord detection range during the chord detection period Chord information storage means for storing the required chord scale sound intensity, chord constituent sound, chord constituent sound number, chord name;
Display means for displaying the chord name or chord constituent sound and / or bass sound determined by the chord name determining means;
Performance means for playing the input acoustic signal and the determined chord;
Adjusting means for adjusting the volume balance of both outputs of the performance means;
By increasing or decreasing the threshold value that is set for the intensity of the scale sound that is the constituent sound, the number of chord constituent sounds can be increased or decreased in descending order of the chord scale sound intensity. Change means to change the sound;
Based on the change of the chord name or chord constituent sound by the changing means, the chord constituent sound, the chord constituent sound number, and the chord name are referred to by referring to the chord scale intensity and chord constituent sound stored in the chord information storing means. Code name detection characterized in that it is changed to a name determining means, and the change information is re-stored in the code information storage means, and at least the display means functions as a resetting means for re-displaying a chord name or a chord constituent sound. Program.

以上のようなプログラムの構成であれば、既存のハードウェア資源を用いてこのプログラムを使用することにより、既存のハードウェアで新たなアプリケーションとしての本発明の夫々の装置が容易に実現できるようになる。   With the program configuration as described above, by using this program using the existing hardware resources, each device of the present invention as a new application can be easily realized with the existing hardware. Become.

このプログラムという態様では、通信などを利用して、これを容易に使用、配布、販売することができるようになる。また、既存のハードウェア資源を用いてこのプログラムを使用することにより、既存のハードウェアで新たなアプリケーションとしての本発明の装置が容易に実行できるようになる。   In the aspect of this program, it becomes possible to easily use, distribute, and sell it using communication or the like. In addition, by using this program using existing hardware resources, the apparatus of the present invention as a new application can be easily executed with the existing hardware.

尚、第2の発明の構成の各機能実現手段のうち一部の機能は、コンピュータに組み込まれた機能(コンピュータにハードウェア的に組み込まれている機能でも良く、該コンピュータに組み込まれているオペレーティングシステムや他のアプリケーションプログラムなどによって実現される機能でも良い)によって実現され、前記プログラムには、該コンピュータによって達成される機能を呼び出すあるいはリンクさせる命令が含まれていても良い。   It should be noted that some of the functions realizing means of the configuration of the second invention may be functions incorporated in a computer (functions incorporated in the hardware of a computer, operating functions incorporated in the computer) It may be a function realized by a system or other application program), and the program may include an instruction for calling or linking a function achieved by the computer.

これは、第1の発明の構成として規定された各機能実現手段の一部が、例えばオペレーティングシステムなどによって達成される機能の一部で代行され、その機能を実現するためのプログラムないしモジュールなどは直接存在するわけではないが、それらの機能を達成するオペレーティングシステムの機能の一部を、呼び出したりリンクさせるようにしてあれば、実質的に同じ構成となるからである。   This is because a part of each function realizing means defined as the configuration of the first invention is substituted by a part of the function achieved by, for example, an operating system, and a program or a module for realizing the function is Although it does not exist directly, if a part of the function of the operating system that achieves these functions is called or linked, the configuration is substantially the same.

本発明に規定されたコード名検出装置及びプログラムによれば、特別な音楽的知識を有する専門家でなくても、音楽CD等の複数の楽器音の混ざり、しかも演奏テンポに揺らぎのある音楽音響信号(オーディオ信号)から、個々の音符情報を検出することなしに、全体の響きから、コード名(和音名)を検出することができるというだけでなく、その判定結果を確認する際に、コード名乃至コード構成音やベース音が表示されただけでは、実際にその検出結果が正しいか否かが判定できないので、本発明構成では、上記演奏手段により、入力音響信号及び決定された上記コードが演奏される構成とし、しかも上記調整手段により、該演奏手段の音響信号及びコード演奏出力につき、その音量バランスが調整できるようにし、一回操作するだけで、全体の音量を変化させずに、これらの音量調整ができる様になるだけでなく、そのような出力を聴いて、検出結果に満足できない場合、ユーザ側で、上記変更手段を用いてコード名及びコード構成音を変更することで、自由に採譜結果に手を加えることができるようになるという効果も有している。 According to the chord name detection apparatus and program defined in the present invention, a music sound having a mixture of a plurality of instrumental sounds such as a music CD and a fluctuation in performance tempo, even if not an expert having special musical knowledge. In addition to being able to detect the chord name (chord name) from the overall sound without detecting individual note information from the signal (audio signal), the chord name (chord name) can be checked when checking the judgment result. Since it is not possible to determine whether or not the detection result is actually correct only by displaying the name or chord constituent sound or bass sound, in the configuration of the present invention, the input sound signal and the determined chord are It is configured to be played, and the above-mentioned adjusting means allows the volume balance of the sound signal and chord performance output of the playing means to be adjusted and is operated only once. , Without changing the overall volume, not only to the way it is these volume control, listening to such output, if not satisfied with the result of detection, the user side, by using the changing unit code By changing the name and chord constituent sound, there is also an effect that the music transcription result can be freely changed .

以下、本発明の実施の形態を図示例と共に説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

(前提例)
図1は、本発明の前提となるテンポ検出装置の全体ブロック図である。このテンポ検出装置の構成は、テンポ検出用プログラムが読み込まれて実行可能なコンピュータにより構成されており、該コンピュータをテンポ検出用機能ブロックとして分けた場合、図1に示すように、音響信号を入力する入力部1と、入力された音響信号から、所定の時間間隔で、FFT演算を行い、所定の時間毎の各音階音のレベルを求める音階音レベル検出部2と、この所定の時間毎の各音階音のレベルの増分値をすべての音階音について合計して、所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計を求め、この所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出部3と、このビート毎の各音階音のレベルの平均値を計算し、このビート毎の各音階音の平均レベルの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出部4とを有するもので構成される。
(Assumption example)
FIG. 1 is an overall block diagram of a tempo detection apparatus as a premise of the present invention. The tempo detection device is configured by a computer that can read and execute a tempo detection program. When the computer is divided into tempo detection functional blocks, an audio signal is input as shown in FIG. An input unit 1, a scale sound level detection unit 2 that performs an FFT operation at predetermined time intervals from the input sound signal, and obtains the level of each scale sound for each predetermined time, and this predetermined time interval The increment value of each scale sound level is summed for all the scale sounds to obtain the sum of the level increment values indicating the degree of change in the overall sound for each predetermined time. The beat detector 3 for detecting the average beat interval and the position of each beat, and the average value of the level of each scale tone for each beat are calculated from the sum of the incremental values indicating the degree of change. The value indicating the degree of change in the overall sound for each beat is obtained by summing up the average level increments of all the scales for each beat for all scales to obtain the value indicating the degree of change in the overall sound for each beat. To a bar detector and a bar detecting unit 4 for detecting bar line positions.

上記入力部1は、後述するように、コンピュータに接続されたマイクや、同じくコンピュータに接続されたMIDIインタフェースなどのI/Oインターフェースで構成されており、上述のように、音響信号を入力する機能を有している。   As will be described later, the input unit 1 includes a microphone connected to a computer and an I / O interface such as a MIDI interface connected to the computer. As described above, the input unit 1 has a function of inputting an acoustic signal. have.

上記音階音レベル検出部2は、テンポ検出用プログラムが読み込まれて実行され、以下に示す処理を行うコンピュータのCPUにより構成されている。そしてそれは、上述のように、入力された音響信号から、所定の時間間隔で、FFT演算を行い、所定の時間毎の各音階音のレベルを求める機能を有している。   The scale sound level detection unit 2 is constituted by a CPU of a computer that reads and executes a tempo detection program and performs the following processing. As described above, it has a function of performing an FFT operation at a predetermined time interval from the input acoustic signal and obtaining the level of each scale sound for each predetermined time.

上記ビート検出部3は、同じくテンポ検出用プログラムが読み込まれて実行され、以下に示す処理を行うコンピュータのCPUにより構成されている。それは、上述のように、所定の時間毎の各音階音のレベルの増分値をすべての音階音について合計して、所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計を求め、この所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計から、平均的なビート間隔と各ビートの位置を検出する機能を有している。   The beat detection unit 3 is similarly configured by a CPU of a computer that reads and executes a tempo detection program and performs the following processing. As described above, the sum of the increments of each scale sound level for each predetermined time is summed for all the scale sounds, and the sum of the level increment values indicating the degree of change of the overall sound for each predetermined time is obtained. It has a function of detecting the average beat interval and the position of each beat from the sum of the incremental values of the level indicating the degree of change of the entire sound every predetermined time.

上記小節検出部4は、同じくテンポ検出用プログラムが読み込まれて実行され、以下に示す処理を行うコンピュータのCPUにより構成されている。それは、上述のように、上記ビート毎の各音階音のレベルの平均値を計算し、このビート毎の各音階音の平均レベルの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する機能を有している。   The bar detection unit 4 is similarly configured by a CPU of a computer that reads and executes a tempo detection program and performs the following processing. As mentioned above, it calculates the average value of each scale note level for each beat, and sums the increments of the average level of each scale note for each beat for all the scale notes. A value indicating the degree of change in sound is obtained, and the time and bar line position are detected from the value indicating the degree of change in the overall sound for each beat.

音楽音響信号を入力する上記入力部1は、テンポ検出をする対象の音楽音響信号を入力する部分である。マイク等の機器から入力されたアナログ信号をA/D変換器(図示無し)によりディジタル信号に変換しても良いし、音楽CDなどのディジタル化された音楽データの場合は、そのままファイルとして取り込み(リッピング)、これを指定して開くようにしても良い。このようにして入力したディジタル信号がステレオの場合、後の処理を簡略化するためにモノラルに変換する。   The input unit 1 for inputting a music sound signal is a part for inputting a music sound signal to be subjected to tempo detection. An analog signal input from a device such as a microphone may be converted into a digital signal by an A / D converter (not shown). In the case of digitized music data such as a music CD, it is directly taken in as a file ( Ripping), it may be specified and opened. When the input digital signal is stereo, it is converted to monaural in order to simplify subsequent processing.

このディジタル信号は、音階音レベル検出部2に入力される。この音階音レベル検出部は図2の各部から構成される。   This digital signal is input to the scale sound level detector 2. This scale sound level detection unit is composed of each unit shown in FIG.

そのうち波形前処理部20は、音楽音響信号の上記入力部1からの音響信号を今後の処理に適したサンプリング周波数にダウンサンプリングする構成である。   Among them, the waveform preprocessing unit 20 is configured to downsample the sound signal from the input unit 1 of the music sound signal to a sampling frequency suitable for future processing.

ダウンサンプリングレートは、ビート検出に使う楽器の音域によって決定する。すなわち、シンバル、ハイハット等の高音域のリズム楽器の演奏音をビート検出に反映させるには、ダウンサンプリング後のサンプリング周波数を高い周波数にする必要があるが、ベース音とバスドラム、スネアドラム等の楽器音と中音域の楽器音から主にビート検出させる場合には、ダウンサンプリング後のサンプリング周波数はそれほど高くする必要はない。   The downsampling rate is determined by the range of the instrument used for beat detection. In other words, in order to reflect the performance sound of high-frequency rhythm instruments such as cymbals and hi-hats in beat detection, it is necessary to set the sampling frequency after down-sampling to a high frequency, but bass sounds, bass drums, snare drums, etc. When beat detection is mainly performed from instrument sounds and middle instrument sounds, the sampling frequency after downsampling need not be so high.

例えば検出する最高音をA6(C4が中央のド)とする場合、A6の基本周波数は約1760Hz(A4=440Hzとした場合)となるので、ダウンサンプリング後のサンプリング周波数は、ナイキスト周波数が1760Hz以上となる、3520Hz以上にすれば良い。これから、ダウンサンプリングレートは、元のサンプリング周波数が44.1kHz(音楽CD)の場合、1/12程度にすれば良いことになる。この時、ダウンサンプリング後のサンプリング周波数は、3675Hzとなる。   For example, when the highest sound to be detected is A6 (C4 is in the middle), the basic frequency of A6 is about 1760 Hz (when A4 = 440 Hz), so the sampling frequency after downsampling is a Nyquist frequency of 1760 Hz or higher. It may be 3520 Hz or higher. From this, the downsampling rate may be about 1/12 when the original sampling frequency is 44.1 kHz (music CD). At this time, the sampling frequency after downsampling is 3675 Hz.

ダウンサンプリングの処理は、通常、ダウンサンプリング後のサンプリング周波数の半分の周波数であるナイキスト周波数(今の例では1837.5Hz)以上の成分をカットするローパスフィルタを通した後に、データを読み飛ばす(今の例では波形サンプルの12個に11個を破棄する)ことによって行われる。   In the downsampling process, data is skipped after passing through a low-pass filter that cuts off components above the Nyquist frequency (1837.5 Hz in this example), which is usually half the sampling frequency after downsampling (now In this example, 11 out of 12 waveform samples are discarded).

このようにダウンサンプリングの処理を行うのは、この後のFFT演算において、同じ周波数分解能を得るために必要なFFTポイント数を下げることで、FFTの演算時間を減らすのが目的である。   The purpose of downsampling in this way is to reduce the FFT computation time by lowering the number of FFT points necessary to obtain the same frequency resolution in the subsequent FFT computation.

なお、音楽CDのように、音源が固定のサンプリング周波数で既にサンプリングされている場合は、このようなダウンサンプリングが必要になるが、音楽音響信号の入力部1が、マイク等の機器から入力されたアナログ信号をA/D変換器によりディジタル信号に変換するような場合には、当然A/D変換器のサンプリング周波数を、ダウンサンプリング後のサンプリング周波数に設定することで、この波形前処理部を省くことが可能である。   When a sound source has already been sampled at a fixed sampling frequency, such as a music CD, such downsampling is necessary. However, the music acoustic signal input unit 1 is input from a device such as a microphone. When an analog signal is converted into a digital signal by an A / D converter, the waveform pre-processing unit is naturally set by setting the sampling frequency of the A / D converter to the sampling frequency after downsampling. It can be omitted.

このようにして波形前処理部20によるダウンサンプリングが終了したら、所定の時間間隔で、波形前処理部の出力信号を、FFT演算部21によりFFT(高速フーリエ変換)する。   When the downsampling by the waveform preprocessing unit 20 is completed in this manner, the output signal of the waveform preprocessing unit is subjected to FFT (Fast Fourier Transform) by the FFT calculation unit 21 at predetermined time intervals.

FFTのパラメータ(FFTポイント数とFFT窓のシフト量)は、ビート検出に適した値とする。つまり、周波数分解能を上げるためにFFTポイント数を大きくすると、FFT窓のサイズが大きくなってしまい、より長い時間から1回のFFTを行うことになり、時間分解能が低下する、というFFTの特性を考慮しなくてはならない(つまりビート検出時は周波数分解能を犠牲にして時間分解能をあげるのが良い)。窓のサイズと同じだけの長さの波形を使わないで、窓の一部だけに波形データをセットし残りは0で埋めることによって、FFTポイント数を大きくしても時間分解能が悪くならない方法もあるが、低音側のパワー(ここでパワーは、上記レベルと同意;以下同じ)も正しく検出するためには、ある程度の波形サンプル数は必要である。   The FFT parameters (the number of FFT points and the shift amount of the FFT window) are values suitable for beat detection. In other words, if the number of FFT points is increased in order to increase the frequency resolution, the size of the FFT window increases, and one FFT is performed from a longer time, resulting in the FFT characteristic that the time resolution decreases. (In other words, it is better to increase the time resolution at the expense of the frequency resolution when detecting beats.) There is a method in which the time resolution is not deteriorated even if the number of FFT points is increased by setting the waveform data to only a part of the window and filling the rest with 0 without using the waveform as long as the window size. There is a certain number of waveform samples in order to correctly detect the power on the bass side (here, the power agrees with the above level; the same applies hereinafter).

以上のようなことを考慮し、本実施例では、FFTポイント数512、窓のシフトは32サンプルで、0埋めなしという設定にした。このような設定でFFT演算を行うと、時間分解能約8.7ms、周波数分解能約7.2Hzとなる。時間分解能約8.7msという値は、四分音符=300のテンポの曲で、32分音符の長さが、25msであることを考えると、十分な値であることがわかる。   Considering the above, in this embodiment, the number of FFT points is 512, the window shift is 32 samples, and no zero padding is set. When FFT calculation is performed with such settings, the time resolution is about 8.7 ms and the frequency resolution is about 7.2 Hz. It can be seen that the time resolution of about 8.7 ms is a sufficient value considering that the tune has a tempo of quarter note = 300 and the length of the 32nd note is 25 ms.

このようにして、所定の時間間隔毎にFFT演算が行われ、その実数部と虚数部のそれぞれを二乗したものの和の平方根からパワーが計算され、その結果がレベル検出部22に送られる。   In this way, the FFT operation is performed at predetermined time intervals, the power is calculated from the square root of the sum of the squares of the real part and the imaginary part, and the result is sent to the level detector 22.

レベル検出部22では、FFT演算部21で計算されたパワー・スペクトルから、各音階音のレベルを計算する。FFTは、サンプリング周波数をFFTポイント数で割った値の整数倍の周波数のパワーが計算されるだけであるので、このパワー・スペクトルから各音階音のレベルを検出するために、以下のような処理を行う。つまり、音階音を計算するすべての音(C1からA6)について、その各音の基本周波数の上下50セントの範囲(100セントが半音)の周波数に相当するパワー・スペクトルの内、最大のパワーを持つスペクトルのパワーをこの音階音のレベルとする。   The level detector 22 calculates the level of each scale sound from the power spectrum calculated by the FFT calculator 21. Since the FFT only calculates the power of a frequency that is an integer multiple of the sampling frequency divided by the number of FFT points, in order to detect the level of each scale tone from this power spectrum, the following processing is performed. I do. In other words, for all the sounds (C1 to A6) for which the scale sound is calculated, the maximum power in the power spectrum corresponding to the frequency in the range of 50 cents above and below the fundamental frequency of each sound (100 cents is a semitone) is obtained. Let the power of the spectrum it has be the scale level.

すべての音階音についてレベルが検出されたら、これをバッファに保存し、波形の読み出し位置を所定の時間間隔(先の例では32サンプル)進めて、FFT演算部21とレベル検出部22の処理を波形の終わりまで繰り返す。   When the levels are detected for all the scale sounds, the levels are stored in a buffer, the waveform reading position is advanced by a predetermined time interval (32 samples in the previous example), and the processing of the FFT calculation unit 21 and the level detection unit 22 is performed. Repeat until the end of the waveform.

以上により、音楽音響信号の入力部1に入力された音響信号の、所定時間毎の各音階音のレベルが、バッファ23に保存される。   As described above, the level of each scale sound for each predetermined time of the acoustic signal input to the music acoustic signal input unit 1 is stored in the buffer 23.

次に、図1のビート検出部3の構成について説明する。該ビート検出部3は、図3のような処理の流れで実行される。   Next, the configuration of the beat detection unit 3 in FIG. 1 will be described. The beat detection unit 3 is executed in the process flow as shown in FIG.

ビート検出部3は、音階音レベル検出部が出力した所定時間(以下、この1所定時間を1フレームと呼ぶ)毎の各音階音のレベルの変化を元に平均的なビート(拍)間隔(つまりテンポ)とビートの位置を検出する。そのために、まずビート検出部3は、各音階音のレベル増分値の合計(前のフレームとのレベルの増分値をすべての音階音で合計したもの。前のフレームからレベルが減少している場合は0として加算する)を計算する(ステップS100)。   The beat detection unit 3 uses an average beat (beat) interval (based on a change in the level of each scale sound for each predetermined time (hereinafter, this one predetermined time is referred to as one frame) output from the scale sound level detection unit. That is, the tempo) and the beat position are detected. For this purpose, first, the beat detection unit 3 sums up the level increment values of each scale sound (the sum of the level increment values from the previous frame for all the scale sounds. When the level is reduced from the previous frame Is added as 0) (step S100).

つまり、フレーム時間tにおけるi番目の音階音のレベルをL(t)とするとき、i番目の音階音のレベル増分値Laddi(t)は、下式数1に示すようになり、このLaddi(t)を使って、フレーム時間tにおける各音階音のレベル増分値の合計L(t)は、下式数2で計算できる。ここで、Tは音階音の総数である。 That is, when the level of the i-th scale sound at the frame time t is L i (t), the level increment value L addi (t) of the i-th scale sound is as shown in the following equation 1, Using L addi (t), the sum L (t) of the level increments of each scale tone at the frame time t can be calculated by the following equation (2). Here, T is the total number of scale sounds.

Figure 0005229998
Figure 0005229998

Figure 0005229998
Figure 0005229998

この合計L(t)値は、フレーム毎の全体での音の変化度合いを表している。この値は、音の鳴り始めで急激に大きくなり、同時に鳴り始める音が多いほど大きな値となる。音楽はビートの位置で音が鳴り始めることが多いので、この値が大きなところはビートの位置である可能性が高いことになる。   The total L (t) value represents the degree of change in sound for each frame. This value suddenly increases at the beginning of sounding, and becomes larger as more sounds begin to sound at the same time. Since music often starts to sound at the beat position, there is a high possibility that the place where this value is large is the beat position.

例として、図4に、ある曲の一部分の波形と各音階音のレベル、各音階音のレベル増分値の合計の図を示す。上段が波形、中央がフレーム毎の各音階音のレベルを濃淡で表したもの(下が低い音、上が高い音。この図では、C1からA6の範囲)、下段がフレーム毎の各音階音のレベル増分値の合計を示している。この図の各音階音のレベルは、音階音レベル検出部から出力されたものであるので、周波数分解能が約7.2Hzであり、G#2以下の一部の音階音でレベルが計算できずに歯抜け状態になっているが、この場合はビートを検出するのが目的であるので、低音の一部の音階音のレベルが測定できないのは、問題ない。   As an example, FIG. 4 shows a diagram of the sum of the waveform of a part of a certain song, the level of each musical note, and the level increment value of each musical note. The upper row is the waveform, the middle is the tone level of each scale in each frame (lower is lower, the upper is higher. In this figure, the range is C1 to A6), and the lower is each scale. Shows the sum of level increments. Since the level of each scale sound in this figure is output from the scale sound level detector, the frequency resolution is about 7.2 Hz, and the level cannot be calculated for some scale sounds below G # 2. In this case, since the purpose is to detect beats, it is not a problem that the level of a part of the lower tone cannot be measured.

この図の下段に見られるように、各音階音のレベル増分値の合計は、定期的にピークをもつ形となっている。この定期的なピークの位置が、ビートの位置である。   As seen in the lower part of the figure, the sum of the level increments of each scale sound has a peak periodically. This regular peak position is the beat position.

ビートの位置を求めるために、ビート検出部3では、まずこの定期的なピークの間隔、つまり平均的なビート間隔を求める。平均的なビート間隔はこの各音階音のレベル増分値の合計の自己相関から計算できる(図3;ステップS102)。   In order to obtain the beat position, the beat detector 3 first obtains the periodic peak interval, that is, the average beat interval. The average beat interval can be calculated from the autocorrelation of the total level increment value of each scale note (FIG. 3; step S102).

あるフレーム時間tにおける各音階音のレベル増分値の合計をL(t)とすると、この自己相関φ(τ)は、以下の式数3で計算される。   When the total level increment value of each scale tone in a certain frame time t is L (t), this autocorrelation φ (τ) is calculated by the following equation (3).

Figure 0005229998
ここで、Nは総フレーム数、τは時間遅れである。
Figure 0005229998
Here, N is the total number of frames, and τ is a time delay.

自己相関計算の概念図を、図5に示す。この図のように、時間遅れτがL(t)のピークの周期の整数倍の時に、φ(τ)は大きな値となる。よって、ある範囲のτについてφ(τ)の最大値を求めれば、曲のテンポを求めることができる。   A conceptual diagram of autocorrelation calculation is shown in FIG. As shown in this figure, when the time delay τ is an integral multiple of the peak period of L (t), φ (τ) takes a large value. Therefore, if the maximum value of φ (τ) is obtained for a certain range of τ, the tempo of the music can be obtained.

自己相関を求めるτの範囲は、想定する曲のテンポ範囲によって変えれば良い。例えば、メトロノーム記号で四分音符=30から300の範囲を計算するならば、自己相関を計算する範囲は、0.2秒から2秒となる。時間(秒)からフレームへの変換式は、以下の数4式に示す通りとなる。   The range of τ for obtaining the autocorrelation may be changed according to the assumed tempo range of the song. For example, if the range of quarter note = 30 to 300 is calculated with a metronome symbol, the range for calculating the autocorrelation is 0.2 second to 2 seconds. The conversion formula from time (seconds) to frame is as shown in the following equation (4).

Figure 0005229998
Figure 0005229998

この範囲の自己相関φ(τ)が最大となるτをビート間隔としても良いが、必ずしもすべての曲で自己相関が最大となる時のτがビート間隔とはならないので、自己相関が極大値となる時のτからビート間隔の候補を求め(図3;ステップS104)、これら複数の候補からユーザにビート間隔を決定させるのが良い(図3;ステップS106)。   Τ with the maximum autocorrelation φ (τ) in this range may be set as the beat interval, but τ when autocorrelation is maximum in all songs is not necessarily the beat interval, so the autocorrelation is the maximum value. It is preferable to obtain beat interval candidates from τ at a certain time (FIG. 3; step S104), and let the user determine the beat interval from these multiple candidates (FIG. 3; step S106).

このようにしてビート間隔が決定したら(決定したビート間隔をτmaxとする)、まず最初に先頭のビート位置を決定する。 When the beat interval is determined in this way (the determined beat interval is set to τ max ), the head beat position is first determined.

先頭のビート位置の決定方法を、図6を用いて説明する。図6の上段はフレーム時間tにおける各音階音のレベル増分値の合計L(t)で、下段M(t)は決定したビート間隔τmaxの周期で値を持つ関数である。式で表すと、下式数5に示すようになる。 A method for determining the first beat position will be described with reference to FIG. The upper part of FIG. 6 is a total L (t) of the level increment values of each tone at the frame time t, and the lower part M (t) is a function having a value at the determined beat interval τ max . This is expressed by the following equation (5).

Figure 0005229998
Figure 0005229998

この関数M(t)を、0からτmax−1の範囲でずらしながら、L(t)とM(t)の相互相関を計算する。 The cross correlation between L (t) and M (t) is calculated while shifting this function M (t) in the range of 0 to τ max −1.

相互相関r(s)は、上記M(t)の特性から、下式数6で計算できる。   The cross-correlation r (s) can be calculated by the following equation 6 from the characteristic of M (t).

Figure 0005229998
Figure 0005229998

この場合のnは、最初の無音部分の長さに応じて適当に決めれば良い(図6の例では、n=10)。   In this case, n may be determined appropriately according to the length of the first silent portion (n = 10 in the example of FIG. 6).

r(s)をsが0からτmax−1の範囲で求め、r(s)が最大となるsを求めれば、このsのフレームが最初のビート位置である。 If r (s) is obtained in the range of s from 0 to τ max −1, and s at which r (s) is maximized is obtained, this s frame is the first beat position.

最初のビート位置が決まったら、それ以降のビートの位置を1つずつ決定していく(図3;ステップS108)。   When the first beat position is determined, the subsequent beat positions are determined one by one (FIG. 3; step S108).

その方法を、図7を用いて説明する。図7の三角印の位置に先頭のビートが見つかったとする。2番目のビート位置は、この先頭のビート位置からビート間隔τmaxだけ離れた位置を仮のビート位置とし、その近辺でL(t)とM(t)が最も相関が取れる位置から決定する。つまり、先頭のビート位置をbとするとき、以下の式のr(s)が最大となるようなsの値を求める。この式のsは仮のビート位置からのずれで、以下の式数7の範囲の整数とする。Fは揺らぎのパラメータで0.1程度の値が適当であるが、テンポの揺らぎの大きい曲では、もっと大きな値にしてもよい。nは5程度でよい。 The method will be described with reference to FIG. Assume that the first beat is found at the position of the triangle in FIG. The second beat position is determined from a position where L (t) and M (t) are most correlated in the vicinity of the temporary beat position at a position separated by a beat interval τ max from the first beat position. That is, when the leading beat position is b 0 , the value of s is determined so that r (s) in the following expression is maximized. In this equation, s is a deviation from the temporary beat position, and is an integer in the range of Equation 7 below. F is a fluctuation parameter, and a value of about 0.1 is appropriate. However, a larger value may be used for a song with a large tempo fluctuation. n may be about 5.

kは、sの値に応じて変える係数で、例えば図8のような正規分布とする。   k is a coefficient that changes in accordance with the value of s, and has a normal distribution as shown in FIG. 8, for example.

Figure 0005229998
Figure 0005229998

r(s)が最大となるようなsの値が求まれば、2番目のビート位置bは、下式数8で計算される。 If the value of s that maximizes r (s) is obtained, the second beat position b 1 is calculated by the following equation (8).

Figure 0005229998
Figure 0005229998

以降、同じようにして3番目以降のビート位置も求めることができる。   Thereafter, the third and subsequent beat positions can be obtained in the same manner.

テンポがほとんど変わらない曲ではこの方法でビート位置を曲の終わりまで求めることができる。   For songs with almost the same tempo, the beat position can be obtained until the end of the song in this way.

以上のようにして、各ビートの位置が決定したら、この結果をバッファ30に保存すると共に、検出した結果を表示する。   When the position of each beat is determined as described above, the result is stored in the buffer 30 and the detected result is displayed.

次に、拍子および小節の検出について説明する。   Next, the detection of time signature and measure will be described.

これまでの処理で、ビートの位置が確定しているので、今度は、ビート毎の音の変化度合いを求める。ビート毎の音の変化度合いは、音階音レベル検出部が出力した、フレーム毎の各音階音のレベルから計算する。   Since the position of the beat has been determined by the processing so far, the degree of change in sound for each beat is obtained next time. The degree of change in sound for each beat is calculated from the level of each scale sound for each frame output from the scale sound level detector.

j番目のビートのフレーム数をbとし、その前後のビートのフレームをbj−1、bj+1とする時、j番目のビートのビート毎の音の変化度合いは、フレームbj−1からb−1までのフレームの各音階音のレベルの平均とフレームbからbj+1−1までのフレームの各音階音のレベルの平均を計算し、その増分値から各音階音のビート毎の音の変化度合いを求め、それらをすべての音階音で合計して計算することができる。 When the number of frames of the j-th beat is b j and the frames of the beats before and after the j-th beat are b j−1 and b j + 1 , the degree of change in sound for each beat of the j-th beat is from the frame b j−1. The average of the levels of each scale in the frames up to b j −1 and the average of the levels of each scale in the frames from b j to b j + 1 −1 are calculated. The degree of change in sound can be obtained and calculated by summing up all the scales.

つまり、フレーム時間tにおけるi番目の音階音のレベルをL(t)とするとき、j番目のビートのi番目の音階音のレベルの平均Lavgi(j)は、下式数9であるから、j番目のビートのi番目の音階音のビート毎の音の変化度合いBaddi(j)は、下式数10に示すようになる。 That is, when the level of the i-th scale sound at the frame time t is L i (t), the average level L avg i (j) of the i-th scale sound level of the j-th beat is expressed by the following equation (9). Therefore, the sound change degree B addi (j) for each beat of the i-th tone of the j-th beat is expressed by the following equation (10).

Figure 0005229998
Figure 0005229998

Figure 0005229998
Figure 0005229998

よって、j番目のビートのビート毎の音の変化度合いB(j)は、下式数11に示すようになる。ここで、Tは音階音の総数である。   Therefore, the sound change degree B (j) for each beat of the j-th beat is as shown in the following equation (11). Here, T is the total number of scale sounds.

Figure 0005229998
Figure 0005229998

図9の最下段は、このビート毎の音の変化度合いである。このビート毎の音の変化度合いから拍子と1拍目の位置を求める。   The bottom row in FIG. 9 shows the degree of change in sound for each beat. The time signature and the position of the first beat are obtained from the degree of change in sound for each beat.

拍子は、ビート毎の音の変化度合いの自己相関から求める。一般的に音楽は1拍目で音が変わることが多いと考えられるので、このビート毎の音の変化度合いの自己相関から拍子を求めることができる。例えば、下式数12に示す自己相関φ(τ)を求める式から、ビート毎の音の変化度合いB(j)の自己相関φ(τ)を遅れτが、2から4の範囲で求め、自己相関φ(τ)が最大となる遅れτを拍子の数とする。   The time signature is obtained from the autocorrelation of the degree of sound change for each beat. In general, it is considered that the sound often changes in the first beat, so the time signature can be obtained from the autocorrelation of the sound change degree for each beat. For example, the autocorrelation φ (τ) of the sound change degree B (j) for each beat is determined in the range of 2 to 4 from the formula for obtaining the autocorrelation φ (τ) shown in the following equation (12). The delay τ that maximizes the autocorrelation φ (τ) is defined as the number of beats.

Figure 0005229998
Figure 0005229998

Nは、総ビート数、τ=2〜4の範囲でφ(τ)を計算し、φ(τ)が最大となるτを拍子の数とする。   N is the total number of beats, and φ (τ) is calculated in the range of τ = 2 to 4, and τ at which φ (τ) is the maximum is the number of beats.

次に1拍目を求めるが、これは、ビート毎の音の変化度合いB(j)がもっとも大きい箇所を1拍目とする。つまり、φ(τ)が最大となるτをτmax、下式数13のX(k)が最大となるkをkmaxとするとき、kmax番目のビートが最初の1拍目の位置となり、以降、τmaxを足したビート位置が1拍目となる。 Next, the first beat is obtained. This is the position where the sound change degree B (j) for each beat is the largest. That is, when phi (tau) is maximum tau and tau max, the k of X (k) is maximum the following equation number 13 and k max, k max th beat becomes the position of the first first beat Thereafter, the beat position obtained by adding τ max is the first beat.

Figure 0005229998
maxは、τmax・n+k<Nの条件で最大となるn
Figure 0005229998
n max is the maximum n under the condition of τ max · n + k <N

以上のようにして、拍子及び1拍目の位置(小節線の位置)が決定したら、この結果をバッファ40に保存する。もちろん、検出した結果を画面表示しても良い。   When the time signature and the position of the first beat (bar line position) are determined as described above, the result is stored in the buffer 40. Of course, the detected result may be displayed on the screen.

以上の前提例構成により、人間が演奏したテンポの揺らぐ演奏の音響信号から、曲全体の平均的なテンポと正確なビート(拍)の位置、さらに曲の拍子と1拍目の位置を検出することが可能となる。   With the above premise configuration, the average tempo and accurate beat (beat) position of the entire song, and the time signature and the first beat position of the song are detected from the acoustic signal of the performance of the tempo performed by a human. It becomes possible.

図10は、本発明のコード名検出装置の全体ブロック図である。同図において、ビート検出及び小節検出の構成は、前提例構成と基本的に同じであり、同一構成において、テンポ検出用とコード検出用の構成について、上記前提例構成の場合と異なるものもあるので、数式等を除き、同じ説明が重なるが、以下に示す。   FIG. 10 is an overall block diagram of the code name detection apparatus of the present invention. In the figure, the configuration of beat detection and measure detection is basically the same as the premise configuration, and in the same configuration, the tempo detection and chord detection configurations are different from those of the premise configuration. Therefore, the same description overlaps except for mathematical formulas and the like, and is shown below.

同図によれば、本コード名検出装置の構成は、音響信号を入力する入力部1と、入力された音響信号から、所定の時間間隔で、ビート検出に適したパラメータを使ってFFT演算を行い、所定の時間毎の各音階音のレベルを求めるビート検出用音階音レベル検出部2と、この所定の時間毎の各音階音のレベルの増分値をすべての音階音について合計して、所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計を求め、この所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出部3と、このビート毎の各音階音のレベルの平均値を計算し、このビート毎の各音階音の平均レベルの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出部4と、上記入力された音響信号から、先のビート検出の時とは異なる別の所定の時間間隔で、コード検出に適したパラメータを使ってFFT演算を行い、所定の時間毎の各音階音のレベルを求めるコード検出用音階音レベル検出部5と、検出した各音階音のレベルのうち、各小節内における低域側の音階音のレベルからベース音を検出するベース音検出部6と、検出したベース音と各音階音のレベルから各小節のコード名を決定するコード名決定部7と、検出した全てのコード毎に、コード位置、ベース域音階音強度、ベース音、コード音階音強度、コード構成音、コード構成音数、コード名を記憶するコード情報記憶部8と、上記コード名決定部7で決定されたコード名乃至コード構成音、及び/又はベース音を表示する表示部9と、入力音響信号及び決定された上記コードを演奏する演奏部10と、該演奏部10の両出力の音量バランスを調整する調整部11と、コード名乃至コード構成音を変更する変更部12と、該変更部11によるコード名乃至コード構成音の変更に基づき、コード情報記憶部8に記憶されたコード音階音強度及びコード構成音を参照して、コード構成音、コード構成音数、コード名を、コード名決定部7に変更させ、その変更情報を上記コード情報記憶部8に再記憶させると共に、表示部9にコード名乃至コード構成音を再表示させる再設定部13とを有している。なお、同図では入力部1に入力された音響信号は、別にバッファ10aにも格納され、後の演奏部10による演奏に用いられることになる。   According to the figure, the configuration of the code name detection apparatus is configured to perform an FFT operation using a parameter suitable for beat detection at a predetermined time interval from an input acoustic signal and an input acoustic signal. And a beat detection scale level detector 2 for obtaining the scale level for each predetermined time, and adding the increment value of each scale level for each predetermined time for all the scales The sum of the level increments indicating the degree of change in the overall sound for each time period is obtained, and from the sum of the level increment values indicating the degree of change in the overall sound for each predetermined time, the average beat interval and each The beat detection unit 3 that detects the position of the beat, the average value of the level of each scale sound for each beat, and the increment value of the average level of each scale sound for each beat are summed for all the scale sounds. , Changes in overall sound for each beat A value indicating the match is obtained, and from the value indicating the degree of change in the overall sound for each beat, the measure detecting unit 4 for detecting the time signature and the position of the measure line, and the time of the previous beat detection from the input acoustic signal. A chord detection scale sound level detection unit 5 that performs an FFT operation using a parameter suitable for chord detection at a predetermined time interval different from the above and obtains the level of each scale sound for each predetermined time; Among the levels of each scale, the bass sound detection unit 6 that detects a bass sound from the level of the low-frequency scale sound in each measure, and the chord name of each measure from the detected bass sound and the level of each scale sound Chord information for storing a chord position, a bass scale tone intensity, a bass tone, a chord scale tone intensity, a chord constituent tone, a chord constituent tone number, and a chord name for every chord detected Storage unit 8 A display unit 9 for displaying the chord name or chord component sound and / or bass sound determined by the chord name determination unit 7, a performance unit 10 for playing the input sound signal and the determined chord, and the performance An adjustment unit 11 that adjusts the volume balance of both outputs of the unit 10; a change unit 12 that changes a chord name or chord constituent sound; and a chord information storage unit based on a change of the chord name or chord constituent sound by the change unit 11 The chord scale sound intensity and chord constituent sound stored in FIG. 8 are referred to, the chord constituent sound, the number of chord constituent sounds, and the chord name are changed by the chord name determining section 7, and the change information is sent to the chord information storing section 8. And a resetting unit 13 for re-displaying the chord name or chord constituent sound on the display unit 9. In the figure, the acoustic signal input to the input unit 1 is also stored separately in the buffer 10a and used for performance by the subsequent performance unit 10.

上記コード情報記憶部8は、コンピュータの内部又は外部記憶装置で構成されており、上述のように、検出した全てのコード毎に、コード位置、ベース域音階音強度、ベース音、コード音階音強度、コード構成音、コード構成音数、コード名を記憶する機能を有している。   The chord information storage unit 8 is configured by an internal or external storage device of a computer, and as described above, for each detected chord, chord position, bass range tone intensity, bass tone, chord tone intensity Have a function of storing a chord constituent sound, the number of chord constituent sounds, and a chord name.

上記表示部9は、コンピュータのディスプレイで構成されており、上述のように、上記コード名決定部7で決定されたコード名乃至コード構成音、及び/又はベース音を表示する機能を有している。   The display unit 9 is composed of a computer display, and has a function of displaying the chord name or chord constituent sound determined by the chord name determining unit 7 and / or the bass sound as described above. Yes.

上記演奏部10は、コンピュータのオーディオ出力部(或いは該コンピュータにつながれたMIDIインターフェースから外部の楽音出力部)で構成されており、上述の様に、入力部1で入力されバッファ10に格納された音響信号と、コード名決定部7で決定されたコードとを一緒に外部に音声として出力する機能を有している。   The performance section 10 is composed of an audio output section of a computer (or an external musical sound output section from a MIDI interface connected to the computer), and is input from the input section 1 and stored in the buffer 10 as described above. The sound signal and the code determined by the code name determination unit 7 are output together as a sound.

上記調整部11は、同じくコンピュータ上で稼働するプログラムによってディスプレイ上に表示されたスライダのある操作子(後述する図15を参照)と該コンピュータに接続されたポインティングデバイスで構成されており、演奏部10の入力音響信号とコードの両出力の音量バランスを調整する機能(後述する図17を参照)を有している。   The adjustment unit 11 includes an operator having a slider (see FIG. 15 described later) displayed on a display by a program that also runs on the computer, and a pointing device connected to the computer. It has a function of adjusting the volume balance between the 10 input acoustic signals and the output of both chords (see FIG. 17 described later).

上記変更部12は、同じくコンピュータのディスプレイに表示されたカーソルと該コンピュータに接続されたポインティングデバイスで構成されており、上述のように、表示部9で表示されたコード名乃至コード構成音を変更(多くは構成音の数を変更)する構成である。   The change unit 12 includes a cursor displayed on the computer display and a pointing device connected to the computer. As described above, the change unit 12 changes the chord name or the chord sound displayed on the display unit 9. (Many change the number of constituent sounds).

上記再設定部13は、コード名検出用プログラムが読み込まれて実行され、次に説明する処理を行うコンピュータのCPUにより構成されており、上述のように、変更部12によるコード名乃至コード構成音の変更に基づき、コード情報記憶部8に記憶されたコード音階音強度及びコード構成音を参照して、コード構成音、コード構成音数、コード名を、コード名決定部7に変更させ、その変更情報を上記コード情報記憶部8に再記憶させると共に、少なくとも表示部9にコード名乃至コード構成音を再表示させる機能を有している。その他にも、上記演奏部10でもう一度音響信号とコードとを演奏させても良い。   The resetting unit 13 is configured by a CPU of a computer that reads and executes a code name detection program and performs the processing described below. The chord scale sound intensity and chord constituent sound stored in the chord information storage section 8 are referred to, the chord constituent sound, the chord constituent sound number, and the chord name are changed by the chord name determining section 7, The change information is re-stored in the chord information storage unit 8 and at least the display unit 9 has a function of re-displaying the chord name or chord constituent sound. In addition, an acoustic signal and a chord may be played again by the performance unit 10.

音楽音響信号を入力する上記入力部1は、コード検出をする対象の音楽音響信号を入力する部分であるが、基本的構成は上記実施例1の入力部1と同じであるので、その詳細な説明は省略する。ただし、通常センタに定位されるボーカルが後のコード検出でじゃまになる場合は、右チャンネルの波形と左チャンネルの波形を引き算することでボーカルキャンセルするようにしても良い。   The input unit 1 for inputting a music acoustic signal is a part for inputting a music acoustic signal to be subjected to chord detection, but the basic configuration is the same as that of the input unit 1 of the first embodiment. Description is omitted. However, if vocals normally localized at the center are disturbed by later code detection, vocal cancellation may be performed by subtracting the waveform of the right channel and the waveform of the left channel.

このディジタル信号は、ビート検出用音階音レベル検出部2とコード検出用音階音レベル検出部5とに入力される。これらの音階音レベル検出部は、どちらも上記図2の各部から構成され、構成はまったく同じなので、同じものをパラメータだけを変えて再利用できる。   This digital signal is input to the beat detection scale level detector 2 and the chord detection scale level detector 5. Each of these scale sound level detection units is composed of the respective units shown in FIG. 2 and has the same configuration. Therefore, the same components can be reused by changing only the parameters.

そしてその構成として使用される波形前処理部20は、上記と同様な構成であり、音楽音響信号の上記入力部1からの音響信号を今後の処理に適したサンプリング周波数にダウンサンプリングする。ただし、ダウンサンプリング後のサンプリング周波数、つまり、ダウンサンプリングレートは、ビート検出用とコード検出用で変えるようにしても良いし、ダウンサンプリングする時間を節約するために同じにしても良い。   The waveform pre-processing unit 20 used as the configuration has the same configuration as described above, and down-samples the acoustic signal from the input unit 1 of the music acoustic signal to a sampling frequency suitable for future processing. However, the sampling frequency after downsampling, that is, the downsampling rate, may be changed for beat detection and chord detection, or may be the same in order to save time for downsampling.

ビート検出用の場合は、ビート検出に使う音域によってダウンサンプリングレートを決定する。シンバル、ハイハット等の高音域のリズム楽器の演奏音をビート検出に反映させるには、ダウンサンプリング後のサンプリング周波数を高い周波数にする必要があるが、ベース音とバスドラム、スネアドラム等の楽器音と中音域の楽器音から主にビート検出させる場合には、以下のコード検出時と同じダウンサンプリングレートで構わない。   In the case of beat detection, the downsampling rate is determined by the range used for beat detection. In order to reflect the performance sound of high-frequency rhythm instruments such as cymbals and hi-hats in beat detection, the sampling frequency after down-sampling needs to be set to a high frequency, but the bass sound and instrument sounds such as bass drum and snare drum In the case of detecting beats mainly from instrument sounds in the middle range, the same downsampling rate as that in the following chord detection may be used.

コード検出用の波形前処理部のダウンサンプリングレートは、コード検出音域によって変える。コード検出音域とは、コード名決定部でコード検出するときに使う音域のことである。例えばコード検出音域をC3からA6(C4が中央のド)とする場合、A6の基本周波数は約1760Hz(A4=440Hzとした場合)となるので、ダウンサンプリング後のサンプリング周波数はナイキスト周波数が1760Hz以上となる、3520Hz以上にすれば良い。これから、ダウンサンプリングレートは、元のサンプリング周波数が44.1kHz(音楽CD)の場合、1/12程度にすれば良いことになる。この時、ダウンサンプリング後のサンプリング周波数は、3675Hzとなる。   The down-sampling rate of the chord detection waveform pre-processing unit varies depending on the chord detection range. The chord detection tone range is a tone range used when chord detection is performed by the chord name determination unit. For example, if the chord detection sound range is C3 to A6 (C4 is the center), the basic frequency of A6 is about 1760 Hz (when A4 = 440 Hz), so the sampling frequency after downsampling is a Nyquist frequency of 1760 Hz or higher. It may be 3520 Hz or higher. From this, the downsampling rate may be about 1/12 when the original sampling frequency is 44.1 kHz (music CD). At this time, the sampling frequency after downsampling is 3675 Hz.

ダウンサンプリングの処理は、通常、ダウンサンプリング後のサンプリング周波数の半分の周波数であるナイキスト周波数(今の例では1837.5Hz)以上の成分をカットするローパスフィルタを通した後に、データを読み飛ばす(今の例では波形サンプルの12個に11個を破棄する)ことによって行われる。これについては、前提例構成に説明したことと同じ理由による。   In the downsampling process, data is skipped after passing through a low-pass filter that cuts off components above the Nyquist frequency (1837.5 Hz in this example), which is usually half the sampling frequency after downsampling (now In this example, 11 out of 12 waveform samples are discarded). This is for the same reason as described in the premise configuration.

このようにして波形前処理部20によるダウンサンプリングが終了したら、所定の時間間隔で、波形前処理部の出力信号をFFT演算部21により、FFT(高速フーリエ変換)する。   When the downsampling by the waveform preprocessing unit 20 is completed in this manner, the output signal of the waveform preprocessing unit is subjected to FFT (Fast Fourier Transform) by the FFT calculation unit 21 at predetermined time intervals.

FFTのパラメータ(FFTポイント数とFFT窓のシフト量)は、ビート検出時とコード検出時で異なる値とする。これは、周波数分解能を上げるためにFFTポイント数を大きくすると、FFT窓のサイズが大きくなってしまい、より長い時間から1回のFFTを行うことになり、時間分解能が低下する、というFFTの特性によるものである(つまりビート検出時は周波数分解能を犠牲にして時間分解能をあげるのが良い)。窓のサイズと同じだけの長さの波形を使わないで、窓の一部だけに波形データをセットし、残りは0で埋めることによってFFTポイント数を大きくしても時間分解能が悪くならない方法もあるが、本実施例のケースでは、低音側のパワーも正しく検出するためにある程度の波形サンプル数は必要である。   The FFT parameters (the number of FFT points and the shift amount of the FFT window) are different values at the time of beat detection and code detection. This is because if the number of FFT points is increased to increase the frequency resolution, the size of the FFT window increases, and one FFT is performed from a longer time, resulting in a decrease in time resolution. (In other words, it is better to increase the time resolution at the expense of frequency resolution when detecting beats). A method that does not deteriorate the time resolution even if the number of FFT points is increased by setting waveform data to only a part of the window and filling the rest with 0 without using a waveform with the same length as the window size. However, in the case of the present embodiment, a certain number of waveform samples are necessary in order to correctly detect the power on the bass side.

以上のようなことを考慮し、本実施例では、ビート検出時はFFTポイント数512、窓のシフトは32サンプルで、0埋めなし、コード検出時はFFTポイント数8192、窓のシフトは128サンプルで、波形サンプルは一度のFFTで1024サンプル使うようにした。このような設定でFFT演算を行うと、ビート検出時は、時間分解能約8.7ms、周波数分解能約7.2Hz、コード検出時は、時間分解能約35ms、周波数分解能約0.4Hzとなる。今レベルを求めようとしている音階音は、C1からA6の範囲であるので、コード検出時の周波数分解能約0.4Hzは、最も周波数差の小さいC1とC#1の基本周波数の差、約1.9Hzにも対応できる。また、四分音符=300のテンポの曲で32分音符の長さが25msであることを考えると、ビート検出時の時間分解能約8.7msは、十分な値であることがわかる。   In consideration of the above, in this embodiment, the number of FFT points is 512 at the time of beat detection, the window shift is 32 samples, 0 padding is not performed, the number of FFT points is 8192 at the time of code detection, and the window shift is 128 samples. Then, 1024 samples were used for the waveform sample in one FFT. When FFT calculation is performed with such a setting, the time resolution is about 8.7 ms and the frequency resolution is about 7.2 Hz when the beat is detected, and the time resolution is about 35 ms and the frequency resolution is about 0.4 Hz when the code is detected. Since the scale tone for which the level is to be obtained is in the range from C1 to A6, the frequency resolution of about 0.4 Hz at the time of detecting the chord is the difference between the basic frequency of C1 and C # 1 having the smallest frequency difference, about 1 .9 Hz is also supported. Considering that the length of a 32nd note is 25 ms in a song with a tempo of quarter note = 300, it can be seen that the time resolution of about 8.7 ms at the time of beat detection is a sufficient value.

このようにして、所定の時間間隔毎にFFT演算が行われ、その実数部と虚数部のそれぞれを二乗したものの和の平方根からパワーが計算され、その結果がレベル検出部22に送られる。   In this way, the FFT operation is performed at predetermined time intervals, the power is calculated from the square root of the sum of the squares of the real part and the imaginary part, and the result is sent to the level detector 22.

レベル検出部22では、FFT演算部21で計算されたパワー・スペクトルから、各音階音のレベルを計算する。FFTは、サンプリング周波数をFFTポイント数で割った値の整数倍の周波数のパワーが計算されるだけであるので、このパワー・スペクトルから各音階音のレベルを検出するために、前提例構成と同様な処理を行う。すなわち、音階音を計算するすべての音(C1からA6)について、その各音の基本周波数の上下50セントの範囲(100セントが半音)の周波数に相当するパワー・スペクトルの内、最大のパワーを持つスペクトルのパワーをこの音階音のレベルとする。   The level detector 22 calculates the level of each scale sound from the power spectrum calculated by the FFT calculator 21. Since FFT only calculates the power of a frequency that is an integer multiple of the value obtained by dividing the sampling frequency by the number of FFT points, in order to detect the level of each scale tone from this power spectrum, the same as in the premise configuration Perform proper processing. That is, for all the sounds (C1 to A6) for which the scale sound is calculated, the maximum power in the power spectrum corresponding to frequencies in the range of 50 cents above and below the fundamental frequency of each sound (100 cents is a semitone) is obtained. Let the power of the spectrum it has be the scale level.

すべての音階音についてレベルが検出されたら、これをバッファに保存し、波形の読み出し位置を所定の時間間隔(先の例ではビート検出時は32サンプル、コード検出時は128サンプル)進めて、FFT演算部21とレベル検出部22の処理を波形の終わりまで繰り返す。   When the levels are detected for all the scale sounds, this is stored in the buffer, and the waveform read position is advanced by a predetermined time interval (32 samples at the time of beat detection and 128 samples at the time of chord detection in the previous example), and FFT is performed. The processing of the calculation unit 21 and the level detection unit 22 is repeated until the end of the waveform.

以上により、音楽音響信号の入力部1に入力された音響信号の、所定時間毎の各音階音のレベルが、ビート検出用とコード検出用の2種類のバッファ23及び50に保存される。   As described above, the level of each scale sound of the sound signal input to the music sound signal input unit 1 for each predetermined time is stored in the two types of buffers 23 and 50 for beat detection and chord detection.

次に、図10のビート検出部3及び小節検出部4の構成については、前提例構成のビート検出部3及び小節検出部4と同じ構成なので、その詳細な説明は、ここでは、省略する。   Next, since the configurations of the beat detection unit 3 and the bar detection unit 4 in FIG. 10 are the same as those of the beat detection unit 3 and the bar detection unit 4 of the premise example configuration, detailed description thereof will be omitted here.

前提例構成と同様な構成と手順で、小節線の位置(各小節のフレーム番号)が確定したので、今度は各小節のベース音を検出する。   Since the position of the bar line (frame number of each bar) has been determined with the same configuration and procedure as the precondition example, the bass sound of each bar is detected this time.

ベース音は、コード検出用音階音レベル検出部5が出力した各フレームの音階音のレベルから検出する。   The bass sound is detected from the scale level of each frame output by the chord detection scale level detector 5.

図11に前提例構成の図4と同じ曲の同じ部分のコード検出用音階音レベル検出部5が出力した各フレームの音階音のレベルを示す。この図のように、コード検出用音階音レベル検出部5での周波数分解能は、約0.4Hzであるので、C1からA6のすべての音階音のレベルが抽出されている。   FIG. 11 shows the scale level of each frame output by the chord detection scale level detector 5 of the same part of the same composition as in FIG. As shown in this figure, since the frequency resolution in the chord detection scale sound level detector 5 is about 0.4 Hz, the levels of all the scale sounds C1 to A6 are extracted.

ベース音は、小節の前半と後半で異なる可能性があるので、ベース音検出部6により、各小節の前半と後半でそれぞれ検出する。前半と後半のベース音が同じ音のときは、小節のベース音としてこれを確定し、コードも小節全体で検出する。前半と後半で別の音のベース音が検出されたときは、コードも前半と後半に分けて検出する。場合によっては、分割する範囲を更に半分にまで(小節の4分の1まで)狭めてもよい。   Since the bass sound may be different between the first half and the second half of the measure, the bass sound detection unit 6 detects the first half and the second half of each measure. When the first half and the second half are the same, this is confirmed as the bass of the measure, and the chord is also detected in the entire measure. When different bass sounds are detected in the first half and the second half, the chord is also detected separately in the first half and the second half. In some cases, the range to be divided may be further reduced to half (up to a quarter of the bar).

ベース音は、ベース検出期間におけるベース検出音域の音階音のレベルの平均的な強さから求める。すなわちこれがベース音の強度である。   The bass sound is obtained from the average intensity of the scale sound level in the bass detection range during the bass detection period. That is, this is the intensity of the bass sound.

フレーム時間tにおけるi番目の音階音のレベルをL(t)とすると、フレームfからfのi番目の音階音の平均的なレベルLavgi(f,f)は、下式数14で計算できる。 When the level of the i-th note in the scale at frame time t and L i (t), the average level of the i th scale notes of f e from the frame f s L avgi (f s, f e) is the following formula It can be calculated by Equation 14.

Figure 0005229998
Figure 0005229998

この平均的なレベルをベース検出音域、例えばC2からB3の範囲で計算し、平均的なレベルが最も大きな音階音をベース音として、ベース音検出部6は、決定する。ベース検出音域に音が含まれない曲や無音部分で間違ってベース音を検出しないために、適当な閾値を設定し、検出したベース音の平均的なレベルが、この閾値以下の場合は、ベース音を検出しないようにしてもよい。また、後のコード検出でベース音を重要視する場合には、検出したベース音がベース検出期間中継続してあるレベル以上を保っているかどうかをチェックするようにして、より確実なものだけをベース音として検出するようにしてもよい。さらに、ベース検出音域中、平均的なレベルが最も大きい音階音をベース音として決定するのではなく、この各音名の平均的なレベルを12の音名毎に平均し、この音名毎のレベルが最も大きな音名をベース音名として決定し、その音名を持つベース検出音域の中の音階音で、平均的なレベルが最も大きい音階音をベース音として決定するようにしてもよい。   This average level is calculated in the bass detection range, for example, in the range from C2 to B3, and the bass sound detection unit 6 determines the scale tone having the highest average level as the bass sound. An appropriate threshold is set to prevent the bass sound from being erroneously detected in songs or silences that do not include sound in the bass detection range, and if the average level of the detected bass sound is below this threshold, Sound may not be detected. In addition, when the bass sound is important in later chord detection, it is checked whether the detected bass sound keeps a certain level or more continuously during the bass detection period, and only the more reliable ones are checked. You may make it detect as a bass sound. Further, instead of determining the scale tone having the highest average level in the bass detection range as the base tone, the average level of each pitch name is averaged for every 12 pitch names, The pitch name having the highest level may be determined as the bass pitch name, and the scale tone having the highest average level among the scale sounds in the bass detection range having the pitch name may be determined as the bass tone.

ベース音が決定したら、この結果をバッファ60に保存すると共に、ベース検出結果を画面表示して、間違っている場合にはユーザに修正させるようにしてもよい。また、曲によってベース音域が変わることも考えられるので、ユーザがベース検出音域を変更できるようにしてもよい。   When the bass sound is determined, the result may be stored in the buffer 60, and the bass detection result may be displayed on the screen so that the user can correct it if it is incorrect. Further, since the bass range may be changed depending on the song, the user may be able to change the bass detection range.

図12に、ベース音検出部6によるベース検出結果の表示例を示す。   FIG. 12 shows a display example of the bass detection result by the bass sound detection unit 6.

次にコード名決定部7によるコード検出処理であるが、該コード検出処理も、同じようにコード検出期間における各音階音の平均的なレベルを計算することによって決定する。すなわちこれがコードの強度である。   Next, the chord detection process by the chord name determination unit 7 is also determined by calculating the average level of each tone in the chord detection period. In other words, this is the strength of the cord.

本実施例では、コード検出期間とベース検出期間は同一としている。コード検出音域、例えばC3からA6の各音階音のコード検出期間における平均的なレベルを計算し、これが大きな値を持つ音階音から順に数個の音名を検出し、これとベース音の音名からコード名候補を抽出する。   In this embodiment, the code detection period and the base detection period are the same. The average level in the chord detection period, for example, the C3 to A6 scales in the chord detection period is calculated, and several pitch names are detected in order from the scale that has the largest value, and the pitch names of the bass sounds Extract code name candidates from.

上記コード情報記憶部8は、検出した上記データを記憶する構成であり、上記コンピュータの内部又は外部記憶装置で構成される。   The code information storage unit 8 is configured to store the detected data, and is configured by an internal or external storage device of the computer.

該コード情報記憶部8には、コード名検出の過程において、コード位置にはベース音検出期間の最初のフレーム番号(コード1、コード2、……)が記憶され、ベース域音階音強度には、ベース音域内であって、ベース音検出期間のC〜Bまでの各12音の強度の区間平均が記憶される。フレーム番号はサンプルにも変換できるのでサンプル番号で記憶しても良い。また、ベース音には、ベース音検出期間において検出されたベース音の音階番号が記憶される。コード音階音強度には、ベース検出期間のC〜Bまでの各12音の強度の区間平均が記憶され、コード構成音には、ベース検出期間において抽出されたコード構成音が記憶される。そしてコード名には、決定されたコード名(或いはそれに対応した番号でも良い)が記憶される。   In the chord name detection process, in the chord name detection process, the chord position stores the first frame number (chord 1, chord 2,...) Of the bass tone detection period, The average of the intervals of the 12 sounds in the bass sound range from C to B in the bass sound detection period is stored. Since the frame number can also be converted into a sample, it may be stored as a sample number. The bass sound stores the scale number of the bass sound detected during the bass sound detection period. The chord scale sound intensity stores a section average of the intensity of 12 sounds from C to B in the base detection period, and the chord constituent sound stores the chord constituent sound extracted in the base detection period. In the code name, the determined code name (or a corresponding number) may be stored.

コード名決定部7は、コード情報記憶部8を参照してコード名を決定する。コード名決定部7はコードのタイプ(m、M7等)とコード構成音のルート音からの音程を保存したコード名データベースから、1つのコード名とそのコード構成音を検索する。そのコード構成音の平均強度を、コード情報記憶部8のコード音階音強度より算出する。全てのコードのコード構成音平均強度が最も大きいコード名を、その区間のコード名と決定する。このとき、コードのルート音(根音)や5度の音は、コードを演奏する楽器では省略されることがあるので、これらを含まなくてもコード名候補として抽出するようにする。ベース音を検出した場合には、このコード名候補のコード名にベース音の音名を加える。すなわち、コードのルート音とベース音が同じ音名であれば、そのままで良いし、異なる音名の場合は分数コードとする。また、コード構成音平均強度が比較的大きなものを複数表示して、ユーザーに選択させるようにしても良い。   The code name determination unit 7 refers to the code information storage unit 8 to determine the code name. The chord name determination unit 7 searches for one chord name and its chord constituent sound from a chord name database in which the chord type (m, M7, etc.) and the pitch from the root tone of the chord constituent sound are stored. The average intensity of the chord constituent sound is calculated from the chord scale sound intensity of the chord information storage unit 8. The chord name having the highest chord constituent sound average intensity of all chords is determined as the chord name of the section. At this time, the chord root sound (five tone) and the fifth sound may be omitted in the musical instrument playing the chord, so that even if they are not included, they are extracted as chord name candidates. When a bass tone is detected, the pitch name of the bass tone is added to the chord name of this chord name candidate. In other words, if the chord root sound and the bass sound have the same pitch name, they can be left as they are. Alternatively, a plurality of chord constituent sound average intensities may be displayed so that the user can select them.

上記方法では、抽出されるコード名候補が多すぎるという場合には、ベース音による限定を行ってもよい。つまり、ベース音が検出された場合には、コード名候補の中でそのルート音がベース音と同じ音名でないものは削除する。   In the above method, when there are too many code name candidates to be extracted, limitation by bass sound may be performed. That is, when a bass sound is detected, chord name candidates whose root sound is not the same as the base sound are deleted.

さらに、このコード構成音平均強度の計算に音楽的な知識を導入してもよい。例えば、各音階音のレベルを全フレームで平均し、それを12の音名毎に平均して各音名の強さを計算し、その強さの分布から曲の調を検出する。そして、調のダイアトニックコードにはコード構成音平均強度が大きくなるようにある定数を掛ける、あるいは、調のダイアトニックスケール上の音から外れた音を構成音に含むコードはその外れた音の数に応じてコード構成音平均強度が小さくなるようにする等が、考えられる。さらにコード進行のよくあるパターンをデータベースとして記憶しておき、それと比較することで、コード候補の中からよく使われる進行になるようなものはコード構成音平均強度が大きくなるようにある定数を掛けるようにしてもよい。   Furthermore, musical knowledge may be introduced into the calculation of the chord constituent sound average intensity. For example, the level of each musical note is averaged over all frames, and is averaged for every 12 pitch names to calculate the strength of each pitch name, and the key of the song is detected from the distribution of the strength. Then, the key diatonic chord is multiplied by a certain constant so that the average intensity of the chord constituent sound is increased, or the chord that includes the sound deviating from the sound on the key diatonic scale is included in the tone of the off sound. It is conceivable that the chord constituent sound average intensity is reduced according to the number. In addition, by storing a pattern of common chord progressions as a database and comparing it with the ones that are frequently used among chord candidates, a certain constant is applied so that the average intensity of chord constituent sounds increases. You may do it.

いずれにしても、コード名決定部7により、コード名が決定したら、この結果(変更情報)をバッファ70を介して、上記コード情報記憶部8に再記憶させる。   In any case, when the code name is determined by the code name determination unit 7, the result (change information) is re-stored in the code information storage unit 8 via the buffer 70.

本実施例では、入力音響信号は、サンプリング周波数44.1kHzの信号とする。そして、本実施例では拍子=4/4、小節位置は、図13のように検出されたものとする。同図の小節線位置の単位は、Sampleとする。   In this embodiment, the input acoustic signal is a signal having a sampling frequency of 44.1 kHz. In this embodiment, it is assumed that the time signature is 4/4 and the bar position is detected as shown in FIG. The unit of the bar line position in the figure is Sample.

この時、小節線位置、拍子、サンプリング周波数から曲のテンポは次のように計算できる。なお、テンポは1分間の四分音符の数であらわされる。   At this time, the tempo of the song can be calculated from the bar line position, time signature, and sampling frequency as follows. The tempo is expressed as the number of quarter notes per minute.

Figure 0005229998
Figure 0005229998

上記式数15のBarはn番目の小節線位置、Beatは拍子の分子、fsはサンプリング周波数である。上記数15より、本実施例では、Tempoは120となる。 Bar n is n-th measure line position of the above formula number 15, Beat the meter of the molecule, it fs is the sampling frequency. From the above formula 15, Tempo is 120 in this embodiment.

また、コード名を決定した結果を、図14に示す。同図は、本実施例におけるコード情報記憶部8の一部を示したものである。Bass、コード構成音の数字は、音名C〜Bまでを、0〜11で表したものである。−1は、コード構成音が存在しないことを意味する。コード構成音は最大7音までとする。またコード位置の単位は、Sampleとする。   FIG. 14 shows the result of determining the code name. This figure shows a part of the code information storage unit 8 in this embodiment. The numbers of Bass and chord constituent sounds are represented by 0 to 11 from pitch names C to B. -1 means that there is no chord constituent sound. The maximum number of chord constituent sounds is seven. The unit of the code position is assumed to be Sample.

コード名の検出が終わると、表示部9は、入力音響信号、レベル増分値、ビート位置、小節位置、コードを、図15のように、表示する。   When the chord name is detected, the display unit 9 displays the input sound signal, the level increment value, the beat position, the bar position, and the chord as shown in FIG.

またコード名決定部7は、検出されたコードに応じたコード演奏情報を作成し、バッファ70に記憶させる。   In addition, the chord name determination unit 7 creates chord performance information corresponding to the detected chord and stores it in the buffer 70.

次に演奏情報の作成について説明する。   Next, creation of performance information will be described.

演奏情報のデータ構造を、図16に示す。これはSMF(スタンダードMIDIファイル)に準じており、その説明は省略する。同図において、ヘッダデータには、ヘッダデータを示す識別子と、トラック数と、四分音符分解能を含む。   The data structure of the performance information is shown in FIG. This conforms to SMF (standard MIDI file), and its description is omitted. In the figure, the header data includes an identifier indicating the header data, the number of tracks, and a quarter note resolution.

また、トラックヘッダデータには、トラックヘッダデータを示す識別子と、データサイズと、イベントデータを含んでいる。このイベントデータはイベントタイム、ステータス、データから成る。   The track header data includes an identifier indicating the track header data, a data size, and event data. This event data consists of event time, status, and data.

データの数はステータスに応じて異なる。例えば、発音の場合、ステータス=0×90、データ1は音程、データ2は発音の強さ(音量)を表す。0×90の0はMIDIチャネル、9は発音を表す。さらに発音停止の場合は、ステータス=0×80、データ1は音程、データ2は発音停止の強さとなる。(発音停止の強さとは、鍵盤楽器において、押下した鍵盤が戻るときの速さを表す。)   The number of data varies depending on the status. For example, in the case of pronunciation, status = 0 × 90, data 1 represents the pitch, and data 2 represents the strength of the pronunciation (volume). In 0x90, 0 represents a MIDI channel, and 9 represents sound generation. Further, when sound generation is stopped, status = 0 × 80, data 1 is the pitch, and data 2 is the sound generation stop strength. (The strength of sound generation stop represents the speed at which the pressed keyboard returns on the keyboard instrument.)

イベントタイムは、演奏開始からの経過時間を表す。単位はTickで、ヘッダデータで定義した四分音符分解能を用いる。イベントタイムの代わりにステップタイム(直前イベントからの経過時間)を用いても良い。   The event time represents an elapsed time from the start of performance. The unit is Tick, and the quarter note resolution defined by the header data is used. A step time (elapsed time from the previous event) may be used instead of the event time.

まずコード開始位置、コード終了位置をSampleからTickへ下式数16で変換する。   First, the code start position and code end position are converted from Sample to Tick by the following equation (16).

Figure 0005229998
Figure 0005229998

Chordは、n番目のコードのコード開始または終了位置を、fsはサンプリング周波数を、Tempoは曲のテンポを、Divは四分音符分解能を、各示す。 Chord n indicates the chord start or end position of the nth chord, fs indicates the sampling frequency, Tempo indicates the tempo of the song, and Div indicates the quarter note resolution.

各コードの開始位置は、夫々0、1920、3840、5760、7680、9600Tickに変換される。該Tickは整数である必要があるので、小数点以下を四捨五入すると、各コードの終了位置は、夫々1920、3840、5760、7680、9600、11520となる。   The start position of each code is converted to 0, 1920, 3840, 5760, 7680, and 9600 Tick, respectively. Since the Tick needs to be an integer, the end position of each code becomes 1920, 3840, 5760, 7680, 9600, and 11520, respectively, by rounding off after the decimal point.

コードCのイベントデータには、音程60(中央ド)、64(ミ)、67(ソ)の各発音イベントと、各発音停止イベントを、書き込む。   In the event data of chord C, sounding events of pitches 60 (center), 64 (mi), 67 (so) and sounding stop events are written.

各発音イベントのイベントタイムは、上記数16より求められる、Tickに変換したコード開始位置となる。   The event time of each sounding event is the chord start position converted into Tick, obtained from the above equation (16).

また各発音イベントのステータスは、MIDIに準じて、0×90とする。   The status of each sounding event is 0x90 according to MIDI.

各発音イベントのデータ1は、音程を表すので、夫々、0×3C、0×40、0×48となる。   Since the data 1 of each sounding event represents the pitch, it becomes 0 × 3C, 0 × 40, and 0 × 48, respectively.

各発音イベントのデータ2は、発音強さなので、任意の値とする。   The data 2 of each sounding event is an arbitrary value because it is sounding intensity.

発音停止イベントのイベントタイムは、発音時間がコード開始から終了までの9割程度になるようにする。これは、下式数17で求める。   The event time of the sound generation stop event is set to be about 90% from the start to the end of the chord. This is obtained by the following equation (17).

Figure 0005229998
Figure 0005229998

ChordSは、n番目のコードの開始位置、ChordEは、n番目のコードの終了位置を示す。初停止イベントタイムもTickなので、小数点以下を四捨五入する。すると、各発音停止イベントのイベントタイムは1728となる。各発音停止イベントのステータスはMIDIに準じて0×80とする。そして各発音停止イベントのデータ1は音程を表すので、夫々、0×3C、0×40、0×48となる。また各発音イベントのデータ2は、発音停止強さなので、任意の値とする。 ChordS n indicates the start position of the nth code, and ChordE n indicates the end position of the nth code. Since the first stop event time is also Tick, round off the decimal point. Then, the event time of each sound generation stop event is 1728. The status of each sound generation stop event is set to 0 × 80 according to MIDI. Since the data 1 of each sound generation stop event represents a pitch, they are 0 × 3C, 0 × 40, and 0 × 48, respectively. The data 2 of each sounding event is an arbitrary value because it is the sounding stop strength.

上記の要領で全てのコードの演奏データを作成する。   Create performance data for all chords as described above.

以上の様な動作で演奏情報が作成された後、表示部9、演奏部10、調整部11、変更部12及び再設定部13により、これまでのコード検出が正しく行われたかをユーザに確かめさせ、必要な場合には、その変更を行わせる。   After the performance information is created by the above operation, the display unit 9, the performance unit 10, the adjustment unit 11, the change unit 12 and the resetting unit 13 confirm with the user whether the chord detection so far has been performed correctly. And make changes if necessary.

検出後にユーザが、図15に示される演奏開始ボタン100を押すと、上記演奏部10によって、バッファ10aを経て入力される入力音響信号、及びコード情報記憶部8から読み出されるコードが、楽音として出力される。その際コードは、図15の小節番号2の小節音響信号内のSで示された演奏開始位置から、小節番号6の小節音響信号内のEで示された演奏終了位置までの範囲を、演奏する。これらは、マウスで小節番号表示領域をクリックすることで、任意の位置に移動できる。   When the user presses the performance start button 100 shown in FIG. 15 after detection, the input sound signal input through the buffer 10a and the chord read out from the chord information storage unit 8 are output as musical sounds by the performance unit 10. Is done. In this case, the chord is played in the range from the performance start position indicated by S in the bar acoustic signal of bar number 2 in FIG. 15 to the performance end position indicated by E in the bar acoustic signal of bar number 6. To do. These can be moved to any position by clicking the bar number display area with the mouse.

演奏開始ボタン100を押すと、入力音響信号及びコードの演奏が開始され、演奏が演奏終了位置に至るか、演奏終了ボタン102が押されるか、することで、演奏が終了する。   When the performance start button 100 is pressed, the performance of the input sound signal and chord is started, and the performance ends when the performance reaches the performance end position or the performance end button 102 is pressed.

コード情報記憶部8、演奏部10及び調整部11の機能ブロック図を、図17に示す。   A functional block diagram of the chord information storage unit 8, the performance unit 10, and the adjustment unit 11 is shown in FIG.

演奏開始ボタン100が押されて、演奏が開始されると、演奏進行に伴い、図10の入力音響信号が格納されているバッファ10aから、演奏部10により、入力音響信号が読み出される。それに伴い、コード演奏情報記憶部8から、演奏部10のコード読出部104により、コード演奏情報が読み出され、音源部106からの楽音信号の読み出しがなされ、コード読出部104は、それに応じたコード演奏音響信号を生成し、それを出力する。   When the performance start button 100 is pressed to start the performance, the performance unit 10 reads the input acoustic signal from the buffer 10a storing the input acoustic signal of FIG. Accordingly, the chord performance information is read from the chord performance information storage unit 8 by the chord reading unit 104 of the performance unit 10, and the musical tone signal is read from the tone generator unit 106. The chord reading unit 104 responds accordingly. A chord performance sound signal is generated and output.

読み出された入力音響信号は、入力音響信号ボリューム112で振幅を調整される。同様にコード演奏音響信号もコード演奏音響信号ボリューム110で振幅を調整される。上述の調整部11は、これらのコード演奏音響信号ボリューム110と入力音響信号ボリューム112とで構成されることになる。   The amplitude of the read input acoustic signal is adjusted by the input acoustic signal volume 112. Similarly, the chord performance sound signal is adjusted in amplitude by the chord performance sound signal volume 110. The adjusting unit 11 described above includes the chord performance sound signal volume 110 and the input sound signal volume 112.

振幅調整された入力音響信号とコード演奏音響信号は、加算器114で加算されて、再生音響信号バッファ108に書き込まれる。   The amplitude-adjusted input sound signal and chord performance sound signal are added by the adder 114 and written to the reproduction sound signal buffer 108.

再生音響信号は、コンピュータシステムの音響出力手段により音楽音響信号が、D/A変換され、スピーカ等から外部に発音されて、再生される。   The playback sound signal is D / A converted by the sound output means of the computer system, is sounded to the outside through a speaker or the like, and is played back.

上記調整部11は、コード演奏音響信号ボリューム110と入力音響信号ボリューム112よりなることは上述の通りであるが、より詳細には、コード演奏音響信号ボリューム110及び入力音響信号ボリューム112に夫々連動しており、表示部9に表示される調整部11の操作子(スライダ)を操作することで、コード演奏音響信号ボリューム110及び入力音響信号ボリューム112の双方の値が変化することになる。   As described above, the adjustment unit 11 includes the chord performance sound signal volume 110 and the input sound signal volume 112. More specifically, the adjustment section 11 is linked to the chord performance sound signal volume 110 and the input sound signal volume 112, respectively. By operating the operator (slider) of the adjustment unit 11 displayed on the display unit 9, the values of both the chord performance sound signal volume 110 and the input sound signal volume 112 change.

これらの両方の音を聴き比べることで、コードが間違って検出されていないか、ユーザは確かめることができる。   By listening and comparing both of these sounds, the user can ascertain whether the chord has been detected in error.

ユーザが何度も聴き比べてコードが間違っていると判断した場合、上記変更部12により、コンピュータの表示部9上に表示されたコード表示位置に、カーソルを合わせ、そこで表示されたコード名乃至コード構成音を変更する。   If the user listens and compares many times and determines that the code is wrong, the change unit 12 moves the cursor to the code display position displayed on the display unit 9 of the computer, and displays the code name or code displayed there. Change chord composition sound.

上記再設定部13は、変更部12によるコード名乃至コード構成音の変更に基づき、コード情報記憶部8に記憶されたコード音階音強度及びコード構成音を参照して、コード構成音、コード構成音数、コード名を、コード名決定部7に変更させ、その変更情報を上記コード情報記憶部8に再記憶させると共に、少なくとも表示部9にコード名乃至コード構成音を再表示させる機能を有している。またユーザの求めに応じて、上記演奏部10でもう一度音響信号とコードとを演奏させることもできる。   The resetting unit 13 refers to the chord scale sound intensity and the chord constituent sound stored in the chord information storage unit 8 based on the change of the chord name or the chord constituent sound by the changing unit 12, and performs the chord constituent sound and chord constituent sound. The number of sounds and the chord name are changed by the chord name determination unit 7, the change information is re-stored in the chord information storage unit 8, and at least the display unit 9 has a function of re-displaying the chord name or chord constituent sound. doing. In response to the user's request, the performance unit 10 can play the sound signal and the chord again.

このように検出されたコード名を画面表示するだけであれば、表示されたコード名乃至コード構成音を見ただけで正しいかどうかは判断できないが、入力音響信号と検出されたコードとを再生し、且つその際、両音をユーザが判断し易いように、調整部11により、出力調整をしているので、コード検出の確認には非常に有効である。   If only the chord name detected in this way is displayed on the screen, it cannot be determined whether it is correct just by looking at the displayed chord name or chord constituent sound, but the input sound signal and the detected chord are reproduced. In this case, the output is adjusted by the adjustment unit 11 so that the user can easily determine both sounds. This is very effective for confirming the code detection.

以上説明した本実施例構成によれば、簡単な構成のみでビート検出という時間分解能が必要な処理(上記前提例のテンポ検出装置の構成と同じ)と、コード検出という周波数分解能が必要な処理(上記テンポ検出装置の構成を基にさらにコード名を検出できる構成)を同時に行うことができるようになって、特別な音楽的知識を有する専門家でなくても、音楽CD等の複数の楽器音の混ざった入力された音楽音響信号に対し、個々の音符情報を検出することなしに全体の響きから、コード名を検出でき、その際に構成音が同じ和音でも判別可能であるだけでなく、その検出結果を演奏部10により聴いたユーザが、コード進行上不自然なコード音であり、その検出結果に訂正を加えたい時、上記変更部12を使用して、ユーザ側で、コード名やコード構成音を変更することができ、適切なコード名の決定ができるようになる。或いはコード進行を聴いた時に自然と感じるように、ユーザによる訂正ができるようになる。また、そのような入力音響信号と検出されたコードとの再生の聴き取りの際に、両音をユーザが判断し易いように、調整部11により、出力調整が簡単にできるようになる。 According to the configuration of the present embodiment described above, processing that requires time resolution of beat detection with the simple configuration only (the same as the configuration of the tempo detection device of the above premise example) and processing that requires frequency resolution of code detection ( (A configuration capable of further detecting a chord name based on the configuration of the tempo detection device), and a plurality of musical instrument sounds such as a music CD, even if not an expert having special musical knowledge. In addition to being able to detect the chord name from the overall reverberation without detecting individual note information, it is possible not only to discriminate even if the constituent sounds are the same chord, user heard by playing unit 10 and the detection result is a chord progression on unnatural chord notes, when you want to make corrections on the detection result by using the changing unit 12, the user side, the code You can change or chord member, so that it is determined the appropriate code name. Alternatively, the user can make corrections so that they feel natural when listening to the chord progression. Further, when listening to the reproduction of such an input sound signal and the detected code, the adjustment unit 11 can easily adjust the output so that the user can easily determine both sounds.

尚、本発明のコード名検出装置及びそれを実現できるプログラムは、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。   The code name detection apparatus of the present invention and the program that can realize the code name detection apparatus are not limited to the illustrated examples described above, and various changes can be made without departing from the scope of the present invention. .

本発明のコード名検出装置及びコード名検出用プログラムは、ミュージックプロモーションビデオの作成の際などに音楽トラック中のビートの時刻に対して映像トラック中のイベントを同期させるビデオ編集処理や、ビートトラッキングによりビートの位置を見つけ音楽の音響信号の波形を切り貼りするオーディオ編集処理、人間の演奏に同期して照明の色・明るさ・方向・特殊効果などといった要素を制御したり、観客の手拍子や歓声などを自動制御するライブステージのイベント制御、音楽に同期したコンピュータグラフィックスなど、種々の分野で利用可能である。   The code name detection device and the code name detection program of the present invention can be performed by video editing processing for synchronizing an event in a video track with a beat time in a music track when creating a music promotion video, or by beat tracking. Audio editing processing that finds beat positions and cuts and pastes the sound signal waveform of music, controls elements such as lighting color, brightness, direction, special effects, etc. in sync with human performances, audience clapping, cheers, etc. It can be used in various fields, such as live stage event control for automatically controlling music, computer graphics synchronized with music, and the like.

本発明の前提となるテンポ検出装置の全体ブロック図である。1 is an overall block diagram of a tempo detection device as a premise of the present invention. 音階音レベル検出部2の構成のブロック図である。It is a block diagram of a structure of a scale sound level detection part. ビート検出部3の処理の流れを示すフローチャートである。4 is a flowchart showing a flow of processing of a beat detection unit 3. ある曲の一部分の波形と各音階音のレベル、各音階音のレベル増分値の合計の図を示すグラフである。It is a graph which shows the figure of the sum total of the waveform of the part of a certain music, the level of each scale sound, and the level increment value of each scale sound. 自己相関計算の概念を示す説明図である。It is explanatory drawing which shows the concept of autocorrelation calculation. 先頭のビート位置の決定方法を説明する説明図である。It is explanatory drawing explaining the determination method of the first beat position. 最初のビート位置決定後のそれ以降のビートの位置を決定していく方法を示す説明図である。It is explanatory drawing which shows the method of determining the position of the beat after it after the first beat position determination. sの値に応じて変えられる係数kの分布状態を示すグラフである。It is a graph which shows the distribution state of the coefficient k changed according to the value of s. 小節検出結果の確認画面の例を示す画面表示図である。It is a screen display figure which shows the example of the confirmation screen of a bar detection result. 実施例1に係る本発明のコード名検出装置の全体ブロック図である。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is an overall block diagram of a code name detection apparatus according to a first embodiment of the present invention. 曲の同じ部分のコード検出用音階音レベル検出部5が出力した各フレームの音階音のレベルを示すグラフである。It is a graph which shows the level of the scale sound of each flame | frame output from the chord detection scale level detection part 5 of the same part of a music. ベース音検出部6によるベース検出結果の表示例を示すグラフである。It is a graph which shows the example of a display of the bass detection result by the bass sound detection part. 本実施例で検出された小節線位置の一例を示す説明図である。It is explanatory drawing which shows an example of the bar line position detected in the present Example. 本実施例でコード名が決定された状態を示すデータ格納状態を示す説明図である。It is explanatory drawing which shows the data storage state which shows the state by which the code name was determined in the present Example. 検出結果の表示と演奏操作を行う画面表示例を示す説明図である。It is explanatory drawing which shows the example of a screen display which performs display of a detection result, and performance operation. 演奏情報のデータ構造を示す説明図である。It is explanatory drawing which shows the data structure of performance information. 演奏部10及び調整部11の機能ブロックを示す説明図である。3 is an explanatory diagram showing functional blocks of a performance unit 10 and an adjustment unit 11. FIG.

符号の説明Explanation of symbols

1 入力部
2 ビート検出用音階音レベル検出部
3 ビート検出部
4 小節検出部
5 コード検出用音階音レベル検出部
6 ベース音検出部
7 コード名決定部
8 コード情報記憶部
9 表示部
10 演奏部
11 調整部
12 変更部
13 再設定部
20 波形前処理部
21 FFT演算部
22 レベル検出部
10a、23、30、40、50、60、70、108 バッファ
100 演奏開始ボタン
102 演奏終了ボタン
110 コード演奏音響信号ボリューム
112 入力音響信号ボリューム
114 加算器
DESCRIPTION OF SYMBOLS 1 Input part 2 Beat detection scale sound level detection part 3 Beat detection part 4 Measure detection part 5 Chord detection scale sound level detection part 6 Bass sound detection part 7 Code name determination part 8 Code information storage part 9 Display part 10 Performance part DESCRIPTION OF SYMBOLS 11 Adjustment part 12 Change part 13 Reset part 20 Waveform pre-processing part 21 FFT operation part 22 Level detection part 10a, 23, 30, 40, 50, 60, 70, 108 Buffer 100 Performance start button 102 Performance end button 110 Chord performance Acoustic signal volume 112 Input acoustic signal volume 114 Adder

Claims (2)

音響信号を入力する入力手段と、
入力された音響信号から、所定の時間間隔で、ビート検出に適したパラメータを使ってFFT演算を行い、所定の時間毎の各音階音のレベルを求める第1の音階音レベル検出手段と、
この所定の時間毎の各音階音のレベルの増分値をすべての音階音について合計して、所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計を求め、この所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のレベルの平均値を計算し、このビート毎の各音階音の平均レベルの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定の時間間隔で、コード検出に適したパラメータを使ってFFT演算を行い、所定の時間毎の各音階音のレベルを求める第2の音階音レベル検出手段と、
検出した各音階音のレベルのうち、各小節内における低域側の音階音のレベルからベース音を検出するベース音検出手段と、
検出したベース音と各音階音のレベルから各小節のコード名を決定するコード名決定手段と、
検出した全てのコード毎に、コード位置、ベース検出期間におけるベースの検出音域の音階音のレベルより求められるベース域音階音強度、ベース音、コード検出期間におけるコードの検出音域の音階音のレベルより求められるコード音階音強度、コード構成音、コード構成音数、コード名を記憶するコード情報記憶手段と、
上記コード名決定手段で決定されたコード名乃至コード構成音、及び/又はベース音を表示する表示手段と、
入力音響信号及び決定された上記コードを演奏する演奏手段と、
該演奏手段の両出力の音量バランスを調整する調整手段と、
構成音とする音階音の強度に対して設けられた閾値を増減させることで、そのコード音階音強度の高い順に、コード構成音数を増減させることができ、それによって、上記コード名乃至コード構成音を変更する変更手段と、
上記変更手段によるコード名乃至コード構成音の変更に基づき、コード情報記憶手段に記憶されたコード音階音強度及びコード構成音を参照して、コード構成音、コード構成音数、コード名を、コード名決定手段に変更させ、その変更情報を上記コード情報記憶手段に再記憶させると共に、少なくとも表示手段にコード名乃至コード構成音を再表示させる再設定手段と
を有することを特徴とするコード名検出装置。
An input means for inputting an acoustic signal;
First scale sound level detection means for performing FFT calculation using a parameter suitable for beat detection at predetermined time intervals from the input acoustic signal, and obtaining the level of each scale sound for each predetermined time;
The increment value of each scale sound level for each predetermined time is summed for all the scale sounds to obtain a total of level increment values indicating the degree of change in the overall sound for each predetermined time. Beat detection means for detecting the average beat interval and the position of each beat from the sum of the incremental values of the level indicating the degree of change in the overall sound for each,
The average value of the scale level for each beat is calculated, and the increment value of the average level of each scale sound for each beat is added for all the scale sounds to indicate the degree of change in the overall sound for each beat. A bar detecting means for obtaining a value and detecting a time signature and a bar line position from a value indicating a change degree of the whole sound for each beat;
From the input acoustic signal, an FFT operation is performed using a parameter suitable for chord detection at a predetermined time interval different from that at the time of the previous beat detection, and the level of each scale sound for each predetermined time is calculated. Second scale level detection means to be obtained;
Bass sound detection means for detecting a bass sound from the level of the low-frequency scale sound in each measure out of the detected scale levels,
Chord name determining means for determining the chord name of each measure from the detected bass sound and the level of each scale sound;
For every detected chord, from the chord position, the base tone scale intensity obtained from the scale sound level of the bass detection range during the base detection period, the base tone, and the scale sound level of the chord detection range during the chord detection period Chord information storage means for storing the required chord scale sound intensity, chord constituent sound, chord constituent sound number, chord name;
Display means for displaying the chord name or chord constituent sound and / or bass sound determined by the chord name determining means;
Performance means for playing the input acoustic signal and the determined chord;
Adjusting means for adjusting the volume balance of both outputs of the performance means;
By increasing or decreasing the threshold value that is set for the intensity of the scale sound that is the constituent sound, the number of chord constituent sounds can be increased or decreased in descending order of the chord scale sound intensity. Change means to change the sound;
Based on the change of the chord name or chord constituent sound by the changing means, the chord constituent sound, the chord constituent sound number, and the chord name are referred to by referring to the chord scale intensity and chord constituent sound stored in the chord information storing means. Code name detection characterized by having a name determining means for changing, re-storing the changed information in the code information storage means, and at least a resetting means for causing the display means to re-display the chord name or the chord sound. apparatus.
コンピュータに読み込まれて実行されることにより、該コンピュータを、
音響信号を入力する入力手段と、
入力された音響信号から、所定の時間間隔で、ビート検出に適したパラメータを使ってFFT演算を行い、所定の時間毎の各音階音のレベルを求める第1の音階音レベル検出手段と、
この所定の時間毎の各音階音のレベルの増分値をすべての音階音について合計して、所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計を求め、この所定の時間毎の全体の音の変化度合いを示すレベルの増分値の合計から、平均的なビート間隔と各ビートの位置を検出するビート検出手段と、
このビート毎の各音階音のレベルの平均値を計算し、このビート毎の各音階音の平均レベルの増分値をすべての音階音について合計して、ビート毎の全体の音の変化度合いを示す値を求め、このビート毎の全体の音の変化度合いを示す値から、拍子と小節線位置を検出する小節検出手段と、
上記入力された音響信号から、先のビート検出の時とは異なる別の所定の時間間隔で、コード検出に適したパラメータを使ってFFT演算を行い、所定の時間毎の各音階音のレベルを求める第2の音階音レベル検出手段と、
検出した各音階音のレベルのうち、各小節内における低域側の音階音のレベルからベース音を検出するベース音検出手段と、
検出したベース音と各音階音のレベルから各小節のコード名を決定するコード名決定手段と、
検出した全てのコード毎に、コード位置、ベース検出期間におけるベースの検出音域の音階音のレベルより求められるベース域音階音強度、ベース音、コード検出期間におけるコードの検出音域の音階音のレベルより求められるコード音階音強度、コード構成音、コード構成音数、コード名を記憶するコード情報記憶手段と、
上記コード名決定手段で決定されたコード名乃至コード構成音、及び/又はベース音を表示する表示手段と、
入力音響信号及び決定された上記コードを演奏する演奏手段と、
該演奏手段の両出力の音量バランスを調整する調整手段と、
構成音とする音階音の強度に対して設けられた閾値を増減させることで、そのコード音階音強度の高い順に、コード構成音数を増減させることができ、それによって、上記コード名乃至コード構成音を変更する変更手段と、
上記変更手段によるコード名乃至コード構成音の変更に基づき、コード情報記憶手段に記憶されたコード音階音強度及びコード構成音を参照して、コード構成音、コード構成音数、コード名を、コード名決定手段に変更させ、その変更情報を上記コード情報記憶手段に再記憶させると共に、少なくとも表示手段にコード名乃至コード構成音を再表示させる再設定手段と
して機能させることを特徴とするコード名検出用プログラム。
By being read and executed by a computer, the computer is
An input means for inputting an acoustic signal;
First scale sound level detection means for performing FFT calculation using a parameter suitable for beat detection at predetermined time intervals from the input acoustic signal, and obtaining the level of each scale sound for each predetermined time;
The increment value of each scale sound level for each predetermined time is summed for all the scale sounds to obtain a total of level increment values indicating the degree of change in the overall sound for each predetermined time. Beat detection means for detecting the average beat interval and the position of each beat from the sum of the incremental values of the level indicating the degree of change in the overall sound for each,
The average value of the scale level for each beat is calculated, and the increment value of the average level of each scale sound for each beat is added for all the scale sounds to indicate the degree of change in the overall sound for each beat. A bar detecting means for obtaining a value and detecting a time signature and a bar line position from a value indicating a change degree of the whole sound for each beat;
From the input acoustic signal, an FFT operation is performed using a parameter suitable for chord detection at a predetermined time interval different from that at the time of the previous beat detection, and the level of each scale sound for each predetermined time is calculated. Second scale level detection means to be obtained;
Bass sound detection means for detecting a bass sound from the level of the low-frequency scale sound in each measure out of the detected scale levels,
Chord name determining means for determining the chord name of each measure from the detected bass sound and the level of each scale sound;
For every detected chord, from the chord position, the base tone scale intensity obtained from the scale sound level of the bass detection range during the base detection period, the base tone, and the scale sound level of the chord detection range during the chord detection period Chord information storage means for storing the required chord scale sound intensity, chord constituent sound, chord constituent sound number, chord name;
Display means for displaying the chord name or chord constituent sound and / or bass sound determined by the chord name determining means;
Performance means for playing the input acoustic signal and the determined chord;
Adjusting means for adjusting the volume balance of both outputs of the performance means;
By increasing or decreasing the threshold value that is set for the intensity of the scale sound that is the constituent sound, the number of chord constituent sounds can be increased or decreased in descending order of the chord scale sound intensity. Change means to change the sound;
Based on the change of the chord name or chord constituent sound by the changing means, the chord constituent sound, the chord constituent sound number, and the chord name are referred to by referring to the chord scale intensity and chord constituent sound stored in the chord information storing means. Code name detection characterized in that it is changed to a name determining means, and the change information is re-stored in the code information storage means, and at least the display means functions as a resetting means for re-displaying a chord name or a chord constituent sound. Program.
JP2008183561A 2008-07-15 2008-07-15 Code name detection device and code name detection program Active JP5229998B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008183561A JP5229998B2 (en) 2008-07-15 2008-07-15 Code name detection device and code name detection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008183561A JP5229998B2 (en) 2008-07-15 2008-07-15 Code name detection device and code name detection program

Publications (2)

Publication Number Publication Date
JP2010025972A JP2010025972A (en) 2010-02-04
JP5229998B2 true JP5229998B2 (en) 2013-07-03

Family

ID=41731905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008183561A Active JP5229998B2 (en) 2008-07-15 2008-07-15 Code name detection device and code name detection program

Country Status (1)

Country Link
JP (1) JP5229998B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013140733A1 (en) * 2012-03-23 2013-09-26 パナソニック株式会社 Band power computation device and band power computation method
JP6168649B2 (en) * 2013-03-28 2017-07-26 株式会社河合楽器製作所 Code detection apparatus and program
JP2014235328A (en) * 2013-06-03 2014-12-15 株式会社河合楽器製作所 Code estimation detection device and code estimation detection program
JP6151121B2 (en) * 2013-07-31 2017-06-21 株式会社河合楽器製作所 Chord progression estimation detection apparatus and chord progression estimation detection program
JP6123574B2 (en) * 2013-08-21 2017-05-10 カシオ計算機株式会社 Code extraction apparatus, method, and program
JP6812273B2 (en) * 2017-02-28 2021-01-13 株式会社Nttドコモ Musical instrument sound recognition device and musical instrument sound recognition program
JP7425558B2 (en) * 2019-08-07 2024-01-31 株式会社河合楽器製作所 Code detection device and code detection program
WO2021100679A1 (en) * 2019-11-20 2021-05-27 ヤマハ株式会社 Information processing system, keyboard instrument, information processing method, and program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3166455B2 (en) * 1993-10-25 2001-05-14 ヤマハ株式会社 Performance data creation device
JP3322187B2 (en) * 1997-10-01 2002-09-09 ヤマハ株式会社 Code editing device and recording medium
JP3379407B2 (en) * 1997-10-01 2003-02-24 ヤマハ株式会社 Accompaniment data generation device and recording medium
JP4244133B2 (en) * 2002-11-29 2009-03-25 パイオニア株式会社 Music data creation apparatus and method
JP2005148648A (en) * 2003-11-19 2005-06-09 Yamaha Corp Electronic music system and computer program
JP4767691B2 (en) * 2005-07-19 2011-09-07 株式会社河合楽器製作所 Tempo detection device, code name detection device, and program

Also Published As

Publication number Publication date
JP2010025972A (en) 2010-02-04

Similar Documents

Publication Publication Date Title
JP4767691B2 (en) Tempo detection device, code name detection device, and program
JP4823804B2 (en) Code name detection device and code name detection program
JP4672613B2 (en) Tempo detection device and computer program for tempo detection
US7582824B2 (en) Tempo detection apparatus, chord-name detection apparatus, and programs therefor
JP4916947B2 (en) Rhythm detection device and computer program for rhythm detection
JP5229998B2 (en) Code name detection device and code name detection program
US9672800B2 (en) Automatic composer
CN1750116B (en) Automatic rendition style determining apparatus and method
WO2015053278A1 (en) Technique for reproducing waveform by switching between plurality of sets of waveform data
JP5196550B2 (en) Code detection apparatus and code detection program
JP6175812B2 (en) Musical sound information processing apparatus and program
JP5005445B2 (en) Code name detection device and code name detection program
JP4932614B2 (en) Code name detection device and code name detection program
JP3489503B2 (en) Sound signal analyzer, sound signal analysis method, and storage medium
JP5153517B2 (en) Code name detection device and computer program for code name detection
JP3599686B2 (en) Karaoke device that detects the critical pitch of the vocal range when singing karaoke
JP2006301019A (en) Pitch-notifying device and program
JP3879524B2 (en) Waveform generation method, performance data processing method, and waveform selection device
JP2010032809A (en) Automatic musical performance device and computer program for automatic musical performance
JP2002268637A (en) Meter deciding apparatus and program
JP7425558B2 (en) Code detection device and code detection program
JP6168649B2 (en) Code detection apparatus and program
JP2004326133A (en) Karaoke device having range-of-voice notifying function
JP2014235328A (en) Code estimation detection device and code estimation detection program
JP2016045446A (en) Pitch control device and pitch control program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130318

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5229998

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150