JP2018025644A - Music key estimation device, and music code progression estimation device - Google Patents

Music key estimation device, and music code progression estimation device Download PDF

Info

Publication number
JP2018025644A
JP2018025644A JP2016156821A JP2016156821A JP2018025644A JP 2018025644 A JP2018025644 A JP 2018025644A JP 2016156821 A JP2016156821 A JP 2016156821A JP 2016156821 A JP2016156821 A JP 2016156821A JP 2018025644 A JP2018025644 A JP 2018025644A
Authority
JP
Japan
Prior art keywords
key
music
chord progression
chord
scales
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016156821A
Other languages
Japanese (ja)
Inventor
伊藤 伸一
Shinichi Ito
伸一 伊藤
稔 福見
Minoru Fukumi
稔 福見
桃代 伊藤
Momoyo Ito
桃代 伊藤
集 田村
Shu Tamura
集 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokushima NUC
Original Assignee
University of Tokushima NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokushima NUC filed Critical University of Tokushima NUC
Priority to JP2016156821A priority Critical patent/JP2018025644A/en
Publication of JP2018025644A publication Critical patent/JP2018025644A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a music code progression device that estimates a Key and code progression of a music.SOLUTION: A music code progression estimation device comprises: a voice data acquisition unit (21 and 17) that acquires voice data on a music; and a code progression estimation unit (11) that analyzes the voice data to estimate a code progression of the music. The code progression estimation unit (11) is configured to: conduct a frequency analysis of the voice data to obtain a chroma vector; determine a Key of the music from the chroma vector; obtain a code in each of a plurality of prescribed small sections from the chroma vector; convert the code obtained for each small section on the basis of the determined Key of the music; and determine a code progression of the music on the basis of combinations of the prescribed number of the codes extracted from a converted code group.SELECTED DRAWING: Figure 1

Description

本発明は、楽曲のKeyを推定する装置及びコード進行を推定する装置に関する。   The present invention relates to an apparatus for estimating the key of music and an apparatus for estimating chord progression.

近年、楽曲の自動解析分野の研究は盛んに行われており(特許文献1等参照)、実用レベルのアプリケーションが多く開発されている。例えば、類似楽曲検索ソフト、コードトラッキング機能を持つソフト、採譜ソフト等のアプリケーションがある。楽曲を自動解析することで、楽曲の定量評価や採譜につなげることができる。自動解析によって得られる主な情報として、メロディ解析、サビ区間推定等が存在するが、その中でも楽曲の雰囲気に大きく意味付けを行うのがコード進行である。コード進行を適切に解析することで、楽曲がもつ雰囲気といった曖昧なものを定量的に評価することが可能である。   In recent years, research in the field of automatic music analysis has been actively conducted (see Patent Document 1 and the like), and many practical applications have been developed. For example, there are applications such as similar music search software, software having a code tracking function, and music recording software. Automatic analysis of music can lead to quantitative evaluation of music and transcription. As main information obtained by automatic analysis, there are melody analysis, chorus section estimation, etc. Among them, chord progression is what makes the atmosphere of the music significant. By analyzing chord progression appropriately, it is possible to quantitatively evaluate ambiguous things such as the atmosphere of music.

特開2009−015535号公報JP 2009-015535 A 特開2009−186944号公報JP 2009-186944 A 特開2008−096844号公報JP 2008-096844 A 特開2007−248610号公報JP 2007-248610 A

しかしながら、コード進行を取得する為に周波数解析による音程分析を用いるのみでは、複雑な信号に対しては高い精度を見込めない。また、コードの特性を評価するためには、楽曲のKey(調)を決定する必要もある。   However, high accuracy cannot be expected for complex signals only by using pitch analysis by frequency analysis to obtain chord progression. In addition, in order to evaluate the chord characteristics, it is necessary to determine the key of the music.

本発明は、楽曲のKeyを推定する装置及びコード進行を推定する装置を提供する。   The present invention provides an apparatus for estimating the key of music and an apparatus for estimating chord progression.

本発明に係る楽曲Key推定装置は、楽曲の音声データを取得する音声データ取得部と、Keyと音階の組み合わせとの対応を示すKey情報を格納する記憶部と、音声データを解析して、楽曲のKeyを特定するKey推定部と、を備える。Key推定部は、所定区間の音声データを周波数解析してクロマベクトルを求め、クロマベクトルに含まれる音階の中から複数の音階を選択し、選択した複数の音階の組み合わせと前記Key情報に基づきKey候補を決定し、決定したKey候補の中から前記楽曲のKeyを特定する。   The music key estimation apparatus according to the present invention includes an audio data acquisition unit that acquires audio data of a music, a storage unit that stores key information indicating a correspondence between a key and a combination of scales, and analyzes audio data, A key estimation unit that identifies the key of the key. The key estimation unit frequency-analyzes speech data of a predetermined section to obtain a chroma vector, selects a plurality of scales from the scales included in the chroma vector, and based on the combination of the selected plurality of scales and the key information. A candidate is determined, and the key of the music is specified from the determined key candidates.

本発明に係る楽曲コード進行推定装置は、楽曲の音声データを取得する音声データ取得部と、音声データを解析して、楽曲のコード進行を推定するコード進行推定部と、を備える。
コード進行推定部は、音声データを周波数解析してクロマベクトルを求め、クロマベクトルから楽曲のKeyを特定し、クロマベクトルから、複数の所定の小区間のそれぞれにおいてコードを求め、特定した楽曲のKeyに基づき小区間毎に求めたコードを変換し、変換したコード群の中から抽出した所定数のコードの組み合わせに基づいて楽曲のコード進行を特定する。
The music chord progression estimation apparatus according to the present invention includes an audio data acquisition unit that acquires audio data of a music, and a chord progression estimation unit that analyzes the audio data and estimates the chord progression of the music.
The chord progression estimation unit frequency-analyzes the audio data to obtain a chroma vector, specifies a music key from the chroma vector, obtains a chord from each of the plurality of predetermined small sections from the chroma vector, and specifies the specified music key The chord obtained for each small section is converted based on the chord, and the chord progression of the music is specified based on a combination of a predetermined number of chords extracted from the chord group that has been converted.

本発明に係る第1のプログラムは、情報処理装置を楽曲のKeyを特定する装置として動作させるためのプログラムである。第1のプログラムは、情報処理装置の制御装置に、所定区間の音声データを周波数解析してクロマベクトルを求める機能と、クロマベクトルに含まれる音階の中から複数の音階を選択する機能と、選択した複数の音階の組み合わせと前記Key情報に基づきKey候補を決定する機能と、決定したKey候補の中から前記楽曲のKeyを特定する機能とを実行させる、プログラムである。   The first program according to the present invention is a program for causing the information processing apparatus to operate as an apparatus for specifying the key of music. The first program causes the control device of the information processing device to obtain a chroma vector by frequency analysis of audio data in a predetermined section, a function to select a plurality of scales from the scales included in the chroma vector, and a selection A program for executing a function for determining a key candidate based on a combination of a plurality of scales and the key information, and a function for specifying the key of the music from the determined key candidates.

本発明に係る第2のプログラムは、情報処理装置を楽曲のコード進行を特定する装置として動作させるためのプログラムである。第2のプログラムは、情報処理装置の制御装置に、音声データを周波数解析してクロマベクトルを求める機能と、クロマベクトルから楽曲のKeyを特定する機能と、クロマベクトルから、複数の所定の小区間のそれぞれにおいてコードを求める機能と、特定した楽曲のKeyに基づき小区間毎に求めたコードを変換する機能と、変換したコード群の中から抽出した所定数のコードの組み合わせに基づいて楽曲のコード進行を特定する機能とを実行させる、プログラムである。   The second program according to the present invention is a program for causing the information processing apparatus to operate as an apparatus for specifying the chord progression of music. The second program has a function for obtaining a chroma vector by performing frequency analysis on audio data, a function for specifying the key of a song from the chroma vector, and a plurality of predetermined small sections from the chroma vector. A code for a music piece based on a combination of a function for obtaining a chord, a function for converting a chord obtained for each subsection based on the key of the specified music piece, and a predetermined number of chords extracted from the converted chord group It is a program that executes a function for identifying progress.

本発明によれば、楽曲データを解析することにより、楽曲の所定区間におけるKeyを自動で抽出でき、さらに、楽曲に対するコード進行パターンを自動で抽出することができる。   According to the present invention, by analyzing music data, it is possible to automatically extract a key in a predetermined section of the music, and further to automatically extract a chord progression pattern for the music.

本発明に係る楽曲コード進行推定装置及び楽曲Key推定装置の一実施の形態である楽曲解析装置の構成を示す図The figure which shows the structure of the music analysis apparatus which is one Embodiment of the music chord progression estimation apparatus and music key estimation apparatus which concern on this invention. 楽曲解析装置における処理を示すフローチャートThe flowchart which shows the process in a music analysis device 解析区間におけるクロマベクトルの算出を説明するための図Diagram for explaining calculation of chroma vector in analysis interval 楽曲解析装置におけるKey推定処理を示すフローチャートThe flowchart which shows the key estimation process in a music analyzer 音階と、音階を特定するラベルとの対応を説明した図A diagram explaining the correspondence between musical scales and labels that identify musical scales 5つの低値(クロマベクトルの値が低い音階)の選択を説明した図Diagram explaining the selection of five low values (scales with low chroma vector values) 各Keyと5つの低値の組み合わせとの対応を示すKey情報の構成例を示す図The figure which shows the structural example of the Key information which shows a response | compatibility with each Key and the combination of five low values. 音階の循環モデルを説明した図Diagram explaining scale circulation model “C”と“G”のKeyについてそれぞれの構成音を示した図The figure which showed each constituent sound about Key of "C" and "G" 楽曲解析装置におけるコード進行推定処理を示すフローチャートA flowchart showing chord progression estimation processing in the music analysis device Key“C”へ変換する際のシフト量を示した図The figure which showed the shift amount at the time of converting to Key "C" 解析区間におけるコード進行パターン候補(4つのコード列)の抽出を説明した図The figure explaining extraction of the chord progression pattern candidate (four chord strings) in the analysis section コード特定によるマルコフモデルを示した図Diagram showing Markov model with code identification 解析区間におけるコードからの6つのコードの順次抽出を説明した図Diagram explaining the sequential extraction of six codes from codes in the analysis section

以下、適宜図面を参照しながら、本発明にかかる楽曲コード進行推定装置及び楽曲Key推定装置の実施の形態を説明する。   Hereinafter, embodiments of a music chord progression estimation apparatus and a music key estimation apparatus according to the present invention will be described with reference to the drawings as appropriate.

(実施の形態1)
1.楽曲解析装置の構成
図1は、本発明に係る楽曲コード進行推定装置及び楽曲Key推定装置の一実施の形態である楽曲解析装置の構成を示す図である。楽曲解析装置は、楽曲のKey(調)及びコード進行を推定する(すなわち自動で特定する)装置である。楽曲解析装置は、楽曲の任意の区間に対するクロマベクトルを推定し、推定されたクロマベクトルに基づいて、Keyを特定し、さらにコード進行を特定する。
(Embodiment 1)
1. Configuration of Music Analysis Device FIG. 1 is a diagram showing a configuration of a music analysis device that is an embodiment of a music chord progression estimation device and a music key estimation device according to the present invention. The music analysis device is a device that estimates the key (key) and chord progression of music (that is, automatically specifies). The music analysis apparatus estimates a chroma vector for an arbitrary section of the music, specifies a key based on the estimated chroma vector, and further specifies a chord progression.

図1に、楽曲解析装置10の構成を示す。楽曲解析装置10は例えばパーソナルコンピュータのような情報処理装置で構成される。楽曲解析装置10は、その全体動作を制御するコントローラ11と、画面表示を行う表示部13と、ユーザが操作を行う操作部15と、データやプログラムを記憶する記憶部17とを備える。   FIG. 1 shows the configuration of the music analysis apparatus 10. The music analysis apparatus 10 is configured by an information processing apparatus such as a personal computer. The music analysis apparatus 10 includes a controller 11 that controls the overall operation, a display unit 13 that performs screen display, an operation unit 15 that is operated by a user, and a storage unit 17 that stores data and programs.

表示部13は、例えば、液晶ディスプレイや有機ELディスプレイで構成される。操作部15は、使用者が指示を行うための装置であり、キーボード、マウス、タッチパネル等で構成される。   The display unit 13 is configured by, for example, a liquid crystal display or an organic EL display. The operation unit 15 is a device for a user to give an instruction, and includes a keyboard, a mouse, a touch panel, and the like.

記憶部17は機能を実現するために必要なパラメータ、データ及びプログラムを記憶する記録媒体であり、コントローラ11で実行される制御プログラムや各種のデータを格納している。記憶部17は、例えば、ハードディスク(HDD)、半導体記憶装置(SSD)、フラッシュメモリで構成される。   The storage unit 17 is a recording medium that stores parameters, data, and programs necessary for realizing the functions, and stores a control program executed by the controller 11 and various data. The storage unit 17 includes, for example, a hard disk (HDD), a semiconductor storage device (SSD), and a flash memory.

コントローラ11は、CPUやMPUで構成され、記憶部17に格納された所定の制御プログラム17aを実行することで所定の機能を実現する。すなわち、コントローラ11は制御プログラム17aを実行することでKey推定部及びコード進行推定部として機能する。コントローラ11で実行される制御プログラム17aはネットワークを介して提供されてもよいし、CD−ROM等の記録媒体によって提供されてもよい。コントローラ11の機能はハードウェアとソフトウェアの協働により実現してもよいし、ハードウェア回路のみで実現してもよい。すなわち、コントローラ11は、CPU、MPUのみならず、DSP、FPGA、ASIC等で構成することができる。   The controller 11 includes a CPU and an MPU, and implements a predetermined function by executing a predetermined control program 17a stored in the storage unit 17. That is, the controller 11 functions as a key estimation unit and a chord progression estimation unit by executing the control program 17a. The control program 17a executed by the controller 11 may be provided via a network or may be provided by a recording medium such as a CD-ROM. The function of the controller 11 may be realized by cooperation of hardware and software, or may be realized only by a hardware circuit. That is, the controller 11 can be composed of not only a CPU and an MPU but also a DSP, an FPGA, an ASIC, and the like.

楽曲解析装置10は、プリンタ等の外部機器に接続するための通信インターフェース19を含む。通信インターフェース19は、USB、HDMI(登録商標)、IEEE1394等に準拠して外部機器とデータ等の通信を行うインターフェース回路である。楽曲解析装置10はさらにネットワークに接続するためのIEEE802.11、WiFi等の規格に準拠して通信を行うインターフェース回路を備えても良い。楽曲解析装置10は、さらに、音声を音声信号に変換するマイク20からの音声信号を入力する音声入力インターフェース21を備える。音声入力インターフェース21を介して入力された音声信号はADコンバータ(図示せず)により音声データに変換されてコントローラ11に入力される。   The music analysis apparatus 10 includes a communication interface 19 for connecting to an external device such as a printer. The communication interface 19 is an interface circuit that communicates data and the like with an external device in accordance with USB, HDMI (registered trademark), IEEE1394, or the like. The music analysis apparatus 10 may further include an interface circuit that performs communication in accordance with standards such as IEEE 802.11 and WiFi for connection to a network. The music analysis apparatus 10 further includes an audio input interface 21 that inputs an audio signal from the microphone 20 that converts audio into an audio signal. An audio signal input via the audio input interface 21 is converted into audio data by an AD converter (not shown) and input to the controller 11.

2.楽曲解析装置の動作
上記の構成を有する楽曲解析装置10の動作を説明する。図2は、楽曲解析装置10のKey及びコード進行の推定に関する処理を示すフローチャートである。図2を用いて、楽曲解析装置10の処理を説明する。なお、図2に示す処理は、コントローラ11により制御プログラム17aにしたがい実行される。
2. Operation of Music Analysis Device The operation of the music analysis device 10 having the above configuration will be described. FIG. 2 is a flowchart showing processing related to the estimation of the key and chord progression of the music analysis apparatus 10. The process of the music analysis device 10 will be described with reference to FIG. The processing shown in FIG. 2 is executed by the controller 11 according to the control program 17a.

図2において、楽曲解析装置10のコントローラ11は、まず、楽曲の一部の区間を解析区間として、その解析区間の音声データを抽出する(S11)。楽曲は多くの場合、左右2チャンネルのステレオ信号により形成されている。本実施の形態では、左右の各チャンネルのどちらの波形も有用な情報として利用するために、解析においては左右のチャンネルの信号の合算信号を用いている。解析区間は、楽曲中の任意の区間に設定してよい。例えば、解析区間は、より楽曲の特徴が表れるサビ区間に設定する。解析区間には、図3に示すように複数のサンプリング区間が含まれる。   In FIG. 2, the controller 11 of the music analysis apparatus 10 first extracts audio data of the analysis section using a partial section of the music as the analysis section (S11). In many cases, music is formed by stereo signals of two left and right channels. In this embodiment, in order to use both waveforms of the left and right channels as useful information, a combined signal of the signals of the left and right channels is used in the analysis. The analysis section may be set to an arbitrary section in the music. For example, the analysis section is set to a chorus section where the characteristics of the music appear more. The analysis interval includes a plurality of sampling intervals as shown in FIG.

コントローラ11は、解析区間の音声データを周波数解析してクロマベクトルを求め、そのクロマベクトルに基づいて楽曲のKeyを推定(すなわち、特定)する(S12)。この処理では、楽曲の音声信号を周波数解析し、解析区間におけるクロマベクトルを求め、クロマベクトルからKeyを推定する。さらに、コントローラ11は、推定したKeyに基づき、その楽曲のコード進行を推定(特定)する(S13)。   The controller 11 frequency-analyzes the voice data in the analysis section to obtain a chroma vector, and estimates (ie specifies) the music key based on the chroma vector (S12). In this process, the audio signal of the music is subjected to frequency analysis, a chroma vector in the analysis section is obtained, and the key is estimated from the chroma vector. Further, the controller 11 estimates (specifies) the chord progression of the music based on the estimated key (S13).

以下、Key推定処理(S12)及びコード進行推定処理(S13)についてより具体的に説明する。   Hereinafter, the key estimation process (S12) and the chord progression estimation process (S13) will be described more specifically.

2−1.Key推定
図4は、図2に示すフローチャートにおけるKey推定処理(S12)の詳細を示すフローチャートである。コントローラ11は、まず、解析区間におけるクロマベクトルを算出する(S21)。より具体的には、まず、解析区間におけるサンプリング区間毎に、周波数解析を行ってクロマベクトルCHi(i=1,2,・・・)を算出する。周波数解析手法として例えば連続ウェーブレット変換を用いる。連続ウェーブレット変換とはマザーウェーブレットと呼 ばれる基本波の拡大縮小,平行移動によってあらゆる波形を表現する手法であり、解析元の波形の時間軸情報を保持することが可能である。クロマベクトルは、各音階(音)(C,C#,D,・・・)の信号強度を成分に持つ。クロマベクトルは、各サンプリング区間内で周波数毎(音階毎)に合算していくことにより生成される。
2-1. Key Estimation FIG. 4 is a flowchart showing details of the key estimation process (S12) in the flowchart shown in FIG. First, the controller 11 calculates a chroma vector in the analysis section (S21). More specifically, first, the chroma vector CHi (i = 1, 2,...) Is calculated by performing frequency analysis for each sampling interval in the analysis interval. For example, continuous wavelet transform is used as a frequency analysis method. Continuous wavelet transform is a technique called mother wavelet that expresses all waveforms by scaling and translation of the fundamental wave, and can hold time-axis information of the waveform of the analysis source. The chroma vector has as its component the signal intensity of each scale (sound) (C, C #, D,...). The chroma vector is generated by summing up each frequency (every scale) within each sampling interval.

各サンプリング区間でクロマベクトルを求めた後、解析区間全体で合算したクロマベクトルを求める。すなわち、同じ音階(音)毎(クロマベクトルの成分毎)に、クロマベクトルの値を合算することで、解析区間全体についてのクロマベクトルを求める。図5は、このようにして求めたクロマベクトルの一例を示している。なお、本実施の形態では、各音階(音)に対して音階(音)を示すラベルを付している。図5のカッコ内の数字がラベルを示している。例えば、音階「C」は「0」の音と、音階「F」は「5」の音と表す。   After obtaining a chroma vector in each sampling interval, a chroma vector obtained in the entire analysis interval is obtained. That is, the chroma vector for the entire analysis interval is obtained by adding the chroma vector values for each same scale (sound) (each chroma vector component). FIG. 5 shows an example of the chroma vector obtained in this way. In the present embodiment, a label indicating a scale (sound) is attached to each scale (sound). Numbers in parentheses in FIG. 5 indicate labels. For example, the scale “C” is represented as “0” and the scale “F” is represented as “5”.

次に、コントローラ11は、クロマベクトルを参照し、「C」〜「B」の12音の中で、信号強度の弱いものから5つの音(以下「低値音」という)を選択する(S22)。例えば、図5に示すクロマベクトルの例では、低値音として、図6に示すように、C#、D#、F#、G#、A#の5音が選択される。   Next, the controller 11 refers to the chroma vector and selects five sounds (hereinafter referred to as “low value sounds”) from among the 12 sounds “C” to “B” having the weak signal intensity (S22). ). For example, in the example of the chroma vector shown in FIG. 5, five sounds of C #, D #, F #, G #, and A # are selected as low-value sounds as shown in FIG.

低音値が選択された場合、低音値の組み合わせからKey候補を設定する(S23)。図7は、各Keyと、そのKeyを構成する5つの低値音の組み合わせとの対応を示すKey情報17bを示した図である。Key情報17bでは、ラベルを用いて音を表している。図7のKey情報17bは、例えば、Key「C」と、ラベルが1、3、6、8、10の音の組み合わせとが対応づけられている。Keyの特定においては、信号強度の高い音を用いるのが一般的であると思われるが、本実施の形態では、信号強度の低い方の音を用いてKeyを特定している。このように信号強度の高い音を用いずに信号強度の低い音を用いる理由としては、Keyの特定精度が向上することが、発明者の実験により得られたためである。また、信号強度が低い方から5つの音を用いる理由としては、本実施の形態では、特にポピュラー音楽を想定しており、ポピュラー音楽は7音使用による構成(ダイヤトニックスケール)であることが多いためである。コントローラ11は、Key情報17bを参照し、選択した低音値の組み合わせからKey候補を設定する。   When a bass value is selected, a key candidate is set from a combination of bass values (S23). FIG. 7 is a diagram showing the key information 17b indicating the correspondence between each key and a combination of five low-value sounds constituting the key. In the key information 17b, a sound is expressed using a label. In the key information 17b in FIG. 7, for example, Key “C” is associated with a combination of sounds with labels 1, 3, 6, 8, and 10. In specifying the key, it seems that it is common to use a sound with a high signal strength, but in this embodiment, the key is specified using the sound with the lower signal strength. The reason for using the low signal strength sound without using the high signal strength sound is that the key identification accuracy has been improved by the inventors' experiments. The reason why five sounds are used from the lowest signal intensity is particularly assumed in the present embodiment is popular music, and popular music often has a configuration using seven sounds (diatonic scale). Because. The controller 11 refers to the key information 17b and sets a key candidate from the selected combination of bass values.

Key候補の設定は以下のように行う。コントローラ11は、Key情報17bで定義した組み合わせの中で、5つの低値音の組み合わせと最も多く一致する組み合わせのKeyを、Key候補に選定する。例えば、選択した5つの低値音の組み合わせが(1,3,6,8,10)である場合、図7のKey情報17bを参照してKey「C」が一意的に特定される。   Key candidates are set as follows. The controller 11 selects the key of the combination that most closely matches the combination of the five low-value sounds among the combinations defined by the key information 17b as the key candidate. For example, when the combination of the five selected low-value sounds is (1, 3, 6, 8, 10), the key “C” is uniquely identified with reference to the key information 17b in FIG.

一方、5つの低値音の組み合わせから、Keyが一意に求まらない場合、条件を変えてKeyの決定を行う。具体的には、求めた5つの低値音の中から4音の組み合わせパターンを構築し、そのパターンが、Key情報17bにて定義されたいずれの低値音の組み合わせに近いかを判定する。例えば、本来Keyが“C”の楽曲(=(1,3,6,8,10))であり、5つの低値音が(1,3,5,6,8)と検出された場合、Key情報17bにおいて、4つの音の組み合わせが該当する組み合わせをKey候補として算出する。図7では、(1,3,6,8)が一致する“C”と“F”と、(1,3,5,8)が一致する“G”の3つのKey候補が求められる。4音の組み合わせによるKey候補の決定で算出されるKey候補の数は最高3で、最低では1となっている。   On the other hand, when the key cannot be uniquely determined from the combination of the five low-value sounds, the key is determined by changing the conditions. Specifically, a combination pattern of four sounds is constructed from the obtained five low-value sounds, and it is determined which low-value sound combination defined in the key information 17b is close to the pattern. For example, if the key is originally a song with “C” (= (1, 3, 6, 8, 10)) and five low-value sounds are detected as (1, 3, 5, 6, 8), In the key information 17b, a combination corresponding to a combination of four sounds is calculated as a key candidate. In FIG. 7, three key candidates of “C” and “F” matching (1, 3, 6, 8) and “G” matching (1, 3, 5, 8) are obtained. The number of key candidates calculated by determining a key candidate by a combination of four sounds is 3 at the maximum and 1 at the minimum.

なお、低値音として5つの音が選択できない場合もある。例えば、クロマベクトルの値が同じ音が複数あり、信号強度の弱いものから5つを選択したときに、5種類より多くの音が選択される場合がある。そのような場合は、選択される音の数が5以下になるように音を選択する。例えば、クロマベクトルにおいて、信号強度の弱い方から音のレベルを選択した場合に、「0.09」、「0.117」、「0.147」、「0.191」、「0.23」、「0.23」となる場合、6つの音が該当する。この場合は、信号強度の弱いものから4つを低音値として選択する。同様に、低音値として、2つまたは3つの音しか選択されない場合もある。この場合、低音値として選択された4個ないし2個の音の組み合わせからKey情報17bを参照してKey候補を設定する。すなわち、4ないし2個の低音値を構成音として含むKeyをKey候補に設定する。なお、低音値が1つのみの場合はエラーとして処理する。   In some cases, five sounds cannot be selected as the low-value sound. For example, when there are a plurality of sounds having the same chroma vector value and five are selected from those having a weak signal intensity, more than five sounds may be selected. In such a case, the sound is selected so that the number of selected sounds is 5 or less. For example, in the chroma vector, when the sound level is selected from the one with the weaker signal intensity, “0.09”, “0.117”, “0.147”, “0.191”, “0.23” , “0.23” corresponds to six sounds. In this case, four of the low signal strengths are selected as bass values. Similarly, only two or three sounds may be selected as the bass value. In this case, a key candidate is set by referring to the key information 17b from a combination of four or two sounds selected as the bass value. That is, a key including 4 or 2 bass values as constituent sounds is set as a key candidate. If there is only one bass value, it is processed as an error.

以上のようにしてKey候補が設定されると、コントローラ11はKey候補からその楽曲のKey(以下「推定Key」という)を決定する(S24)。具体的には以下のようにしてKey候補から推定Keyを決定する。   When the key candidate is set as described above, the controller 11 determines the key (hereinafter referred to as “estimated key”) of the music from the key candidate (S24). Specifically, the estimated key is determined from the key candidates as follows.

推定Keyの決定の方法はKey候補の数に応じて異なる。以下それぞれの場合について説明する。   The method for determining the estimated key differs depending on the number of key candidates. Each case will be described below.

(1)Key候補の数=1のとき
そのKey候補を推定Keyに決定する。
(1) When the number of key candidates = 1, the key candidate is determined as an estimated key.

(2)Key候補の数=3のとき
本発明者は、3つのKey候補が求められる場合、正しいKeyをNとした場合に、求められる候補がN、N−7、N+7の3つとなることを発見した。そこで、2つのKey候補からの距離が7となる共通のKey候補がある場合、その共通のKeyを推定Keyに決定する。そのような共通のKeyがない場合は、エラーとして処理する。図8は、音階の循環モデルを説明した図である。音階の加減算はこのモデルに従って行う。例えば、D−2は“D”から反時計回りに2だけ戻り“C” となる。D+2は“D”から時計回りに2だけ進み“E” となる。よって、例えば、3つのKey候補が求められ、それらが“C”、“F”、“G”であった場合、F+7=CかつG−7=Cであるため、推定Keyは“C”となる。
(2) When the number of key candidates = 3 When the present inventors are required to have three key candidates, when the correct key is N, the required candidates are N, N-7, and N + 7. I found Therefore, when there is a common key candidate whose distance from the two key candidates is 7, the common key is determined as the estimated key. If there is no such common key, it is processed as an error. FIG. 8 is a diagram for explaining a scale circulation model. Scale addition / subtraction is performed according to this model. For example, D-2 returns from “D” by “2” counterclockwise to “C”. D + 2 advances from “D” by 2 clockwise and becomes “E”. Thus, for example, when three key candidates are obtained and they are “C”, “F”, and “G”, since F + 7 = C and G−7 = C, the estimated key is “C”. Become.

(3)Key候補の数=2のとき
2つのKey候補間の距離が2であるか否かによって処理が異なる。以下それぞれの場合の処理を説明する。
(3) When the number of key candidates = 2 The processing differs depending on whether or not the distance between two key candidates is two. The processing in each case will be described below.

a)2つのKey候補間の距離が2のとき
2つのKey候補から距離が7にあるKeyを推定Keyに設定する。
b)2つのKey候補間の距離が2でないとき
2つのKey候補に対して所定の判定条件にしたがい3種類の投票を行い、投票値がより大きい方のKey候補を推定Keyに決定する。以下、3種類の投票について説明する。
a) When the distance between two key candidates is 2 A key whose distance is 7 from the two key candidates is set as an estimated key.
b) When the distance between two key candidates is not two: Three types of voting are performed on the two key candidates according to a predetermined determination condition, and the key candidate having the larger vote value is determined as the estimated key. Hereinafter, three types of voting will be described.

<投票1>
2つのKey候補間で、同じ音階について強度を比較し、強度の高い方の音階を有するKey候補に投票する。
<Voting 1>
The two key candidates are compared in strength for the same scale, and the key candidate having the higher scale is voted.

例えば、“C”と“G”がKey候補として求められており、解析区間で求めた“C”のクロマベクトルの値が0.5であり、“G”のクロマベクトルの値が0.3であった場合、強度の強い方の“C”に票を入れる。   For example, “C” and “G” are obtained as key candidates, the value of the chroma vector of “C” obtained in the analysis interval is 0.5, and the value of the chroma vector of “G” is 0.3. If it is, vote for “C”, which is stronger.

<投票2>
各候補を構成する音階の中で2つのKey候補の間で異なる音階について信号強度を比較し、比較した結果、信号強度の低い方の音階を有するKey候補に投票する。
<Voting 2>
Among the scales constituting each candidate, the signal intensities of the different scales between the two key candidates are compared, and as a result of the comparison, the key candidate having the lower scale of the signal intensity is voted.

Key候補を構成する音階について、2つのKey候補の間で、5つの低値音の中の1つだけ異なった音階が存在する場合がある。例えば、“C”と“G”がKey候補として求められた場合、“C”を構成する低音値の組み合わせは、(1,3,6,8,10)であり,“G”を構成する低音値の組み合わせは(1,3,5,8,10)である。ここで、1つだけ異なっている音階はF(5)とF#(6)である。よって、F(5)とF#(6)の信号強度を比較し、信号強度が低い方の構成音を含むKey候補に投票する。例えば、解析区間で求めたクロマベクトルにおいて“F”の値が0.6であり、“F#”の値が0.3であった場合、“F#”の方が小さいので,構成音に“F#”(6)が含まれている“C”に投票する。   There is a case where only one of the five low-value sounds has a different scale between the two key candidates for the scale constituting the key candidate. For example, when “C” and “G” are obtained as key candidates, the combination of bass values constituting “C” is (1, 3, 6, 8, 10) and constitutes “G”. The combination of bass values is (1, 3, 5, 8, 10). Here, the only scale that differs by one is F (5) and F # (6). Therefore, the signal intensities of F (5) and F # (6) are compared, and a vote is given to the key candidate including the constituent sound with the lower signal intensity. For example, in the chroma vector obtained in the analysis section, when the value of “F” is 0.6 and the value of “F #” is 0.3, “F #” is smaller, so Vote for “C” containing “F #” (6).

<投票3>
各Key候補を示す音の1つ前の音(音階)(すなわち、1段低い音)について強度を比較し、強度のより高い方のKey候補に投票する。
<Voting 3>
The intensities of the sounds (scales) immediately before the sound indicating each Key candidate (ie, the sound one step lower) are compared, and the higher Key candidate is voted.

例えば、2つのKey候補として“C”と“G”が求められたとする。図9は、“C”と“G”のKeyそれぞれの構成音を示した図である。同図中、“○”が記載されている音がそれぞれのKeyの構成音である。“○”が記載されていない音は、前述の低値音を示す。   For example, it is assumed that “C” and “G” are obtained as two key candidates. FIG. 9 is a diagram showing the constituent sounds of the “C” and “G” keys. In the figure, the sound with “◯” is a constituent sound of each key. Sounds not marked with “◯” indicate the low-value sound described above.

Keyの構成音には、Keyとなっている音から1だけ減算した音も含まれている。例えば、Keyが“C”の場合、“C”から1だけ減算した音は“B”であり、“B”は図9に示すように“C”のKeyの構成音に含まれる。Keyとなっている音から1だけ減算した音の信号強度は、Keyを構成するため、強度の低い値ではない。よって、正しいKeyが“C”であった場合、“C”から1だけ減算した音である“B”の信号強度は低くはない。一方で、Key候補として“G”も挙がっている場合、“G”から1を減算した音はF#であるが,これは”C”の構成音に含まれていない。つまり、2つのKey候補について、それぞれのKey候補から1だけ減算した音の信号強度を比較し、信号強度がより高い方がよりKey候補である可能性が高いと考えられる。そこで、本楽曲解析装置10では、Key候補をN1、N2とした場合、N1−1、N2−1の音(信号強度)の強さを比較し、信号強度が強い方のKey候補に票を入れる。例えば、各クロマベクトルにおいて、“C”から1だけ減算した“B”の信号強度が0.4であり、“G”から1だけ減算したF#の信号強度が0.1であった場合、“B”の方が信号強度が大きいので、“C”に対して投票する。   The key component includes a sound obtained by subtracting 1 from the key sound. For example, when the key is “C”, the sound obtained by subtracting 1 from “C” is “B”, and “B” is included in the constituent sounds of the key “C” as shown in FIG. The signal intensity of the sound obtained by subtracting 1 from the sound that is the key is not a low value because it constitutes the key. Therefore, when the correct key is “C”, the signal intensity of “B”, which is a sound obtained by subtracting 1 from “C”, is not low. On the other hand, when “G” is also listed as a key candidate, the sound obtained by subtracting 1 from “G” is F #, but this is not included in the constituent sound of “C”. That is, for two key candidates, the signal strength of a sound obtained by subtracting 1 from each key candidate is compared, and it is considered that the higher the signal strength, the higher the possibility of being a key candidate. Therefore, in the music analysis apparatus 10, when the key candidates are N1 and N2, the strengths of the sounds (signal strength) of N1-1 and N2-1 are compared, and a vote is given to the key candidate having the higher signal strength. Put in. For example, in each chroma vector, when the signal strength of “B” obtained by subtracting 1 from “C” is 0.4 and the signal strength of F # obtained by subtracting 1 from “G” is 0.1, Since “B” has a higher signal strength, vote for “C”.

以上のように、2つのKey候補に対して3種類の投票を行い、投票値の合計が大きい方のKey候補を推定Keyに決定する。   As described above, three types of voting are performed on the two key candidates, and the key candidate having the larger total vote value is determined as the estimated key.

以上のようにして、楽曲の所定区間のクロマベクトルからその楽曲のKeyを決定することができる。   As described above, the key of the music can be determined from the chroma vector of the predetermined section of the music.

2.コード進行の推定
次にコード進行の推定処理(S13)について説明する。図10は、図2に示すフローチャートにおけるコード進行の推定処理(S13)の詳細を示すフローチャートである。図10のフローチャートを用いてコード進行の推定処理を説明する。
2. Next, the chord progression estimation process (S13) will be described. FIG. 10 is a flowchart showing details of chord progression estimation processing (S13) in the flowchart shown in FIG. The chord progression estimation process will be described with reference to the flowchart of FIG.

コントローラ11は、解析区間において所定の小区間毎にコードを求める(S31)。ここで、小区間は1拍(四分音符1つ分)の区間に設定される。楽曲解析装置10は、楽曲の解析区間における周波数解析の際にBPM(Beat Per Minute)トラッキングを行っている。これにより、小区間すなわち1拍(四分音符1つ分)の区間のサンプルの数を算出できる。コントローラ11は、各サンプル区間のコードをクロマベクトルから求め、1拍分(小区間分)のコードを求める。すなわち、1サンプリング毎にクロマベクトルからコード候補を算出し、1拍の区間(小区間)内で閾値以上の頻度があるコード候補をその小区間のコードに決定する。   The controller 11 obtains a code for each predetermined small section in the analysis section (S31). Here, the small section is set to a section of one beat (one quarter note). The music analysis device 10 performs BPM (Beat Per Minute) tracking during frequency analysis in a music analysis section. As a result, the number of samples in a small section, that is, a section of one beat (one quarter note) can be calculated. The controller 11 obtains a code for each sample section from the chroma vector, and obtains a code for one beat (for a small section). That is, a chord candidate is calculated from a chroma vector for each sampling, and a chord candidate having a frequency equal to or higher than a threshold within a one-beat section (small section) is determined as the code of the small section.

次に、コントローラ11は、Keyが“C”となるように、解析区間における各小区間のコードの音階(音程)をシフトする(S32)。具体的には、図4のフローチャートにしたがい事前に求められたKeyと“C”の差分だけ各小区間のコードをシフトする。図11に、Keyを“C”へ変換する時のシフト量を示す。図11を参照すると、例えば、事前に求められたKeyが“F”である場合、そのシフト量は−5であることがわかる。よって、事前に求められたKeyが“F”である場合、小区間のコード“E”は、−5だけシフトされて“B”に変換される。同様に、小区間のコード“G”は、−5だけシフトされ“D”に変換される。   Next, the controller 11 shifts the scale (pitch) of the chord of each small section in the analysis section so that the key becomes “C” (S32). Specifically, the code of each small section is shifted by the difference between Key and “C” obtained in advance according to the flowchart of FIG. FIG. 11 shows the shift amount when Key is converted to “C”. Referring to FIG. 11, for example, when the key obtained in advance is “F”, the shift amount is −5. Therefore, when the key obtained in advance is “F”, the code “E” in the small section is shifted by −5 and converted to “B”. Similarly, the code “G” in the small section is shifted by −5 and converted to “D”.

次に、コントローラ11は、以上のようにしてシフトされた解析区間におけるコード群の先頭から6コードの組み合わせを抽出する(S33)。例えば、図12に示すように、シフト後の解析区間におけるコードが“FGEFAGEAFGEA・・・”である場合、まず、その先頭から6つのコード“FGEFAG”が抽出される。   Next, the controller 11 extracts a combination of 6 codes from the head of the code group in the analysis section shifted as described above (S33). For example, as shown in FIG. 12, when the code in the analysis section after the shift is “FGEFAGEAFGEA...”, First, six codes “FGEFAG” are extracted from the head.

次に、コントローラ11は、抽出した6コードの組み合わせの中から出現順序を変えずに、4つのコードの可能な組み合わせを全て抽出して、コード進行パターン候補を決定する(S34)。例えば、図12に示す例では、“FGEFAG”から、“FGEF”、“FGEA”、“FGEG”等がコード進行パターン候補として抽出される。   Next, the controller 11 extracts all possible combinations of the four chords from the extracted six chord combinations without changing the appearance order, and determines chord progression pattern candidates (S34). For example, in the example shown in FIG. 12, “FGEF”, “FGEA”, “FGEG”, and the like are extracted from “FGEFAG” as chord progression pattern candidates.

次に、コントローラ11は、抽出した各コード進行パターン候補の発生確率をマルコフモデルに基づき計算する(S35)。   Next, the controller 11 calculates the occurrence probability of each extracted chord progression pattern candidate based on the Markov model (S35).

図13は、コード進行パターンの発生確率の算出に用いるマルコフモデルを示した図である。一般に、Keyを取得することで、ある瞬間のコードがどの特性を持っているかを取得することができる。コードの特性とは物語における「起承転結」のようなもので、音楽理論として広く知られている。本発明で扱うコード特性の種類は“トニック(T)”、“サブドミナント(SD)”、“ドミナント(D)”の3種類である。一般的に使われているコード進行は、このコード特性を加味した上で心地よく聞こえるように構成されている。本願発明者は、このコード特性を評価として利用することで、適切なコード進行の推定を行う補助になるのではないかと考え、図13に示すようなマルコフモデルを利用することに至った。   FIG. 13 is a diagram showing a Markov model used for calculating the probability of occurrence of a chord progression pattern. In general, by acquiring the key, it is possible to acquire which characteristic a code at a certain moment has. The characteristic of chords is something like "conversion" in a story, which is widely known as music theory. There are three types of code characteristics handled in the present invention: “Tonic (T)”, “Subdominant (SD)”, and “Dominant (D)”. The chord progression generally used is configured so that it can be heard comfortably in consideration of this chord characteristic. The inventor of the present application thought that this chord characteristic may be used as an evaluation to assist in estimating an appropriate chord progression, and has come to use a Markov model as shown in FIG.

例えば、コード進行パターン候補が“FGEF”である場合、マルコフモデルを使用して、FからGへ遷移する確率(0.5)と、GからEへ遷移する確率(0.5)と、EからFへ遷移する確率(0.3)とを求め、それらを用いてコード進行パターン候補“FGEF”の発生確率として0.075(=0.5×0.5×0.3)を求める。   For example, when the chord progression pattern candidate is “FGEF”, using a Markov model, the probability of transition from F to G (0.5), the probability of transition from G to E (0.5), and E The probability of transition from F to F (0.3) is obtained, and 0.075 (= 0.5 × 0.5 × 0.3) is obtained as the occurrence probability of the chord progression pattern candidate “FGEF” using them.

なお、発生確率の算出において、コード進行の最初がドミナントコードである場合と、コード進行の最後がトニックコードである場合に、それぞれ重みを付与してもよい。これは一般的なコード進行はドミナントコード以外のコードで始まり、トニックコードで終わるためである。例えば、最初がドミナントコードである場合、得られた発生確率を減少させ、最後がトニックコードである場合は、得られた発生確率を倍にするように、それぞれの重みを設定してもよい。   In the calculation of the probability of occurrence, a weight may be assigned when the chord progression first is a dominant chord and when the chord progression last is a tonic chord. This is because a general chord progression starts with a chord other than the dominant chord and ends with a tonic chord. For example, when the first is the dominant code, the obtained occurrence probability is decreased, and when the last is the tonic code, the respective weights may be set so as to double the obtained occurrence probability.

次に、コントローラ11は、コード進行パターン候補のそれぞれについて、その出現頻度を求める(S36)。   Next, the controller 11 calculates the appearance frequency of each chord progression pattern candidate (S36).

解析区間全体に含まれるコード群の中から抽出された1組のコード(6つのコード)について、上記の処理(S34−S36)が終了すると、コントローラ11は、解析区間に含まれる全てのコードにおいて、6コードの全ての組み合わせが抽出されたか否かを判断する(S37)。   When the above processing (S34-S36) is completed for one set of codes (six codes) extracted from the code group included in the entire analysis section, the controller 11 determines that all the codes included in the analysis section , It is determined whether all combinations of 6 codes have been extracted (S37).

全ての6コードの組み合わせが抽出されていない場合、コントローラ11は、抽出開始位置を1ずつずらして新たな6コードを設定しながら(S40)、設定した6コードから複数のコード進行パターン候補を設定し(S34)、各コード進行パターンについて発生確率および出現頻度を求める(S35〜S36)。例えば、図14に示すように、設定する6コードを“FGEFAG”、“GEFAGE”、“EFAGEA”、・・・のように順次シフトしながら、各6コードの組み合わせについて、4コードからなる可能なコード進行パターンを求め、各コード進行パターンについて発生確率および出現頻度を求める。   If all the combinations of 6 chords have not been extracted, the controller 11 sets a plurality of chord progression pattern candidates from the set 6 chords while setting new 6 chords by shifting the extraction start position one by one (S40). Then, the occurrence probability and the appearance frequency are obtained for each chord progression pattern (S35 to S36). For example, as shown in FIG. 14, the 6 codes to be set can be composed of 4 codes for each 6-code combination while sequentially shifting to “FGEFAG”, “GEFAGE”, “EFAGEA”,... The chord progression pattern is obtained, and the occurrence probability and appearance frequency are obtained for each chord progression pattern.

以上のようにして、4コードからなる複数のコード進行パターン候補が求められると、コード進行パターン候補のそれぞれについて、発生確率及び出現頻度から評価値を算出する(S38)。各コード進行パターン候補の評価値は次式により算出する。
評価値=コード進行パターン候補の発生確率×10α
α=コード進行パターン候補の出現頻度−1
When a plurality of chord progression pattern candidates consisting of four chords are obtained as described above, an evaluation value is calculated from the occurrence probability and the appearance frequency for each chord progression pattern candidate (S38). The evaluation value of each chord progression pattern candidate is calculated by the following equation.
Evaluation value = chord progression pattern candidate occurrence probability × 10 α
α = Appearance frequency of chord progression pattern candidate−1

コントローラ11は、全てのコード進行パターン候補の中で最も高い評価値を示すコード進行パターン候補を、推定されたコード進行パターンに設定する(S39)。   The controller 11 sets the chord progression pattern candidate showing the highest evaluation value among all chord progression pattern candidates as the estimated chord progression pattern (S39).

以上のようにして、楽曲解析装置10は楽曲のコード進行を特定することができる。   As described above, the music analysis apparatus 10 can specify the chord progression of the music.

3.まとめ
以上のように本実施の形態の楽曲解析装置10は、コード進行推定装置として動作する。コード進行推定装置としての楽曲解析装置10は、楽曲の音声データを取得する音声入力インターフェース21(データ取得部の一例)と、音声データを解析して、楽曲のコード進行を推定するコントローラ11(コード進行推定部の一例)と、を備える。コントローラ11は、音声データを周波数解析してクロマベクトルを求め、クロマベクトルから楽曲のKeyを特定し、クロマベクトルから、複数の所定の小区間のそれぞれにおいてコードを求め(S31)、特定した楽曲のKeyに基づき小区間毎に求めたコードを変換し(S32)、変換したコード群の中から抽出した所定数のコードの組み合わせに基づいて楽曲のコード進行を特定する(S39)。
3. Summary As described above, the music analysis device 10 of the present embodiment operates as a chord progression estimation device. The music analysis apparatus 10 as a chord progression estimation apparatus includes a voice input interface 21 (an example of a data acquisition unit) that obtains voice data of a music, and a controller 11 (code) that analyzes the voice data and estimates the chord progression of the music. An example of a progress estimation unit). The controller 11 frequency-analyzes the audio data to obtain a chroma vector, specifies the key of the song from the chroma vector, obtains a code in each of a plurality of predetermined small sections from the chroma vector (S31), and Based on the key, the chord obtained for each subsection is converted (S32), and the chord progression of the music is specified based on the combination of a predetermined number of chords extracted from the converted chord group (S39).

また、本実施の形態の楽曲解析装置10は、Key推定装置としても動作する。Key推定装置としての楽曲解析装置10は、楽曲の音声データを取得する音声入力インターフェース21と、Keyと音階の組み合わせとの対応を示すKey情報17bを格納する記憶部17と、音声データを解析して、楽曲のKeyを特定するコントローラ11(Key推定部の一例)と、を備える。コントローラ11は、解析区間(所定区間の一例)の音声データを周波数解析してクロマベクトルを求め(S21)、クロマベクトルに含まれる音階の中から複数の音階を選択し(S22)、選択した複数の音階の組み合わせとKey情報17bに基づきKey候補を決定し(S23)、決定したKey候補の中から楽曲のKeyを特定する(S24)。   In addition, the music analysis device 10 according to the present embodiment also operates as a key estimation device. The music analysis device 10 as the key estimation device analyzes the voice data, the voice input interface 21 that acquires the voice data of the music, the storage unit 17 that stores the key information 17b indicating the correspondence between the key and the scale combination, and the voice data. And a controller 11 (an example of a key estimation unit) that identifies the key of the music. The controller 11 frequency-analyzes speech data in an analysis section (an example of a predetermined section) to obtain a chroma vector (S21), selects a plurality of scales from the scales included in the chroma vector (S22), and selects the selected plurality of scales. Key candidates are determined based on the scale combinations and the key information 17b (S23), and the key of the music is specified from the determined key candidates (S24).

以上の構成を有する楽曲解析装置10によれば、楽曲の音声データを解析することにより、楽曲のKey及びコード進行を自動で特定することができる。このような楽曲解析装置10の技術は、コード進行を楽曲の類似度を計算するための指標として用いて雰囲気の類似した楽曲を類似楽曲として選抜する、楽曲提供システムに適用することができる。さらには、楽曲の自動楽譜生成システムにも適用することができる。   According to the music analysis apparatus 10 having the above configuration, the key and chord progression of a music can be automatically specified by analyzing the audio data of the music. Such a technique of the music analysis apparatus 10 can be applied to a music providing system that uses a chord progression as an index for calculating the degree of similarity of music and selects music having similar atmospheres as similar music. Furthermore, the present invention can be applied to an automatic musical score generation system for music.

なお、上記の例では、楽曲解析装置10のコントローラ11は、解析対象の音声データ(音声信号)を音声入力インターフェース21を介して取得したが、音声データの取得先は音声入力インターフェース21に限定されない。記憶部17に解析データの楽曲の音声データが記憶されている場合、コントローラ11は、記憶部17から音声データを読み出して取得してもよい。または、通信インターフェース19を介してネットワークから解析データの楽曲の音声データを取得してもよい。すなわち、本発明のデータ取得部は、音声入力インターフェース21、通信インターフェース19、記憶部17等で構成することができる。   In the above example, the controller 11 of the music analysis apparatus 10 acquires the audio data (audio signal) to be analyzed via the audio input interface 21, but the acquisition destination of the audio data is not limited to the audio input interface 21. . When the sound data of the music of the analysis data is stored in the storage unit 17, the controller 11 may read out and acquire the sound data from the storage unit 17. Or you may acquire the audio | voice data of the music of analysis data from a network via the communication interface 19. FIG. That is, the data acquisition unit of the present invention can be configured by the voice input interface 21, the communication interface 19, the storage unit 17, and the like.

以上のように、本発明の一実施の形態として実施の形態1を説明したが、本発明における技術はこれに限定されず、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。   As described above, the first embodiment has been described as an embodiment of the present invention. However, the technology in the present invention is not limited to this, and various modifications, replacements, and additions may be made within the scope of the claims or equivalents thereof. Can be omitted.

10 楽曲解析装置
11 コントローラ
13 表示部
15 操作部
17 記憶部
17a 制御プログラム
17b Key情報
19 通信インターフェース
20 マイク
21 音声入力インターフェース
DESCRIPTION OF SYMBOLS 10 Music analyzer 11 Controller 13 Display part 15 Operation part 17 Storage part 17a Control program 17b Key information 19 Communication interface 20 Microphone 21 Voice input interface

Claims (11)

楽曲の音声データを取得する音声データ取得部と、
Keyと音階の組み合わせとの対応を示すKey情報を格納する記憶部と、
音声データを解析して、楽曲のKeyを特定するKey推定部と、を備え、
前記Key推定部は、
所定区間の音声データを周波数解析してクロマベクトルを求め、
前記クロマベクトルに含まれる音階の中から複数の音階を選択し、
選択した複数の音階の組み合わせと前記Key情報に基づきKey候補を決定し、
決定したKey候補の中から前記楽曲のKeyを特定する、
楽曲Key推定装置。
An audio data acquisition unit for acquiring audio data of the music;
A storage unit for storing key information indicating a correspondence between a key and a combination of scales;
A key estimation unit that analyzes voice data and identifies the key of the music,
The key estimation unit
Obtain the chroma vector by frequency analysis of the audio data of the predetermined section,
Selecting a plurality of scales from the scales included in the chroma vector;
A key candidate is determined based on the selected combination of scales and the key information,
The key of the music is specified from the determined key candidates.
Music key estimation device.
前記Key推定部は、前記クロマベクトルに含まれる音階において、信号強度の低い方から所定数の音階を選択する、
請求項1記載の楽曲Key推定装置。
The Key estimation unit selects a predetermined number of scales from the lower signal strength in the scales included in the chroma vector.
The music key estimation apparatus according to claim 1.
前記Key推定部は、
Key候補が1つの場合、そのKey候補を楽曲のKeyとして特定し、
Key候補が2つの場合、所定の判定条件に基づいてKey候補の中から1つのKeyを選定し、その選定したKeyを楽曲のKeyとして特定し、
Key候補が3つの場合、音階の循環モデルを用いてKey候補の中から1つのKeyを選定し、その選定したKeyを楽曲のKeyとして特定する
請求項1記載の楽曲Key推定装置。
The key estimation unit
If there is one key candidate, that key candidate is identified as the key of the song,
When there are two key candidates, one key is selected from the key candidates based on a predetermined determination condition, the selected key is specified as the key of the music,
2. The music key estimation apparatus according to claim 1, wherein when there are three key candidates, one key is selected from the key candidates using a scale circulation model, and the selected key is specified as the key of the music.
前記所定の判定条件は、
2つのKey候補間における同じ音階の強度がより高いことである第1の条件と、
2つのKey候補間で異なる音階の強度がより低いことである第2の条件と、
各Key候補が示す音階の1段低い音階の強度がより高いことである第3の条件と
を含む、
請求項3記載の楽曲Key推定装置。
The predetermined determination condition is:
A first condition that the intensity of the same scale between two key candidates is higher;
A second condition in which the intensities of the different scales between the two key candidates are lower;
A third condition in which the intensity of the scale one level lower than the scale indicated by each Key candidate is higher,
The music key estimation apparatus according to claim 3.
楽曲の音声データを取得する音声データ取得部と、
音声データを解析して、楽曲のコード進行を推定するコード進行推定部と、を備え、
前記コード進行推定部は、
前記音声データを周波数解析してクロマベクトルを求め、
前記クロマベクトルから楽曲のKeyを特定し、
前記クロマベクトルから、複数の所定の小区間のそれぞれにおいてコードを求め、前記特定した楽曲のKeyに基づき前記小区間毎に求めたコードを変換し、変換したコード群の中から抽出した所定数のコードの組み合わせに基づいて前記楽曲のコード進行を特定する
楽曲コード進行推定装置。
An audio data acquisition unit for acquiring audio data of the music;
A chord progression estimation unit that analyzes voice data and estimates the chord progression of the music,
The chord progression estimation unit
Frequency analysis of the audio data to obtain a chroma vector;
The key of the music is specified from the chroma vector,
From the chroma vector, a chord is obtained in each of a plurality of predetermined subsections, the chord obtained for each subsection is converted based on the key of the specified music, and a predetermined number of codes extracted from the converted chord group A music chord progression estimation device that identifies the chord progression of the musical piece based on a combination of chords.
前記コード進行推定部は、前記特定したKeyと“C”の差分に基づき前記小区間毎に求めたコードを変換する、
請求項5記載の楽曲コード進行推定装置。
The chord progression estimation unit converts the chord obtained for each small section based on the difference between the identified key and “C”.
The music chord progression estimation apparatus according to claim 5.
前記コード進行推定部は、
所定数のコードの組み合わせをコード進行パターンとして、複数の小区間において求めたコード群の中から複数のコード進行パターンを抽出し、
各コード進行パターンの発生確率及び出現頻度に基づいて1つのコード進行パターンを特定し、特定したコード進行パターンに基づいて楽曲のコード進行を特定する、
請求項5記載の楽曲コード進行推定装置。
The chord progression estimation unit
Using a predetermined number of chord combinations as chord progression patterns, extracting a plurality of chord progression patterns from a chord group obtained in a plurality of small sections,
One chord progression pattern is identified based on the occurrence probability and appearance frequency of each chord progression pattern, and the chord progression of the music is identified based on the identified chord progression pattern.
The music chord progression estimation apparatus according to claim 5.
前記コード進行推定部は、トニック、ドミナント、サブドミナントの3種類の音特性間の遷移確率を示すマルコフモデルを用いて前記コード進行パターンの発生確率を算出する、
請求項7記載の楽曲コード進行推定装置。
The chord progression estimation unit calculates the occurrence probability of the chord progression pattern using a Markov model indicating a transition probability between three types of sound characteristics of tonic, dominant, and subdominant.
The music chord progression estimation apparatus according to claim 7.
前記コード進行推定部は、
所定区間の音声データを周波数解析してクロマベクトルを求め、
前記クロマベクトルに含まれる音階の中から複数の音階を選択し、
選択した複数の音階の組み合わせと、Keyと音階の組み合わせとの対応を示すKey情報に基づきKey候補を決定し、
決定したKey候補の中から前記楽曲のKeyを特定する、
請求項5から8のいずれかに記載の楽曲コード進行推定装置。
The chord progression estimation unit
Obtain the chroma vector by frequency analysis of the audio data of the predetermined section,
Selecting a plurality of scales from the scales included in the chroma vector;
A key candidate is determined based on the key information indicating the correspondence between the selected combination of scales and the combination of key and scale,
The key of the music is specified from the determined key candidates.
The music chord progression estimation apparatus according to any one of claims 5 to 8.
情報処理装置を楽曲のKeyを特定する装置として動作させるためのプログラムであって、
情報処理装置の制御装置に、
所定区間の音声データを周波数解析してクロマベクトルを求める機能と、
前記クロマベクトルに含まれる音階の中から複数の音階を選択する機能と、
選択した複数の音階の組み合わせと前記Key情報に基づきKey候補を決定する機能と、
決定したKey候補の中から前記楽曲のKeyを特定する機能と
を実行させる、
プログラム。
A program for operating an information processing device as a device for specifying the key of music,
In the control device of the information processing device,
A function for obtaining a chroma vector by performing frequency analysis on audio data in a predetermined section;
A function of selecting a plurality of scales from the scales included in the chroma vector;
A function for determining a key candidate based on a combination of a plurality of selected scales and the key information;
A function for specifying the key of the music from the determined key candidates;
program.
情報処理装置を楽曲のコード進行を特定する装置として動作させるためのプログラムであって、
情報処理装置の制御装置に、
音声データを周波数解析してクロマベクトルを求める機能と、
前記クロマベクトルから楽曲のKeyを特定する機能と
前記クロマベクトルから、複数の所定の小区間のそれぞれにおいてコードを求める機能と、
前記特定した楽曲のKeyに基づき前記小区間毎に求めたコードを変換する機能と、
変換したコード群の中から抽出した所定数のコードの組み合わせに基づいて前記楽曲のコード進行を特定する機能と
を実行させる、
プログラム。
A program for operating the information processing device as a device for specifying the chord progression of music,
In the control device of the information processing device,
A function that obtains chroma vectors by frequency analysis of audio data;
A function for specifying the key of a song from the chroma vector, and a function for obtaining a code in each of a plurality of predetermined small sections from the chroma vector;
A function of converting the code obtained for each of the small sections based on the key of the specified music;
A function of specifying the chord progression of the music based on a combination of a predetermined number of chords extracted from the converted chord group,
program.
JP2016156821A 2016-08-09 2016-08-09 Music key estimation device, and music code progression estimation device Pending JP2018025644A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016156821A JP2018025644A (en) 2016-08-09 2016-08-09 Music key estimation device, and music code progression estimation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016156821A JP2018025644A (en) 2016-08-09 2016-08-09 Music key estimation device, and music code progression estimation device

Publications (1)

Publication Number Publication Date
JP2018025644A true JP2018025644A (en) 2018-02-15

Family

ID=61194580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016156821A Pending JP2018025644A (en) 2016-08-09 2016-08-09 Music key estimation device, and music code progression estimation device

Country Status (1)

Country Link
JP (1) JP2018025644A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113168824A (en) * 2018-11-29 2021-07-23 雅马哈株式会社 Sound analysis method, sound analysis device, and model construction method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113168824A (en) * 2018-11-29 2021-07-23 雅马哈株式会社 Sound analysis method, sound analysis device, and model construction method
CN113168824B (en) * 2018-11-29 2024-02-23 雅马哈株式会社 Acoustic analysis method, acoustic analysis device, and model construction method

Similar Documents

Publication Publication Date Title
JP4640407B2 (en) Signal processing apparatus, signal processing method, and program
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP2016206660A (en) Speaker identification method and speaker identification device
KR20180121831A (en) Interest determination system, interest determination method, and storage medium
US11074897B2 (en) Method and apparatus for training adaptation quality evaluation model, and method and apparatus for evaluating adaptation quality
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
CN109979483A (en) Melody detection method, device and the electronic equipment of audio signal
US20190005935A1 (en) Sound signal processing method and sound signal processing apparatus
JP2017507346A (en) System and method for optical music recognition
CN107851442B (en) Matching device, determination device, methods thereof, program, and recording medium
JP6252147B2 (en) Acoustic signal analysis apparatus and acoustic signal analysis program
JP6151121B2 (en) Chord progression estimation detection apparatus and chord progression estimation detection program
JP6729515B2 (en) Music analysis method, music analysis device and program
JP2018081169A (en) Speaker attribute estimation system, learning device, estimation device, speaker attribute estimation method, and program
CN111986698A (en) Audio segment matching method and device, computer readable medium and electronic equipment
JP6281211B2 (en) Acoustic signal alignment apparatus, alignment method, and computer program
JP2018025644A (en) Music key estimation device, and music code progression estimation device
JP2008065153A (en) Musical piece structure analyzing method, program and device
JP5924968B2 (en) Score position estimation apparatus and score position estimation method
JP6812273B2 (en) Musical instrument sound recognition device and musical instrument sound recognition program
US20210287641A1 (en) Audio analysis method and audio analysis device
JP5092876B2 (en) Sound processing apparatus and program
JP7243147B2 (en) Code estimation method, code estimation device and program
JP2017161572A (en) Sound signal processing method and sound signal processing device
JP7176114B2 (en) MUSIC ANALYSIS DEVICE, PROGRAM AND MUSIC ANALYSIS METHOD