JP7243147B2 - Code estimation method, code estimation device and program - Google Patents

Code estimation method, code estimation device and program Download PDF

Info

Publication number
JP7243147B2
JP7243147B2 JP2018223837A JP2018223837A JP7243147B2 JP 7243147 B2 JP7243147 B2 JP 7243147B2 JP 2018223837 A JP2018223837 A JP 2018223837A JP 2018223837 A JP2018223837 A JP 2018223837A JP 7243147 B2 JP7243147 B2 JP 7243147B2
Authority
JP
Japan
Prior art keywords
code
chord
acoustic signal
estimating
learned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018223837A
Other languages
Japanese (ja)
Other versions
JP2019139209A (en
Inventor
康平 須見
琢哉 藤島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to US16/270,979 priority Critical patent/US10586519B2/en
Publication of JP2019139209A publication Critical patent/JP2019139209A/en
Application granted granted Critical
Publication of JP7243147B2 publication Critical patent/JP7243147B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音声または楽音等の音響を表す音響信号からコード(和音)を判別する技術に関する。 The present invention relates to a technique for discriminating chords from acoustic signals representing sounds such as voices or musical tones.

楽曲の歌唱音または演奏音等の音響を表す音響信号からコード名を特定する技術が従来から提案されている。例えば特許文献1には、入力楽音の波形データから解析した周波数スペクトルに基づいて和音を判定する技術が開示されている。周波数スペクトルに関する情報と、事前に用意された和音パターンとのマッチングにより和音が特定される。また、特許文献2には、入力音の基本周波数の確率密度関数にピークが観測される基本周波数の構成音を含む和音を同定する技術が開示されている。特許文献3には、機械学習済のニューラルネットワークを利用してコードを推定する技術が開示されている。 Conventionally, there has been proposed a technique for specifying a chord name from an acoustic signal representing sound such as singing sound or performance sound of a piece of music. For example, Japanese Laid-Open Patent Publication No. 2002-100000 discloses a technique for judging chords based on a frequency spectrum analyzed from waveform data of input musical tones. Chords are identified by matching information on the frequency spectrum with chord patterns prepared in advance. Further, Patent Literature 2 discloses a technique for identifying a chord including constituent tones of the fundamental frequency for which a peak is observed in the probability density function of the fundamental frequency of the input sound. Patent Literature 3 discloses a technique of estimating a code using a machine-learned neural network.

特開2000-298475号公報JP-A-2000-298475 特開2008-209550号公報JP 2008-209550 A 特開2017-215520号公報JP 2017-215520 A

しかし、特許文献1の技術では、解析した周波数スペクトルに関する情報が、事前に用意された和音パターンから極端に乖離している場合に適切な和音パターンを高精度に推定することができない。本発明は、高精度にコードを推定することを目的とする。 However, with the technique of Patent Literature 1, it is not possible to estimate an appropriate chord pattern with high accuracy when the information on the analyzed frequency spectrum is extremely deviated from the chord pattern prepared in advance. An object of the present invention is to estimate a code with high accuracy.

以上の課題を解決するために、本発明の好適な態様に係るコード推定方法は、音響信号から第1コードを推定し、コードに対する変更の傾向を学習した学習済モデルに前記第1コードを入力することにより、第2コードを推定する。 In order to solve the above problems, a chord estimation method according to a preferred aspect of the present invention estimates a first chord from an acoustic signal and inputs the first chord to a trained model that has learned the tendency of changes to chords. to estimate the second code.

本発明の第1実施形態に係るコード推定装置の構成を示すブロック図である。1 is a block diagram showing the configuration of a code estimation device according to a first embodiment of the present invention; FIG. コード推定装置の機能的な構成を示すブロック図である。2 is a block diagram showing a functional configuration of a code estimation device; FIG. 音響信号から第2コードが推定されるまでに生成される各データの概略図である。FIG. 4 is a schematic diagram of data generated until a second code is estimated from an acoustic signal; 第1特徴量および第2特徴量の模式図である。It is a schematic diagram of a 1st feature-value and a 2nd feature-value. 機械学習装置の機能的な構成を示すブロック図である。2 is a block diagram showing a functional configuration of a machine learning device; FIG. コード推定処理のフローチャートである。4 is a flowchart of code estimation processing; 第2コードを推定する処理のフローチャートである。10 is a flowchart of processing for estimating a second code; 第2実施形態に係るコード推定部のブロック図である。FIG. 8 is a block diagram of a code estimator according to the second embodiment; 第3実施形態に係るコード推定部のブロック図である。FIG. 11 is a block diagram of a code estimation unit according to the third embodiment; FIG. 第4実施形態に係るコード推定部のブロック図である。FIG. 12 is a block diagram of a code estimation unit according to the fourth embodiment; FIG. 第5実施形態に係るコード推定装置の機能的な構成を示すブロック図である。FIG. 12 is a block diagram showing a functional configuration of a chord estimation device according to a fifth embodiment; FIG. 境界データの説明図である。FIG. 4 is an explanatory diagram of boundary data; 第5実施形態におけるコード推定処理のフローチャートである。FIG. 14 is a flowchart of chord estimation processing in the fifth embodiment; FIG. 第5実施形態における境界推定モデルの機械学習の説明図である。FIG. 21 is an explanatory diagram of machine learning of a boundary estimation model in the fifth embodiment; 第6実施形態に係るコード推定装置の機能的な構成を示すブロック図である。FIG. 12 is a block diagram showing a functional configuration of a chord estimation device according to a sixth embodiment; 第6実施形態において第2コードを推定する処理のフローチャートである。FIG. 16 is a flowchart of processing for estimating a second code in the sixth embodiment; FIG. 第6実施形態におけるコード遷移モデルの機械学習の説明図である。FIG. 20 is an explanatory diagram of machine learning of a chord transition model in the sixth embodiment;

<第1実施形態>
図1は、本発明の第1実施形態に係るコード推定装置100の構成を例示するブロック図である。第1実施形態のコード推定装置100は、楽曲の演奏音(例えば歌唱音声または楽音等)を表す音響信号Vからコードを推定するコンピュータシステムである。第1実施形態では、端末装置300が送信した音響信号Vからコードの時系列を推定して、推定したコードの時系列を端末装置300に送信するサーバ装置がコード推定装置100として利用される。端末装置300は、例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末であり、移動体通信網またはインターネット等を含む通信網を介してコード推定装置100と通信可能である。
<First Embodiment>
FIG. 1 is a block diagram illustrating the configuration of a code estimation device 100 according to the first embodiment of the present invention. A chord estimation device 100 of the first embodiment is a computer system that estimates chords from an acoustic signal V representing performance sounds of a piece of music (for example, singing voices or musical tones). In the first embodiment, a server device that estimates the code time series from the acoustic signal V transmitted by the terminal device 300 and transmits the estimated code time series to the terminal device 300 is used as the code estimation device 100 . The terminal device 300 is, for example, a portable information terminal such as a mobile phone or a smart phone, or a portable or stationary information terminal such as a personal computer. It can communicate with the device 100 .

具体的には、コード推定装置100は、通信装置11と制御装置12と記憶装置13とを具備する。通信装置11は、通信網を介して端末装置300と通信する通信機器である。なお、通信装置11による通信は有線通信および無線通信の何れでもよい。第1実施形態の通信装置11は、端末装置300から送信された音響信号Vを受信する。制御装置12は、例えばCPU(Central Processing Unit)等の処理回路であり、コード推定装置100を構成する各要素を統括的に制御する。制御装置12は、少なくとも1個の回路を含んで構成される。第1実施形態の制御装置12は、端末装置300から送信された音響信号Vからコードの時系列を推定する。 Specifically, the code estimation device 100 includes a communication device 11 , a control device 12 and a storage device 13 . The communication device 11 is a communication device that communicates with the terminal device 300 via a communication network. Communication by the communication device 11 may be either wired communication or wireless communication. The communication device 11 of the first embodiment receives the acoustic signal V transmitted from the terminal device 300 . The control device 12 is, for example, a processing circuit such as a CPU (Central Processing Unit), and comprehensively controls each element constituting the code estimation device 100 . The controller 12 comprises at least one circuit. The control device 12 of the first embodiment estimates the code time series from the acoustic signal V transmitted from the terminal device 300 .

記憶装置(メモリ)13は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置12が実行するプログラムと制御装置12が使用する各種のデータとを記憶する。なお、コード推定装置100とは別体の記憶装置13(例えばクラウドストレージ)を用意し、移動体通信網またはインターネット等の通信網を介して制御装置12が記憶装置13に対する書込および読出を実行してもよい。すなわち、記憶装置13はコード推定装置100から省略され得る。 The storage device (memory) 13 is composed of a known recording medium such as a magnetic recording medium or a semiconductor recording medium, or a combination of a plurality of types of recording media. Stores various data. Note that a storage device 13 (for example, cloud storage) is prepared separately from the code estimation device 100, and the control device 12 executes writing and reading to and from the storage device 13 via a communication network such as a mobile communication network or the Internet. You may That is, the storage device 13 can be omitted from the code estimation device 100 .

図2は、制御装置12の機能的な構成を例示するブロック図である。制御装置12は、記憶装置13に記憶されたプログラムに従って複数のタスクを実行することにより、音響信号Vからコードを推定するための複数の機能(第1抽出部21,解析部23,第2抽出部25およびコード推定部27)を実現する。なお、複数の装置の集合(すなわちシステム)で制御装置12の機能を実現してもよいし、制御装置12の機能の一部または全部を専用の電子回路(例えば信号処理回路)で実現してもよい。 FIG. 2 is a block diagram illustrating the functional configuration of the control device 12. As shown in FIG. The control device 12 performs a plurality of tasks according to a program stored in the storage device 13, thereby providing a plurality of functions (first extraction unit 21, analysis unit 23, second extraction 25 and code estimator 27). Note that the functions of the control device 12 may be implemented by a set of multiple devices (that is, a system), or some or all of the functions of the control device 12 may be implemented by a dedicated electronic circuit (for example, a signal processing circuit). good too.

第1抽出部21は、音響信号Vから当該音響信号Vの第1特徴量Y1を抽出する。第1特徴量Y1は、図3に例示される通り、単位期間T(T1,T2,T3,…)毎に抽出される。単位期間Tは、例えば楽曲の1拍分に相当する期間である。すなわち、音響信号Vから第1特徴量Y1の時系列が生成される。なお、楽曲の拍点とは無関係に固定長または可変長の単位期間Tを画定してもよい。 The first extraction unit 21 extracts the first feature Y1 of the acoustic signal V from the acoustic signal V. As shown in FIG. The first feature Y1 is extracted for each unit period T (T1, T2, T3, . . . ) as illustrated in FIG. The unit period T is, for example, a period corresponding to one beat of music. That is, a time series of the first feature Y1 is generated from the acoustic signal V. FIG. It should be noted that the fixed-length or variable-length unit period T may be defined regardless of the beat of the music.

第1特徴量Y1は、音響信号Vのうち各単位期間Tに対応した部分について音響的な特徴を表す指標である。図4には、第1特徴量Y1が模式的に図示されている。一例として、第1特徴量Y1は、複数の音階音(例えば平均律の12半音)にそれぞれ対応する複数の要素を含むクロマベクトル(PCP:Pitch Class Profile)と、音響信号Vの強度Pvを含む。音階音は、オクターブの相違を無視した音名(ピッチクラス)である。クロマベクトルのうち任意の音階音に対応する要素は、音響信号Vのうち当該音階音に対応する成分の強度を複数のオクターブにわたり加算した強度(以下「成分強度」という)Pqに設定される。第1実施形態の第1特徴量Y1は、所定の周波数よりも低域側の帯域と高域側の帯域との各々について、クロマベクトルおよび強度Pvを含む。つまり、音響信号Vのうち低域側の帯域に関するクロマベクトルと、当該帯域内の音響信号Vの強度Pvと、音響信号Vのうち高域側の帯域に関するクロマベクトルと、当該帯域内の音響信号Vの強度Pvとが第1特徴量Y1に含まれる。すなわち、第1特徴量Y1は、全体として26次元のベクトルで表現される。 The first feature amount Y1 is an index representing the acoustic features of the portion of the acoustic signal V corresponding to each unit period T. As shown in FIG. FIG. 4 schematically shows the first feature Y1. As an example, the first feature amount Y1 includes a chroma vector (PCP: Pitch Class Profile) including a plurality of elements corresponding to a plurality of scale tones (e.g., 12 semitones of equal temperament) and the strength Pv of the acoustic signal V. . Scale notes are note names (pitch classes) ignoring octave differences. An element of the chroma vector corresponding to an arbitrary scale tone is set to an intensity (hereinafter referred to as "component intensity") Pq obtained by adding the intensities of the components of the acoustic signal V corresponding to the scale tone in question over a plurality of octaves. The first feature amount Y1 of the first embodiment includes the chroma vector and the intensity Pv for each of the band on the lower side and the band on the higher side than the predetermined frequency. That is, the chroma vector for the low-frequency band of the audio signal V, the intensity Pv of the audio signal V in the band, the chroma vector for the high-frequency band of the audio signal V, and the audio signal in the band The intensity Pv of V is included in the first feature Y1. That is, the first feature Y1 is expressed as a 26-dimensional vector as a whole.

図2の解析部23は、第1抽出部21が抽出した第1特徴量Y1から第1コードX1を推定する。図3に例示される通り、第1特徴量Y1毎(すなわち単位期間T毎)に第1コードX1が推定される。すなわち、第1コードX1の時系列が生成される。第1コードX1は、音響信号Vに応じた初期的ないし暫定的なコードである。例えば、相異なるコードが対応付けられた複数の第1特徴量Y1のうち、第1抽出部21が抽出した第1特徴量Y1に最も類似する第1特徴量Y1に対応付けられたコードが第1コードX1として推定される。なお、音響信号Vの入力により第1コードX1を生成する統計的推定モデル(例えば隠れマルコフモデルまたはニューラルネットワーク)を第1コードX1の推定に利用してもよい。以上の説明から理解される通り、第1抽出部21と解析部23とは、音響信号Vから第1コードX1を推定する前処理部20として機能する。前処理部20は、「第1コード推定部」の一例である。 The analysis unit 23 in FIG. 2 estimates the first code X1 from the first feature Y1 extracted by the first extraction unit 21. FIG. As illustrated in FIG. 3, the first code X1 is estimated for each first feature Y1 (that is, each unit period T). That is, a time series of the first code X1 is generated. The first code X1 is an initial or provisional code corresponding to the acoustic signal V. FIG. For example, among a plurality of first feature quantities Y1 associated with different codes, the code associated with the first feature quantity Y1 most similar to the first feature quantity Y1 extracted by the first extraction unit 21 is the first code. estimated as 1 code X1. A statistical estimation model (for example, a hidden Markov model or a neural network) that generates the first code X1 from the input of the acoustic signal V may be used to estimate the first code X1. As can be understood from the above description, the first extraction unit 21 and the analysis unit 23 function as the preprocessing unit 20 that estimates the first code X1 from the acoustic signal V. FIG. The preprocessing unit 20 is an example of a "first chord estimation unit".

図2の第2抽出部25は、音響信号Vから第2特徴量Y2を抽出する。第2特徴量Y2は、音響的な特徴を音響信号Vの時間変化を加味して表す指標である。一例として、第2抽出部25は、第1抽出部21が抽出した第1特徴量Y1と、解析部23が推定した第1コードX1とから第2特徴量Y2を抽出する。図3に例示される通り、同じ第1コードX1が推定された一連の区間(以下「連続区間」という)毎に第2特徴量Y2が抽出される。例えば第1コードX1として「F」が推定された連続区間(単位期間T1-T4に相当する区間)について、1個の第2特徴量Y2が抽出される。図4には、第2特徴量Y2が模式的に図示されている。第1実施形態の第2特徴量Y2は、音階音毎の成分強度Pqの時系列に関する分散σqおよび平均μqと、音響信号Vの強度Pvの時系列に関する分散σvおよび平均μvとを、低域側の帯域と高域側の帯域との各々について含む。第1実施形態の第2抽出部25は、図4に例示される通り、連続区間内の複数の第1特徴量Y1の各々に含まれる成分強度Pq(つまり連続区間内における成分強度Pqの時系列)の分散σqおよび平均μqと、連続区間内の複数の第1特徴量Y1の各々に含まれる強度Pv(つまり連続区間内における強度Pvの時系列)の分散σvおよび平均μvとを算定することにより、第2特徴量Y2を抽出する。第2特徴量Y2は、全体として52次元のベクトルで表現される。以上の説明から理解される通り、第2特徴量Y2は、各音階音の成分強度Pqの時間変化に関する指標(典型的には分散σq等の散布度)と、音響信号Vの強度Pvの時間変化に関する指標(典型的には分散σv等の散布度)とを含む。 The second extractor 25 in FIG. 2 extracts the second feature quantity Y2 from the acoustic signal V. As shown in FIG. The second feature amount Y2 is an index representing an acoustic feature in consideration of changes in the acoustic signal V over time. As an example, the second extraction unit 25 extracts the second feature Y2 from the first feature Y1 extracted by the first extraction unit 21 and the first code X1 estimated by the analysis unit 23 . As exemplified in FIG. 3, the second feature Y2 is extracted for each series of intervals in which the same first code X1 is estimated (hereinafter referred to as "continuous intervals"). For example, one second feature Y2 is extracted for a continuous section (a section corresponding to the unit period T1-T4) in which "F" is estimated as the first code X1. FIG. 4 schematically shows the second feature Y2. The second feature amount Y2 of the first embodiment is the variance σq and average μq regarding the time series of the component strength Pq for each tone of the scale, and the variance σv and average μv regarding the time series of the strength Pv of the acoustic signal V. This is included for each of the side band and the high side band. As exemplified in FIG. 4, the second extraction unit 25 of the first embodiment has a component intensity Pq included in each of the plurality of first feature quantities Y1 in the continuous interval (that is, when the component intensity Pq in the continuous interval series) and the variance σv and average μv of the intensity Pv (that is, the time series of the intensity Pv in the continuous interval) contained in each of the plurality of first feature quantities Y1 in the continuous interval. Thus, the second feature Y2 is extracted. The second feature Y2 is expressed as a 52-dimensional vector as a whole. As can be understood from the above description, the second feature quantity Y2 is an index (typically, the degree of dispersion such as variance σq) relating to the time change of the component strength Pq of each scale sound, and the time Indices of change (typically the degree of scatter, such as variance σv).

ところで、前処理部20が推定した第1コードX1の時系列を端末装置300に送信することも可能である。しかし、前処理部20により推定された第1コードX1には、利用者Uが変更する余地がある。例えば、第1コードX1が誤推定された場合、または、第1コードX1が利用者Uの嗜好に適合しない場合には、第1コードX1を変更する必要がある。以上の事情を考慮して、図2のコード推定部27は、学習済モデルMを利用して、第1コードX1および第2特徴量Y2から第2コードX2を推定する。図3に例示される通り、第1コードX1に対応した第2コードX2の時系列が推定される。学習済モデルMは、第1コードX1に対する変更の傾向を学習した予測モデルであり、多数の利用者が第1コードX1を変更した結果を示す教師データを利用した機械学習で生成される。つまり、第2コードX2は、多数の利用者によるコードの変更の傾向のもとで第1コードX1に対して統計的に妥当性の高いコードである。コード推定部27は、「第2コード推定部」の一例である。 By the way, it is also possible to transmit the time series of the first code X1 estimated by the preprocessing unit 20 to the terminal device 300. FIG. However, the first code X1 estimated by the preprocessing unit 20 has room for the user U to change. For example, if the first code X1 is erroneously estimated, or if the first code X1 does not suit the user U's preferences, the first code X1 needs to be changed. Considering the above circumstances, the code estimator 27 in FIG. 2 uses the learned model M to estimate the second code X2 from the first code X1 and the second feature Y2. As illustrated in FIG. 3, the time series of the second code X2 corresponding to the first code X1 is estimated. The trained model M is a predictive model that has learned the tendency of changes to the first code X1, and is generated by machine learning using teacher data indicating the results of changes made to the first code X1 by many users. In other words, the second code X2 is a code that is statistically more valid than the first code X1 under the trend of code changes by many users. The chord estimator 27 is an example of a "second chord estimator".

コード推定部27は、図2に例示される通り、学習済モデルMと推定処理部70とを含んで構成される。第1実施形態の学習済モデルMは、第1学習済モデルM1と第2学習済モデルM2とで構成される。第1学習済モデルM1は、多数の利用者による第1コードX1に対する変更の内容に関する傾向(以下「第1傾向」という)を学習した予測モデルである。第1傾向は、第1コードX1がどのようなコードに変更されるのかという傾向である。他方、第2学習済モデルM2は、第1傾向とは異なるコードの変更の傾向(以下「第2傾向」という)を学習した予測モデルである。具体的には、第2傾向は、コードに対する変更の有無の傾向、および、コードに対する変更の内容に関する傾向を含む傾向である。例えば、第2傾向は、第1コードX1が変更されるか否か、および、第1コードX1が変更されるとすればどのようなコードに変更されるのか、という傾向である。すなわち、第1傾向は第2傾向に包含される関係にある。 The code estimation unit 27 includes a trained model M and an estimation processing unit 70, as illustrated in FIG. The trained model M of the first embodiment is composed of a first trained model M1 and a second trained model M2. The first trained model M1 is a prediction model that has learned a tendency (hereinafter referred to as a "first tendency") regarding the content of changes made to the first code X1 by many users. The first tendency is the tendency of what kind of code the first code X1 is changed to. On the other hand, the second trained model M2 is a prediction model that has learned a code change tendency (hereinafter referred to as "second tendency") different from the first tendency. Specifically, the second trend is a trend including a trend regarding the presence or absence of changes to the code and a trend regarding the content of changes to the code. For example, the second tendency is whether or not the first code X1 will be changed, and if so, what kind of code it will be changed to. That is, the first trend is included in the second trend.

第1学習済モデルM1は、第1コードX1および第2特徴量Y2の入力に対し、第2コードX2の候補となる複数のコード(以下「候補コード」という)の各々について出現確率λ1を出力する。具体的には、根音と種類(例えばメジャーまたはマイナー等のコードタイプ)とベース音との組合せが異なるQ個の候補コードの各々について出現確率λ1が出力される(Qは2以上の自然数)。第1傾向のもとで第1コードX1から変更される可能性が高い候補コードの出現確率λ1は相対的に高い数値となる。他方、第2学習済モデルM2は、第1コードX1および第2特徴量Y2の入力に対し、Q個の候補コードの各々について出現確率λ2を出力する。第2傾向のもとで第1コードX1から変更される可能性が高い候補コードの出現確率λ2は相対的に高い数値となる。なお、Q個の候補コードのうちのひとつとして「コード無し」を含めてもよい。 The first trained model M1 outputs the probability of appearance λ1 for each of a plurality of codes (hereinafter referred to as "candidate codes") that are candidates for the second code X2 in response to the inputs of the first code X1 and the second feature Y2. do. Specifically, the occurrence probability λ1 is output for each of Q candidate chords having different combinations of root note, type (for example, chord type such as major or minor), and base note (Q is a natural number of 2 or more). . The appearance probability λ1 of the candidate code that is highly likely to be changed from the first code X1 under the first trend is a relatively high numerical value. On the other hand, the second trained model M2 outputs the appearance probability λ2 for each of the Q candidate codes for the input of the first code X1 and the second feature Y2. The appearance probability λ2 of the candidate code that is highly likely to be changed from the first code X1 under the second trend is a relatively high value. Note that "no code" may be included as one of the Q candidate codes.

推定処理部70は、第1学習済モデルM1による推定の結果と、第2学習済モデルM2による推定の結果とに基づいて第2コードX2を推定する。第1実施形態では、第1学習済モデルM1が出力した出現確率λ1と、第2学習済モデルM2が出力した出現確率λ2とに基づいて第2コードX2が推定される。具体的には、推定処理部70は、出現確率λ1と出現確率λ2とを候補コード毎に統合することにより候補コード毎の出現確率λ0を算定し、Q個の候補コードのうち出現確率λ0が高い候補コードを第2コードX2として推定する。すなわち、第1傾向および第2傾向の双方のもとで第1コードX1に対して統計的に妥当な候補コードが第2コードX2として出力される。各候補コードの出現確率λ0は、例えば出現確率λ1と出現確率λ2との加重和である。なお、出現確率λ1と出現確率λ2とを加算すること、または、出現確率λ1と出現確率λ2とを所定の関数に入力することにより、出現確率λ0を算定してもよい。コード推定部27により推定された第2コードX2の時系列は、利用者Uの端末装置300に送信される。 The estimation processing unit 70 estimates the second code X2 based on the result of estimation by the first trained model M1 and the result of estimation by the second trained model M2. In the first embodiment, the second code X2 is estimated based on the occurrence probability λ1 output by the first trained model M1 and the occurrence probability λ2 output by the second trained model M2. Specifically, the estimation processing unit 70 calculates the appearance probability λ0 for each candidate code by integrating the appearance probability λ1 and the appearance probability λ2 for each candidate code, and the appearance probability λ0 among the Q candidate codes is Presume the high candidate code as the second code X2. That is, a candidate code that is statistically valid for the first code X1 under both the first trend and the second trend is output as the second code X2. The occurrence probability λ0 of each candidate code is, for example, the weighted sum of the occurrence probability λ1 and the occurrence probability λ2. The appearance probability λ0 may be calculated by adding the appearance probability λ1 and the appearance probability λ2, or by inputting the appearance probability λ1 and the appearance probability λ2 into a predetermined function. The time series of the second code X2 estimated by the code estimation unit 27 is transmitted to the terminal device 300 of the user U.

第1学習済モデルM1は、例えばニューラルネットワーク(典型的にはディープニューラルネットワーク)であり、複数の係数K1で規定される。同様に、第2学習済モデルM2は、例えばニューラルネットワーク(典型的にはディープニューラルネットワーク)であり、複数の係数K2で規定される。複数の係数K1および複数の係数K2は、多数の利用者によるコードの変更の傾向を示す教師データLを利用した機械学習により設定される。図5は、複数の係数K1と複数の係数K2とを設定するための機械学習装置200の構成を示すブロック図である。機械学習装置200は、教師データ生成部51と学習部53とを具備するコンピュータシステムで実現される。教師データ生成部51および学習部53は、例えばCPU(Central Processing Unit)等の制御装置(図示略)により実現される。なお、コード推定装置100に機械学習装置200を搭載してもよい。 The first trained model M1 is, for example, a neural network (typically a deep neural network) and is defined by a plurality of coefficients K1. Similarly, the second trained model M2 is, for example, a neural network (typically a deep neural network), defined by a plurality of coefficients K2. A plurality of coefficients K1 and a plurality of coefficients K2 are set by machine learning using teacher data L indicating the tendency of code changes by many users. FIG. 5 is a block diagram showing the configuration of a machine learning device 200 for setting multiple coefficients K1 and multiple coefficients K2. Machine learning device 200 is implemented by a computer system that includes teacher data generation unit 51 and learning unit 53 . The teacher data generation unit 51 and the learning unit 53 are realized by a control device (not shown) such as a CPU (Central Processing Unit). Note that the code estimation device 100 may be equipped with the machine learning device 200 .

機械学習装置200の記憶装置(図示略)は、教師データLを生成するための複数の変更データZを記憶する。変更データZは事前に多数の端末装置から収集される。例えば、利用者の端末装置において解析部23が音響信号Vから第1コードX1の時系列を推定した場合を想定する。利用者は、解析部23により推定された複数の第1コードX1の各々について、変更するか否かを確認し、変更がある場合には変更後のコードを入力する。すなわち、各変更データZは、利用者の第1コードX1に対する変更の履歴を表すデータである。複数の第1コードX1の確認を利用者が完了すると、変更データZが生成され、機械学習装置200に送信される。多数の利用者の端末装置から各変更データZが機械学習装置200に送信される。なお、機械学習装置200が変更データZを生成してもよい。 A storage device (not shown) of the machine learning device 200 stores a plurality of changed data Z for generating teacher data L. FIG. The change data Z are collected in advance from many terminal devices. For example, it is assumed that the analysis unit 23 estimates the time series of the first code X1 from the acoustic signal V in the terminal device of the user. The user confirms whether or not to change each of the plurality of first codes X1 estimated by the analysis unit 23, and if there is a change, inputs the changed code. That is, each change data Z is data representing the history of changes to the first code X1 by the user. When the user completes confirmation of the plurality of first codes X1, change data Z is generated and transmitted to the machine learning device 200. FIG. Each change data Z is transmitted to the machine learning device 200 from terminal devices of many users. Note that the machine learning device 200 may generate the change data Z. FIG.

各変更データZは、利用者による第1コードX1に対する変更の有無および内容を、音響信号Vから推定された第1コードX1の時系列毎に表す。具体的には、任意の1個の変更データZは、図5に例示される通り、端末装置において推定された各第1コードX1に、当該第1コードX1に対応する確認済コードおよび第2特徴量Y2を対応付けて登録されたデータテーブルである。すなわち、第1コードX1の時系列と、確認済コードの時系列と、第2特徴量Y2の時系列とで変更データZが構成される。確認済コードは、第1コードX1に対する変更の有無および内容を示すコードである。具体的には、第1コードX1を利用者が変更した場合には変更後のコードが確認済コードして設定され、第1コードX1を利用者が変更しなかった場合には、当該第1コードX1が確認済コードとして設定される。なお、第1コードX1に対応する第2特徴量Y2は、第1コードX1と第1特徴量Y1とから生成されて変更データZに登録される。 Each change data Z represents whether or not the first code X1 has been changed by the user and the content of the change for each time series of the first code X1 estimated from the acoustic signal V. FIG. Specifically, as exemplified in FIG. 5, any one change data Z is added to each first code X1 estimated in the terminal device, a confirmed code corresponding to the first code X1 and a second It is a data table registered in association with the feature amount Y2. That is, the change data Z is composed of the time series of the first code X1, the time series of the confirmed codes, and the time series of the second feature Y2. The confirmed code is a code that indicates whether or not the first code X1 has been changed and the content of the change. Specifically, when the user changes the first code X1, the changed code is set as the confirmed code, and when the user does not change the first code X1, the first code X1 is set as the confirmed code. Code X1 is set as the verified code. The second feature Y2 corresponding to the first code X1 is registered in the change data Z generated from the first code X1 and the first feature Y1.

機械学習装置200の教師データ生成部51は、変更データZから教師データLを生成する。第1実施形態の教師データ生成部51は、図5に例示される通り、選択部512と処理部514とを具備する。選択部512は、複数の変更データZのうち教師データLを生成するのに適した変更データZを選択する。例えば、第1コードX1が変更された箇所の総数が多い変更データZは、利用者によるコードの変更の傾向を表すデータとして信頼性が高いと評価できる。以上の傾向を考慮して、例えば、第1コードX1が変更された箇所の総数が所定の閾値を上回る変更データZが選択される。具体的には、複数の変更データZのうち、第1コードX1とは異なる確認済コードの個数が例えば10個以上である変更データZが選択される。 The teacher data generator 51 of the machine learning device 200 generates teacher data L from the modified data Z. FIG. The teacher data generation unit 51 of the first embodiment includes a selection unit 512 and a processing unit 514, as illustrated in FIG. The selection unit 512 selects the change data Z suitable for generating the teacher data L from among the plurality of change data Z. FIG. For example, the change data Z, in which the total number of places where the first code X1 is changed is large, can be evaluated as having high reliability as data representing the tendency of the code change by the user. Considering the above tendency, for example, change data Z is selected in which the total number of places where the first code X1 is changed exceeds a predetermined threshold. Specifically, among the plurality of pieces of change data Z, change data Z having, for example, 10 or more confirmed codes different from the first code X1 is selected.

図5の処理部514は、選択部512が選択した変更データZから教師データLを生成する。教師データLは、図5に例示される通り、第1コードX1と、当該第1コードX1に対応する確認済コードと、当該第1コードX1に対応する第2特徴量Y2との組合せである。すなわち、選択部512が選択した任意の1個の変更データZから、複数の教師データLが生成される。以上に説明した処理により、教師データ生成部51は、N個の教師データLを生成する。 The processing unit 514 in FIG. 5 generates teacher data L from the change data Z selected by the selection unit 512 . The teacher data L is, as illustrated in FIG. 5, a combination of a first code X1, a confirmed code corresponding to the first code X1, and a second feature Y2 corresponding to the first code X1. . That is, a plurality of teacher data L are generated from any one change data Z selected by the selection unit 512 . The teacher data generation unit 51 generates N pieces of teacher data L by the processing described above.

N個の教師データLは、N1個の教師データLとN2個の教師データLとに区分される(N=N1+N2)。N1個の教師データL(以下「変更済教師データL1」という)は、利用者による変更の対象となった第1コードX1を含む。すなわち、N1の変更済教師データL1の各々に含まれる確認済コードは、第1コードX1に対する変更後のコード(すなわち第1コードX1とは異なるコード)である。N1個の変更済教師データL1は、前述の第1傾向を表す学習用のビッグデータである。他方、N2個の教師データL(以下「未変更教師データL2」という)は、利用者による変更の対象とならなかった第1コードX1を含む。すなわち、N2個の未変更教師データL2の各々に含まれる確認済コードは、第1コードX1と同様のコードである。N1個の変更済教師データL1とN2個の未変更教師データL2とを含むN個の教師データLは、前述の第2傾向を表す学習用のビッグデータに相当する。 The N pieces of teacher data L are divided into N1 pieces of teacher data L and N2 pieces of teacher data L (N=N1+N2). The N1 pieces of training data L (hereinafter referred to as "modified training data L1") include the first code X1 subject to modification by the user. That is, the confirmed code included in each of the N1 changed teacher data L1 is a code after changing the first code X1 (that is, a code different from the first code X1). The N1 pieces of changed teacher data L1 are learning big data representing the first tendency described above. On the other hand, the N2 pieces of teaching data L (hereinafter referred to as "unchanged teaching data L2") include the first code X1 that has not been subject to change by the user. That is, the confirmed code included in each of the N2 pieces of unchanged teaching data L2 is the same code as the first code X1. N teacher data L including N1 changed teacher data L1 and N2 unchanged teacher data L2 correspond to learning big data representing the second tendency.

学習部53は、教師データ生成部51が生成したN個の教師データLから、係数K1および係数K2を生成する。第1実施形態の学習部53は、第1学習部532と第2学習部534とを具備する。第1学習部532は、N個の教師データLのうちN1個の変更済教師データL1を利用した機械学習(深層学習)により、第1学習済モデルM1を規定する複数の係数K1を生成する。すなわち、第1傾向が反映された複数の係数K1が生成される。複数の係数K1により規定される第1学習済モデルM1は、N1個の変更済教師データL1が表す傾向のもとで、第1コードX1および第2特徴量Y2と、確認済コード(第2コードX2)との間の関係を学習した予測モデルである。 The learning unit 53 generates the coefficient K1 and the coefficient K2 from the N pieces of teacher data L generated by the teacher data generating unit 51 . The learning section 53 of the first embodiment includes a first learning section 532 and a second learning section 534 . The first learning unit 532 generates a plurality of coefficients K1 that define the first trained model M1 by machine learning (deep learning) using N1 changed teacher data L1 out of N teacher data L. . That is, a plurality of coefficients K1 reflecting the first tendency are generated. The first trained model M1 defined by a plurality of coefficients K1 has a first code X1 and a second feature quantity Y2, and a confirmed code (second It is a prediction model that has learned the relationship between code X2).

第2学習部534は、N個の教師データ(N1個の変更済教師データL1およびN2個の未変更教師データL2)を利用した機械学習により、第2学習済モデルM2を規定する複数の係数K2を生成する。すなわち、第2傾向が反映された複数の係数K2が生成される。複数の係数K2により規定される第2学習済モデルM2は、N個の教師データLが表す傾向のもとで、第1コードX1および第2特徴量Y2と、確認済コードとの間の関係を学習した予測モデルである。機械学習装置200により生成された複数の係数K1および複数の係数K2が、コード推定装置100の記憶装置13に記憶される。 The second learning unit 534 performs machine learning using N pieces of teacher data (N1 pieces of changed teacher data L1 and N2 pieces of unchanged teacher data L2) to obtain a plurality of coefficients that define the second learned model M2. Generate K2. That is, a plurality of coefficients K2 reflecting the second tendency are generated. A second trained model M2 defined by a plurality of coefficients K2 is a relationship between the first code X1 and the second feature quantity Y2 and the confirmed code under the tendency expressed by the N pieces of teacher data L. is a prediction model that has learned A plurality of coefficients K 1 and a plurality of coefficients K 2 generated by machine learning device 200 are stored in storage device 13 of code estimation device 100 .

図6は、コード推定装置100の制御装置12が第2コードX2を推定する処理(以下「コード推定処理」という)のフローチャートである。コード推定処理は、例えば端末装置300から送信された音響信号Vの受信を契機として開始される。コード推定処理を開始すると、第1抽出部21は、音響信号Vから第1特徴量Y1を抽出する(Sa1)。解析部23は、第1抽出部21が抽出した第1特徴量Y1から第1コードX1を推定する(Sa2)。第2抽出部25は、第1抽出部21が抽出した第1特徴量Y1と、解析部23が推定した第1コードX1とから第2特徴量Y2を抽出する(Sa3)。コード推定部27は、学習済モデルMに第1コードX1および第2特徴量Y2を入力することにより、第2コードX2を推定する(Sa4)。 FIG. 6 is a flow chart of processing (hereinafter referred to as "chord estimation processing") for estimating the second code X2 by the control device 12 of the chord estimation device 100. As shown in FIG. The code estimation process is started when the acoustic signal V transmitted from the terminal device 300 is received, for example. When the chord estimation process is started, the first extractor 21 extracts the first feature Y1 from the acoustic signal V (Sa1). The analysis unit 23 estimates the first code X1 from the first feature Y1 extracted by the first extraction unit 21 (Sa2). The second extraction unit 25 extracts the second feature Y2 from the first feature Y1 extracted by the first extraction unit 21 and the first code X1 estimated by the analysis unit 23 (Sa3). The code estimation unit 27 estimates the second code X2 by inputting the first code X1 and the second feature Y2 to the learned model M (Sa4).

図7は、コード推定部27の処理(Sa4)の詳細なフローチャートである。コード推定部27は、第1傾向を学習した第1学習済モデルM1により、候補コード毎の出現確率λ1を生成する(Sa4-1)。コード推定部27は、第2傾向を学習した第2学習済モデルM2により、候補コード毎の出現確率λ2を生成する(Sa4-2)。なお、出現確率λ1の生成(Sa4-1)と出現確率λ2の生成(Sa4-2)との順序を逆転してもよい。コード推定部27は、第1学習済モデルM1により生成した出現確率λ1と、第2学習済モデルM2により生成した出現確率λ2とを候補コード毎に統合することにより、候補コード毎の出現確率λ0を算定する(Sa4-3)。コード推定部27は、Q個の候補コードのうち出現確率λ0が高い候補コードを第2コードX2として推定する(Sa4-4)。 FIG. 7 is a detailed flowchart of the processing (Sa4) of the chord estimator 27. As shown in FIG. The chord estimator 27 generates the appearance probability λ1 for each candidate chord using the first trained model M1 that has learned the first tendency (Sa4-1). The chord estimator 27 generates the appearance probability λ2 for each candidate chord using the second trained model M2 that has learned the second tendency (Sa4-2). The order of generating the occurrence probability λ1 (Sa4-1) and generating the occurrence probability λ2 (Sa4-2) may be reversed. The code estimation unit 27 integrates the appearance probability λ1 generated by the first trained model M1 and the appearance probability λ2 generated by the second trained model M2 for each candidate code, thereby obtaining the appearance probability λ0 for each candidate code. is calculated (Sa4-3). The code estimator 27 estimates a candidate code with a high appearance probability λ0 among the Q candidate codes as the second code X2 (Sa4-4).

以上の説明から理解される通り、第1実施形態では、コードに対する変更の傾向を学習した学習済モデルMに第1コードX1および第2特徴量Y2を入力することにより、第2コードX2が推定されるから、音響信号Vから第1コードX1を推定するだけの構成と比較して、コードに対する変更の傾向を加味した第2コードX2を高精度に推定することができる。 As can be understood from the above description, in the first embodiment, the second code X2 is estimated by inputting the first code X1 and the second feature Y2 to the trained model M that has learned the tendency of changes to the code. Therefore, the second code X2 can be estimated with high accuracy in consideration of the change tendency of the code, as compared with the configuration of only estimating the first code X1 from the acoustic signal V. FIG.

第1実施形態では、第1傾向を学習した第1学習済モデルM1による推定結果(出現確率λ1)と、第2傾向を学習した第2学習済モデルM2による推定結果(出現確率λ2)とに基づいて第2コードX2が推定される。例えば第1学習済モデルM1による推定結果および第2学習済モデルM2による推定結果の何れか一方に基づいて第2コードX2を推定する方法では、コードに対する変更の傾向を適切に反映した第2コードX2が推定されないという問題がある。具体的には、第1学習済モデルM1による推定結果のみに基づいて第2コードX2を推定する方法では、入力した第1コードX1が必ず変更されてしまう。また、第2学習済モデルM2による推定結果のみに基づいて第2コードX2を推定する方法では、第1コードX1が変更の対象になりにくい。第1学習済モデルM1および第2学習済モデルM2を利用して第2コードX2を推定する第1実施形態の構成によれば、例えば第1学習済モデルM1および第2学習済モデルM2の何れか一方を利用して第2コードX2を推定する方法と比較して、コードに対する変更の傾向を適切に反映した第2コードX2を推定することができる。 In the first embodiment, the estimation result (occurrence probability λ1) by the first trained model M1 that has learned the first tendency and the estimation result (occurrence probability λ2) by the second trained model M2 that has learned the second tendency are Based on this, the second code X2 is estimated. For example, in the method of estimating the second code X2 based on either the estimation result of the first trained model M1 or the estimation result of the second trained model M2, the second code X2 appropriately reflects the tendency of changes to the code. The problem is that X2 is not estimated. Specifically, in the method of estimating the second code X2 based only on the estimation result of the first trained model M1, the input first code X1 is always changed. Further, in the method of estimating the second code X2 based only on the estimation result of the second trained model M2, the first code X1 is less subject to change. According to the configuration of the first embodiment in which the second code X2 is estimated using the first trained model M1 and the second trained model M2, for example, either the first trained model M1 or the second trained model M2 Compared to the method of estimating the second code X2 using either one, it is possible to estimate the second code X2 that appropriately reflects the tendency of changes to the code.

第1実施形態では、成分強度Pqの時系列における分散σqおよび平均μqと、音響信号Vの強度Pvの時系列における分散σvおよび平均μvとを含む第2特徴量Y2を学習済モデルに入力することにより、第2コードX2が推定されるから、音響信号Vの時間変化を加味して高精度に第2コードX2を推定することができる。 In the first embodiment, the second feature Y2 including the variance σq and average μq in the time series of the component intensity Pq and the variance σv and average μv in the time series of the intensity Pv of the acoustic signal V is inputted to the trained model. Thus, since the second code X2 is estimated, the second code X2 can be estimated with high accuracy in consideration of the time change of the acoustic signal V.

<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各態様において機能または作用が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。第1実施形態では、学習済モデルMに第1コードX1および第2特徴量Y2を入力することにより、第2コードX2を推定したが、学習済モデルMに入力するデータは、以下に例示する各形態のように変更される。
<Second embodiment>
A second embodiment of the present invention will be described. In addition, in each aspect illustrated below, the reference numerals used in the description of the first embodiment are used for the elements whose functions or actions are the same as those of the first embodiment, and the detailed description of each element is appropriately omitted. In the first embodiment, the second code X2 is estimated by inputting the first code X1 and the second feature Y2 into the trained model M, but the data input to the trained model M are exemplified below. Modified like each form.

図8は、第2実施形態におけるコード推定部27の構成図である。第2実施形態では、学習済モデルMに第1コードX1を入力することにより、第2コードX2を推定する。すなわち、第2実施形態の学習済モデルMは、第1コードX1と第2コードX2(確認済コード)との間の関係を学習した予測モデルである。学習済モデルMに入力される第1コードX1は、第1実施形態と同様の方法で生成される。第2実施形態においては、第2特徴量Y2の抽出(第2抽出部25)が省略される。 FIG. 8 is a configuration diagram of the chord estimation unit 27 in the second embodiment. In the second embodiment, by inputting the first code X1 to the trained model M, the second code X2 is estimated. That is, the learned model M of the second embodiment is a prediction model that has learned the relationship between the first code X1 and the second code X2 (confirmed code). The first code X1 input to the trained model M is generated by the same method as in the first embodiment. In the second embodiment, extraction of the second feature quantity Y2 (second extraction unit 25) is omitted.

<第3実施形態>
図9は、第3実施形態におけるコード推定部27の構成図である。第3実施形態では、学習済モデルMに第1特徴量Y1を入力することにより、第2コードX2を推定する。すなわち、第3実施形態の学習済モデルMは、第1特徴量Y1と第2コードX2(確認済コード)との間の関係を学習した予測モデルである。学習済モデルMに入力される第1特徴量Y1は、第1実施形態と同様の方法で生成される。第3実施形態においては、第1コードX1の推定(解析部23)と第2特徴量Y2の抽出(第2抽出部25)とが省略される。学習済モデルMに第1特徴量Y1を入力する第3実施形態の構成によれば、利用者によるコードの変更の傾向が考慮されるから、処理部20を使用する場合と比較して高精度に第2コードX2を特定することができる。
<Third Embodiment>
FIG. 9 is a configuration diagram of the chord estimation unit 27 in the third embodiment. In the third embodiment, the second code X2 is estimated by inputting the first feature Y1 to the learned model M. That is, the learned model M of the third embodiment is a prediction model that has learned the relationship between the first feature Y1 and the second code X2 (confirmed code). The first feature Y1 input to the trained model M is generated by the same method as in the first embodiment. In the third embodiment, the estimation of the first code X1 (analysis section 23) and the extraction of the second feature Y2 (second extraction section 25) are omitted. According to the configuration of the third embodiment in which the first feature amount Y1 is input to the learned model M, the tendency of the code to be changed by the user is taken into account. can identify the second code X2.

<第4実施形態>
図10は、第4実施形態におけるコード推定部27の構成図である。第3実施形態では、学習済モデルMに第2特徴量Y2を入力することにより、第2コードX2を推定する。すなわち、第4実施形態の学習済モデルMは、第2特徴量Y2と第2コードX2(確認済コード)との間の関係を学習した予測モデルである。学習済モデルMに入力される第2特徴量Y2は、第1実施形態と同様の方法で生成される。
<Fourth Embodiment>
FIG. 10 is a configuration diagram of the code estimation unit 27 in the fourth embodiment. In the third embodiment, the second code X2 is estimated by inputting the second feature Y2 to the trained model M. FIG. That is, the learned model M of the fourth embodiment is a prediction model that has learned the relationship between the second feature Y2 and the second code X2 (confirmed code). The second feature Y2 input to the trained model M is generated by the same method as in the first embodiment.

以上の説明から理解される通り、音響信号Vから第2コードX2を推定するために学習済モデルMに入力するデータは、音響信号Vの音響的な特徴を表す指標(以下「音響信号Vの特徴量」という)として包括的に表現される。音響信号Vの特徴量としては、第1特徴量Y1、第2特徴量Y2および第1コードX1の何れか、または、それらの組合せが例示される。なお、音響信号Vの特徴量は、第1特徴量Y1、第2特徴量Y2または第1コードX1に限定されない。例えば周波数スペクトルを音響信号Vの特徴量として利用してもよい。以上の説明から理解される通り、音響信号Vの特徴量は、コードの相違が反映される特徴量であれば任意である。 As can be understood from the above description, the data input to the trained model M for estimating the second code X2 from the acoustic signal V is an index representing the acoustic characteristics of the acoustic signal V (hereinafter referred to as "the (referred to as “feature quantity”). As the feature amount of the acoustic signal V, any one of the first feature amount Y1, the second feature amount Y2 and the first code X1, or a combination thereof is exemplified. Note that the feature amount of the acoustic signal V is not limited to the first feature amount Y1, the second feature amount Y2, or the first code X1. For example, a frequency spectrum may be used as the feature amount of the acoustic signal V. FIG. As can be understood from the above description, the feature amount of the acoustic signal V is arbitrary as long as the feature amount reflects the code difference.

以上の説明から理解される通り、学習済モデルMは、音響信号Vの特徴量とコードとの間の関係を学習した統計的推定モデルとして包括的に表現される。学習済モデルMに音響信号Vの特徴量を入力することにより、当該音響信号Vから第2コードX2を推定する前述の各形態の構成によれば、学習済モデルMにより学習された傾向に沿ったコードが推定される。したがって、事前に用意されたコードと音響信号Vの特徴量(例えば特許文献1では周波数スペクトル)との比較によりコードを推定する構成と比較して、音響信号Vの多様な特徴量から高精度にコードを推定できる。すなわち、特許文献1の技術では、音響信号Vの特徴量が、事前に用意されたコードから極端に乖離している場合に適切なコードを高精度に推定することができない。それに対して、前述の各形態の構成によれば、学習済モデルMにより学習された傾向に沿ってコードが推定されるから、音響信号Vの特徴量の内容に関わらず適切なコードを高精度に推定できる。 As can be understood from the above description, the trained model M is comprehensively expressed as a statistical estimation model that has learned the relationship between the feature quantity of the acoustic signal V and the code. According to the configuration of each of the above-described modes for estimating the second code X2 from the acoustic signal V by inputting the feature amount of the acoustic signal V into the trained model M, following the tendency learned by the trained model M, code is estimated. Therefore, compared to the configuration in which the code is estimated by comparing the code prepared in advance with the feature amount of the acoustic signal V (for example, the frequency spectrum in Patent Document 1), it is possible to accurately estimate the code from various feature amounts of the acoustic signal V. You can infer the code. That is, with the technique of Patent Document 1, when the feature amount of the acoustic signal V is extremely deviated from the code prepared in advance, an appropriate code cannot be estimated with high accuracy. On the other hand, according to the configuration of each of the above-described forms, the code is estimated along the tendency learned by the trained model M, so that the appropriate code can be determined with high accuracy regardless of the content of the feature amount of the acoustic signal V. can be estimated to

音響信号Vの特徴量とコードとの間の関係を学習した学習済モデルMのうち、第1コードを入力する学習済モデルM(例えば第1実施形態および第2実施形態で例示した学習済モデルM)は、コードに関する変更を学習した学習済モデルMとして包括的に表現される。 Of the trained models M that have learned the relationship between the feature quantity of the acoustic signal V and the chords, the trained model M that inputs the first code (for example, the trained model M illustrated in the first and second embodiments) M) is represented generically as a trained model M that has learned changes on the code.

<第5実施形態>
図11は、本発明の第5実施形態のコード推定装置100における制御装置12の機能的な構成を例示するブロック図である。第5実施形態の制御装置12は、第1実施形態と同様の要素(前処理部20,第2抽出部25およびコード推定部27)に加えて境界推定モデルMbとして機能する。第1抽出部21が生成した第1特徴量Y1の時系列が境界推定モデルMbに入力される。境界推定モデルMbは、第1特徴量Y1の時系列と境界データBとの関係を学習した学習済モデルである。すなわち、境界推定モデルMbは、第1特徴量Y1の時系列に応じた境界データBを出力する。境界データBは、時間軸上における各連続区間の境界を表す時系列データである。連続区間は、音響信号Vにおいて同じコードが継続する一連の区間である。例えば時系列データの処理に好適な長短期記憶(LSTM:Long Short Term Memory)等の再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)が境界推定モデルMbとして好適に利用される。
<Fifth Embodiment>
FIG. 11 is a block diagram illustrating the functional configuration of the control device 12 in the chord estimation device 100 according to the fifth embodiment of the invention. The controller 12 of the fifth embodiment functions as a boundary estimation model Mb in addition to the same elements (the preprocessing section 20, the second extraction section 25 and the code estimation section 27) as in the first embodiment. The time series of the first feature Y1 generated by the first extraction unit 21 is input to the boundary estimation model Mb. The boundary estimation model Mb is a trained model that has learned the relationship between the time series of the first feature Y1 and the boundary data B. FIG. That is, the boundary estimation model Mb outputs boundary data B according to the time series of the first feature Y1. Boundary data B is time-series data representing the boundary of each continuous section on the time axis. A continuous section is a series of sections in which the same code in the acoustic signal V continues. For example, a recurrent neural network (RNN: Recurrent Neural Network) such as a long short term memory (LSTM) suitable for processing time series data is preferably used as the boundary estimation model Mb.

図12は、境界データBの説明図である。境界データBは、時間軸上の各単位期間Tに対応する単位データbの時系列を含む。各単位期間Tの第1特徴量Y1毎に境界推定モデルMbから1個の単位データbが出力される。各単位期間Tに対応する単位データbは、当該単位期間Tに対応する時点が連続区間の境界に該当するか否かを2値的に表すデータである。例えば単位データbは、単位期間Tの始点が連続区間の境界である場合に数値1に設定され、当該単位期間Tの始点が連続区間の境界に該当しない場合に数値0に設定される。すなわち、単位データbの数値1は、当該単位データbに対応する単位期間Tが連続区間の先頭であることを意味する。以上の説明から理解される通り、境界推定モデルMbは、第1特徴量Y1の時系列から各連続区間の境界を推定する統計的推定モデルである。また、境界データBは、時間軸上の複数の時点の各々が連続区間の境界に該当するか否かを2値的に表す時系列データである。 12 is an explanatory diagram of the boundary data B. FIG. The boundary data B includes a time series of unit data b corresponding to each unit period T on the time axis. One unit data b is output from the boundary estimation model Mb for each first feature amount Y1 in each unit period T. FIG. The unit data b corresponding to each unit period T is binary data representing whether or not the time point corresponding to the unit period T corresponds to the boundary of the continuous section. For example, the unit data b is set to a numerical value of 1 when the starting point of the unit period T is the boundary of the continuous section, and is set to a numerical value of 0 when the starting point of the unit period T does not correspond to the boundary of the continuous section. That is, the numerical value 1 of the unit data b means that the unit period T corresponding to the unit data b is the beginning of the continuous section. As understood from the above description, the boundary estimation model Mb is a statistical estimation model that estimates the boundary of each continuous section from the time series of the first feature Y1. Boundary data B is time-series data that binary indicates whether or not each of a plurality of time points on the time axis corresponds to a boundary of a continuous section.

境界推定モデルMbは、第1特徴量Y1の時系列から境界データBを生成する演算を制御装置12に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数Kbとの組合せで実現される。複数の係数Kbは、複数の教師データLbを利用した機械学習(特に深層学習)により設定されて記憶装置13に記憶される。 The boundary estimation model Mb includes a program (for example, a program module constituting artificial intelligence software) that causes the control device 12 to execute a calculation for generating the boundary data B from the time series of the first feature Y1, and a plurality of is realized in combination with the coefficient Kb of A plurality of coefficients Kb are set by machine learning (especially deep learning) using a plurality of teacher data Lb and stored in the storage device 13 .

第1実施形態の第2抽出部25は、解析部23が解析した第1コードX1が連続する区間を連続区間として第2特徴量Y2を連続区間毎に抽出した。第5実施形態の第2抽出部25は、境界推定モデルMbから出力される境界データBが表す連続区間毎に第2特徴量Y2を抽出する。具体的には、第2抽出部25は、境界データBが表す連続区間内の1個以上の第1特徴量Y1から第2特徴量Y2を生成する。したがって、第2抽出部25に対する第1コードX1の入力は省略される。第2特徴量Y2の内容は第1実施形態と同様である。 The second extraction unit 25 of the first embodiment extracts the second feature Y2 for each continuous interval, which is the continuous interval where the first code X1 analyzed by the analysis unit 23 is continuous. The second extraction unit 25 of the fifth embodiment extracts the second feature Y2 for each continuous section represented by the boundary data B output from the boundary estimation model Mb. Specifically, the second extraction unit 25 generates a second feature Y2 from one or more first features Y1 in the continuous section represented by the boundary data B. FIG. Therefore, the input of the first code X1 to the second extractor 25 is omitted. The content of the second feature Y2 is the same as in the first embodiment.

図13は、第5実施形態におけるコード推定処理の具体的な手順を例示するフローチャートである。コード推定処理を開始すると、第1抽出部21は、音響信号Vから第1特徴量Y1を単位期間T毎に抽出する(Sb1)。解析部23は、第1抽出部21が抽出した第1特徴量Y1から第1コードX1を単位期間T毎に推定する(Sb2)。 FIG. 13 is a flowchart illustrating a specific procedure of chord estimation processing in the fifth embodiment. When the chord estimation process is started, the first extractor 21 extracts the first feature Y1 from the acoustic signal V for each unit period T (Sb1). The analysis unit 23 estimates the first code X1 from the first feature Y1 extracted by the first extraction unit 21 for each unit period T (Sb2).

境界推定モデルMbは、第1抽出部21が抽出した第1特徴量Y1の時系列から境界データBを生成する(Sb3)。第2抽出部25は、第1抽出部21が抽出した第1特徴量Y1と、境界推定モデルMbが生成した境界データBとから第2特徴量Y2を抽出する(Sb4)。具体的には、第2抽出部25は、境界データBが表す連続区間毎に、当該連続区間内の1個以上の第1特徴量Y1から第2特徴量Y2を生成する。コード推定部27は、学習済モデルMに第1コードX1および第2特徴量Y2を入力することにより第2コードX2を推定する(Sb5)。第2コードX2の推定(Sb5)の具体的な手順は第1実施形態(図7)と同様である。なお、解析部23による第1コードX1の推定(Sb2)と境界推定モデルMbによる境界データBの生成(Sb3)との順序を逆転してもよい。 The boundary estimation model Mb generates boundary data B from the time series of the first feature Y1 extracted by the first extraction unit 21 (Sb3). The second extraction unit 25 extracts the second feature Y2 from the first feature Y1 extracted by the first extraction unit 21 and the boundary data B generated by the boundary estimation model Mb (Sb4). Specifically, for each continuous section represented by the boundary data B, the second extraction unit 25 generates the second feature Y2 from one or more first feature Y1 in the continuous section. The code estimation unit 27 estimates the second code X2 by inputting the first code X1 and the second feature Y2 to the trained model M (Sb5). A specific procedure for estimating the second code X2 (Sb5) is the same as in the first embodiment (FIG. 7). The order of the estimation of the first code X1 by the analysis unit 23 (Sb2) and the generation of the boundary data B by the boundary estimation model Mb (Sb3) may be reversed.

図14は、境界推定モデルMbの複数の係数Kbを設定する機械学習装置200の構成を例示するブロック図である。第5実施形態の機械学習装置200は、第3学習部55を具備する。第3学習部55は、複数の教師データLbを利用した機械学習により複数の係数Kbを設定する。図14に例示される通り、複数の教師データLbの各々は、第1特徴量Y1の時系列と境界データBxとを含んで構成される。境界データBxは、各第1特徴量Y1に対応する既知の単位データbの時系列(すなわち正解値)で構成される。すなわち、境界データBxの複数の単位データbのうち、各連続区間の先頭の単位期間Tに対応する単位データbは数値1に設定され、各連続区間の先頭以外の単位期間Tに対応する単位データbは数値0に設定される。 FIG. 14 is a block diagram illustrating the configuration of a machine learning device 200 that sets multiple coefficients Kb of the boundary estimation model Mb. A machine learning device 200 according to the fifth embodiment includes a third learning unit 55 . The third learning unit 55 sets a plurality of coefficients Kb by machine learning using a plurality of teacher data Lb. As illustrated in FIG. 14, each of the plurality of teacher data Lb includes the time series of the first feature Y1 and the boundary data Bx. The boundary data Bx is composed of a time series (that is, correct values) of known unit data b corresponding to each first feature Y1. That is, among the plurality of unit data b of the boundary data Bx, the unit data b corresponding to the unit period T at the beginning of each continuous section is set to a numerical value of 1, and the unit data b corresponding to the unit periods T other than the beginning of each continuous section is set. Data b is set to a numerical value of zero.

第3学習部55は、教師データLbの第1特徴量Y1の時系列を入力することにより暫定的な境界推定モデルMbから出力される境界データBと、当該教師データLbの境界データBxとの相違が低減されるように、境界推定モデルMbの複数の係数Kbを更新する。具体的には、第3学習部55は、境界データBと境界データBxとの相違を表す評価関数が最小化されるように、例えば誤差逆伝播法により複数の係数Kbを反復的に更新する。以上の手順で機械学習装置200が設定した複数の係数Kbがコード推定装置100の記憶装置13に記憶される。したがって、境界推定モデルMbは、複数の教師データLbにおける第1特徴量Y1の時系列と境界データBxとの間に潜在する傾向のもとで、未知の第1特徴量Y1の時系列に対して統計的に妥当な境界データBを出力する。なお、第3学習部55をコード推定装置100に搭載してもよい。 The third learning unit 55 inputs the time series of the first feature Y1 of the teacher data Lb, and combines the boundary data B output from the temporary boundary estimation model Mb with the boundary data Bx of the teacher data Lb. Update the coefficients Kb of the boundary estimation model Mb so that the discrepancies are reduced. Specifically, the third learning unit 55 iteratively updates a plurality of coefficients Kb by, for example, error backpropagation so that the evaluation function representing the difference between the boundary data B and the boundary data Bx is minimized. . A plurality of coefficients Kb set by the machine learning device 200 in the above procedure are stored in the storage device 13 of the code estimation device 100 . Therefore, the boundary estimation model Mb is based on the latent tendency between the time series of the first feature Y1 in the plurality of teacher data Lb and the boundary data Bx, for the time series of the unknown first feature Y1 output statistically valid boundary data B. Note that the third learning unit 55 may be installed in the chord estimation device 100 .

以上に説明した通り、第5実施形態によれば、第1特徴量Y1の時系列と境界データBとの関係を学習した境界推定モデルMbを利用して、未知の音響信号Vに関する境界データBが生成される。したがって、境界データBに応じて生成された第2特徴量Y2を利用することにより、第2コードX2を高精度に推定することが可能である。 As described above, according to the fifth embodiment, the boundary data B related to the unknown acoustic signal V is calculated using the boundary estimation model Mb that has learned the relationship between the time series of the first feature Y1 and the boundary data B. is generated. Therefore, by using the second feature Y2 generated according to the boundary data B, it is possible to estimate the second code X2 with high accuracy.

<第6実施形態>
図15は、本発明の第6実施形態のコード推定装置100における制御装置12の機能的な構成を例示するブロック図である。第6実施形態のコード推定部27は、第1実施形態と同様の要素(学習済モデルMおよび推定処理部70)に加えてコード遷移モデルMcを含む。第2抽出部25が出力する第2特徴量Y2の時系列がコード遷移モデルMcに入力される。コード遷移モデルMcは、コードの遷移の傾向を学習した学習済モデルである。コードの遷移の傾向は、例えば既存の多数の楽曲に出現し易いコードの配列である。具体的には、コード遷移モデルMcは、第2特徴量Y2の時系列とコードを表すコードデータCの時系列との関係を学習した学習済モデルである。すなわち、コード遷移モデルMcは、第2特徴量Y2の時系列に応じたコードデータCを連続区間毎に出力する。例えば時系列データの処理に好適な長短期記憶(LSTM)等の再帰型ニューラルネットワーク(RNN)がコード遷移モデルMcとして好適に利用される。
<Sixth Embodiment>
FIG. 15 is a block diagram illustrating the functional configuration of the control device 12 in the chord estimation device 100 according to the sixth embodiment of the invention. The chord estimation unit 27 of the sixth embodiment includes a chord transition model Mc in addition to the same elements (learned model M and estimation processing unit 70) as in the first embodiment. The time series of the second feature Y2 output by the second extractor 25 is input to the chord transition model Mc. The chord transition model Mc is a trained model that has learned chord transition tendencies. The tendency of chord transitions is, for example, chord arrangements that tend to appear in a large number of existing songs. Specifically, the chord transition model Mc is a learned model that has learned the relationship between the time series of the second feature Y2 and the time series of the code data C representing the chord. That is, the chord transition model Mc outputs the chord data C according to the time series of the second feature Y2 for each continuous section. For example, a recurrent neural network (RNN) such as a long short-term memory (LSTM) suitable for processing time-series data is preferably used as the chord transition model Mc.

第6実施形態のコードデータCは、Q個の候補コードの各々について出現確率λcを表す。任意の1個の候補コードに対応する出現確率λcは、音響信号Vのうち連続区間内のコードが当該候補コードに該当する確率(または尤度)を意味する。出現確率λcは、0以上かつ1以下の範囲内の数値に設定される。以上の説明から理解される通り、コードデータCの時系列はコードの遷移を表す。すなわち、コード遷移モデルMcは、第2特徴量Y2の時系列からコードの遷移を推定する統計的推定モデルである。 The code data C of the sixth embodiment represents the appearance probability λc for each of Q candidate codes. The appearance probability λc corresponding to any one candidate code means the probability (or likelihood) that the code in the continuous section of the acoustic signal V corresponds to the candidate code. The appearance probability λc is set to a numerical value within the range of 0 or more and 1 or less. As can be understood from the above description, the time series of code data C represents code transitions. That is, the chord transition model Mc is a statistical estimation model for estimating chord transitions from the time series of the second feature Y2.

第6実施形態の推定処理部70は、第1学習済モデルM1が出力する出現確率λ1と、第2学習済モデルM2が出力する出現確率λ2と、コード遷移モデルMcが出力するコードデータCとに基づいて第2コードX2を推定する。具体的には、推定処理部70は、出現確率λ1と出現確率λ2とコードデータCの出現確率λcとを候補コード毎に統合することにより各候補コードの出現確率λ0を算定する。各候補コードの出現確率λ0は、例えば出現確率λ1と出現確率λ2と出現確率λcとの加重和である。推定処理部70は、Q個の候補コードのうち出現確率λ0が高い候補コードを第2コードX2として単位期間T毎に推定する。以上の説明から理解される通り、第6実施形態においては、学習済モデルMの出力(すなわち出現確率λ1および出現確率λ2)とコードデータC(出現確率λc)とに基づいて第2コードX2が推定される。すなわち、前述の第1傾向および第2傾向に加えて、コード遷移モデルMcが学習したコードの遷移の傾向を加味した第2コードX2が推定される。 The estimation processing unit 70 of the sixth embodiment generates the appearance probability λ1 output by the first trained model M1, the appearance probability λ2 output by the second trained model M2, and the chord data C output by the chord transition model Mc. Estimate the second code X2 based on Specifically, the estimation processing unit 70 calculates the appearance probability λ0 of each candidate code by integrating the appearance probability λ1, the appearance probability λ2, and the appearance probability λc of the code data C for each candidate code. The occurrence probability λ0 of each candidate code is, for example, the weighted sum of the occurrence probability λ1, the occurrence probability λ2, and the occurrence probability λc. The estimation processing unit 70 estimates a candidate code having a high appearance probability λ0 among the Q candidate codes for each unit period T as the second code X2. As can be understood from the above description, in the sixth embodiment, the second code X2 is generated based on the output of the trained model M (that is, the occurrence probability λ1 and the occurrence probability λ2) and the code data C (the occurrence probability λc). Presumed. That is, in addition to the above-described first and second tendencies, the second chord X2 is estimated in consideration of the chord transition tendency learned by the chord transition model Mc.

コード遷移モデルMcは、第2特徴量Y2の時系列からコードデータCの時系列を生成する演算を制御装置12に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数Kcとの組合せで実現される。複数の係数Kcは、複数の教師データLcを利用した機械学習(特に深層学習)により設定されて記憶装置13に記憶される。 The code transition model Mc is a program (for example, a program module constituting artificial intelligence software) that causes the control device 12 to execute a calculation for generating a time series of code data C from a time series of the second feature Y2, and is applied to the calculation. is realized in combination with a plurality of coefficients Kc that are A plurality of coefficients Kc are set by machine learning (especially deep learning) using a plurality of teacher data Lc and stored in the storage device 13 .

図16は、第6実施形態のコード推定部27が第2コードX2を推定する処理(Sa4)の具体的な手順を例示するフローチャートである。第6実施形態では、図7を参照して説明した第1実施形態の処理のうちステップSa4-3が、図16のステップSc1およびステップSc2に置換される。 FIG. 16 is a flowchart illustrating a specific procedure of processing (Sa4) for estimating the second code X2 by the code estimator 27 of the sixth embodiment. In the sixth embodiment, step Sa4-3 in the processing of the first embodiment described with reference to FIG. 7 is replaced with steps Sc1 and Sc2 in FIG.

出現確率λ1および出現確率λ2を候補コード毎に生成すると(Sa4-1,Sa4-2)、コード推定部27は、第2抽出部25が抽出した第2特徴量Y2の時系列をコード遷移モデルMcに入力することによりコードデータCの時系列を生成する(Sc1)。なお、出現確率λ1の生成(Sa4-1)と出現確率λ2の生成(Sa4-2)とコードデータCの生成(Sc1)との順序は任意に変更される。 When the occurrence probability λ1 and the occurrence probability λ2 are generated for each candidate code (Sa4-1, Sa4-2), the code estimation unit 27 converts the time series of the second feature Y2 extracted by the second extraction unit 25 into a code transition model A time series of code data C is generated by inputting to Mc (Sc1). The order of generating the occurrence probability λ1 (Sa4-1), generating the occurrence probability λ2 (Sa4-2), and generating the code data C (Sc1) can be arbitrarily changed.

コード推定部27は、出現確率λ1および出現確率λ2と、コードデータCが表す出現確率λcとを候補コード毎に統合することにより、候補コード毎の出現確率λ0を算定する(Sc2)。コード推定部27は、Q個の候補コードのうち出現確率λ0が高い候補コードを第2コードX2として推定する(Sa4-4)。第6実施形態において第2コードX2を推定する処理の具体的な手順は以上の通りである。 The code estimator 27 integrates the appearance probabilities λ1 and λ2 and the appearance probabilities λc represented by the code data C for each candidate code to calculate the appearance probability λ0 for each candidate code (Sc2). The code estimator 27 estimates a candidate code with a high appearance probability λ0 among the Q candidate codes as the second code X2 (Sa4-4). The specific procedure of the process of estimating the second code X2 in the sixth embodiment is as described above.

図17は、コード遷移モデルMcの複数の係数Kcを設定する機械学習装置200の構成を例示するブロック図である。第6実施形態の機械学習装置200は、第4学習部56を具備する。第4学習部56は、複数の教師データLcを利用した機械学習により複数の係数Kcを設定する。図17に例示される通り、複数の教師データLcの各々は、第2特徴量Y2の時系列とコードデータCxの時系列とを含んで構成される。コードデータCxは、相異なる候補コードに対応するQ個の出現確率λcで構成され、既知の楽曲におけるコードの遷移に応じて生成される。すなわち、コードデータCxのQ個の出現確率λcのうち、既知の楽曲に実際に出現する1個の候補コードに対応する出現確率λcは数値1に設定され、残余の(Q-1)個の候補コードに対応する出現確率λcは数値0に設定される。 FIG. 17 is a block diagram illustrating the configuration of a machine learning device 200 that sets multiple coefficients Kc of the chord transition model Mc. A machine learning device 200 according to the sixth embodiment includes a fourth learning unit 56 . The fourth learning unit 56 sets a plurality of coefficients Kc by machine learning using a plurality of teacher data Lc. As illustrated in FIG. 17, each of the plurality of teacher data Lc includes a time series of the second feature Y2 and a time series of the code data Cx. The chord data Cx is composed of Q occurrence probabilities λc corresponding to different candidate chords, and is generated according to chord transitions in a known piece of music. That is, out of the Q occurrence probabilities λc of the chord data Cx, the occurrence probability λc corresponding to one candidate chord that actually appears in a known piece of music is set to 1, and the remaining (Q−1) occurrence probabilities λc The probability of occurrence λc corresponding to the candidate code is set to zero.

第4学習部56は、教師データLcの第2特徴量Y2の時系列を入力することにより暫定的なコード遷移モデルMcから出力されるコードデータCの時系列と、当該教師データLcのコードデータCxの時系列との相違が低減されるように、コード遷移モデルMcの複数の係数Kcを更新する。具体的には、第4学習部56は、コードデータCの時系列とコードデータCxの時系列との相違を表す評価関数が最小化されるように、例えば誤差逆伝播法により複数の係数Kcを反復的に更新する。以上の手順で機械学習装置200が設定した複数の係数Kcがコード推定装置100の記憶装置13に記憶される。したがって、コード遷移モデルMcは、複数の教師データLcにおける第2特徴量Y2の時系列とコードデータCxの時系列との間に潜在する傾向(すなわち既存の楽曲に出現するコードの遷移の傾向)のもとで、未知の第2特徴量Y2の時系列に対して統計的に妥当なコードデータCの時系列を出力する。なお、第4学習部56をコード推定装置100に搭載してもよい。 The fourth learning unit 56 inputs the time series of the second feature Y2 of the teacher data Lc, and the time series of the code data C output from the provisional chord transition model Mc, and the code data of the teacher data Lc. A plurality of coefficients Kc of the chord transition model Mc are updated so as to reduce discrepancies with the time series of Cx. Specifically, the fourth learning unit 56 calculates a plurality of coefficients Kc by, for example, error backpropagation so that the evaluation function representing the difference between the time series of the code data C and the time series of the code data Cx is minimized. is iteratively updated. A plurality of coefficients Kc set by the machine learning device 200 in the above procedure are stored in the storage device 13 of the code estimation device 100 . Therefore, the chord transition model Mc is a latent tendency between the time series of the second feature Y2 and the time series of the chord data Cx in the plurality of teacher data Lc (that is, the tendency of chord transitions appearing in existing songs). , a time series of code data C that is statistically valid for the time series of the unknown second feature Y2 is output. Note that the fourth learning unit 56 may be installed in the chord estimation device 100 .

以上に説明した通り、第6実施形態によれば、第2特徴量Y2の時系列とコードデータCの時系列との関係を学習したコード遷移モデルMcを利用して、未知の音響信号Vに関する第2コードX2が推定される。したがって、コード遷移モデルMcを利用しない第1実施形態と比較して、多数の楽曲に採用される聴感的に自然な配列の第2コードX2を推定することが可能である。なお、第6実施形態において境界推定モデルMbを省略してもよい。 As described above, according to the sixth embodiment, using the chord transition model Mc that has learned the relationship between the time series of the second feature Y2 and the time series of the code data C, A second code X2 is estimated. Therefore, compared to the first embodiment that does not use the chord transition model Mc, it is possible to estimate the second chords X2 with perceptually natural sequences that are used in many songs. Note that the boundary estimation model Mb may be omitted in the sixth embodiment.

<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
<Modification>
Specific modified aspects added to the above-exemplified aspects will be exemplified below. Two or more aspects arbitrarily selected from the following examples may be combined as appropriate within a mutually consistent range.

(1)前述の各形態では、利用者Uの端末装置300とは別体のコード推定装置100を利用したが、コード推定装置100を端末装置300に搭載してもよい。端末装置300とコード推定装置100とが一体の構成によれば、音響信号Vをコード推定装置100に送信することが不要になる。ただし、端末装置300とコード推定装置100とが別体である前述の各形態の構成によれば、端末装置300での処理負荷が低減される。なお、音響信号Vの特徴量を抽出する要素(例えば第1抽出部21、解析部23および第2抽出部25)を端末装置300に搭載してもよい。端末装置300は、音響信号Vの特徴量をコード推定装置100に送信し、コード推定装置100は、端末装置300から送信された特徴量から推定した第2コードX2を端末装置300に送信する。 (1) In the above embodiments, the code estimation device 100 is separate from the terminal device 300 of the user U, but the code estimation device 100 may be installed in the terminal device 300 . According to the configuration in which the terminal device 300 and the code estimation device 100 are integrated, it becomes unnecessary to transmit the acoustic signal V to the code estimation device 100 . However, according to the above-described configurations in which terminal device 300 and code estimation device 100 are separate entities, the processing load on terminal device 300 is reduced. Elements for extracting the feature quantity of the acoustic signal V (for example, the first extraction unit 21 , the analysis unit 23 and the second extraction unit 25 ) may be installed in the terminal device 300 . The terminal device 300 transmits the feature quantity of the acoustic signal V to the code estimation device 100 , and the code estimation device 100 transmits to the terminal device 300 the second code X 2 estimated from the feature quantity transmitted from the terminal device 300 .

(2)前述の各形態では、第1学習済モデルM1と第2学習済モデルM2とで学習済モデルMを構成したが、学習済モデルMの態様は以上の例示に限定されない。例えばN個の教師データLを利用して、第1傾向および第2傾向を学習した統計的推定モデルを学習済モデルMとして利用してもよい。学習済モデルMは、例えば第1傾向および第2傾向を踏まえてコード毎の出現確率を出力する。すなわち、推定処理部70における出現確率λ0を算定する処理は、省略され得る。 (2) In each of the above embodiments, the trained model M is composed of the first trained model M1 and the second trained model M2, but the mode of the trained model M is not limited to the above examples. For example, using N pieces of teacher data L, a statistical estimation model that has learned the first tendency and the second tendency may be used as the learned model M. The learned model M outputs the appearance probability for each code based on, for example, the first trend and the second trend. That is, the process of calculating the appearance probability λ0 in the estimation processing unit 70 can be omitted.

(3)前述の各形態では、第2学習済モデルM2は第2傾向を学習したが、第2学習済モデルM2が学習する傾向は以上の例示に限定されない。例えばコードに対する変更の有無のみを第2学習済モデルM2が学習してもよい。すなわち、第1傾向が第2傾向に包含される関係になくてもよい。 (3) In each of the above embodiments, the second trained model M2 learns the second tendency, but the tendency learned by the second trained model M2 is not limited to the above examples. For example, the second trained model M2 may learn only whether or not the code has been changed. That is, the first trend does not have to be included in the second trend.

(4)前述の各形態では、学習済モデル(M1,M2)は各コードの出現確率(λ1,λ2)を出力したが、学習済モデルMが出力するデータは、出現確率(λ1,λ2)に限定されない。例えば第1学習済モデルM1および第2学習済モデルM2は、コードそのものを出力してもよい。 (4) In each of the above forms, the trained model (M1, M2) outputs the occurrence probability (λ1, λ2) of each code, but the data output by the trained model M is the occurrence probability (λ1, λ2) is not limited to For example, the first trained model M1 and the second trained model M2 may output the code itself.

(5)前述の各形態では、第1コードX1に対応する1個の第2コードX2を推定したが、第1コードX1に対応する複数の第2コードX2を推定してもよい。推定処理部70が算出した各コードの出現確率λ0のうち、出現確率λ0が上位の複数のコードを第2コードX2として端末装置300に送信してもよい。利用者Uは、送信された複数の第2コードX2から所望のコードを特定する。 (5) In each of the above embodiments, one second code X2 corresponding to the first code X1 is estimated, but a plurality of second codes X2 corresponding to the first code X1 may be estimated. Among the occurrence probabilities λ0 of the codes calculated by the estimation processing unit 70, a plurality of codes having higher occurrence probabilities λ0 may be transmitted to the terminal device 300 as the second codes X2. The user U specifies a desired code from the plurality of transmitted second codes X2.

(6)前述の各形態では、任意の1個の単位期間Tに対応する特徴量を学習済モデルMに入力したが、任意の1個の単位期間Tに対応する特徴量とともに、当該単位期間Tの前方または後方の特徴量を学習済モデルMに入力してもよい。 (6) In each of the above-described forms, the feature amount corresponding to any one unit period T is input to the learned model M, but together with the feature amount corresponding to any one unit period T, the unit period You may input the feature-value of the front or back of T to the learned model M.

(7)前述の各形態では、複数の音階音の各々に対応する複数の成分強度Pqを含むクロマベクトルと、音響信号Vの強度Pvを含む第1特徴量Y1を例示したが、第1特徴量Y1の内容は以上の例示に限定されない。例えば、クロマベクトルを第1特徴量Y1として利用してもよい。また、クロマベクトルが示す音階音毎の成分強度Pqの時系列に関する分散σqおよび平均μqを第2特徴量Y2としてもよい。第1特徴量Y1および第2特徴量Y2の内容は、コードの相違が反映される特徴量であれば任意である。 (7) In each of the above embodiments, the chroma vector including a plurality of component intensities Pq corresponding to each of a plurality of tones of the scale and the first feature Y1 including the intensity Pv of the acoustic signal V were exemplified. The contents of the quantity Y1 are not limited to the above examples. For example, a chroma vector may be used as the first feature Y1. Further, the variance σq and the average μq regarding the time series of the component strength Pq for each tone of the scale indicated by the chroma vector may be used as the second feature amount Y2. The contents of the first feature amount Y1 and the second feature amount Y2 are arbitrary as long as the feature amount reflects the code difference.

(8)前述の各形態では、コード推定装置100は、音響信号Vの特徴量から学習済モデルMにより第2コードX2を推定したが、第2コードX2を推定する方法は以上の例示に限定されない。例えば、相異なるコードが対応付けられた複数の第2特徴量Y2のうち、第2抽出部25が抽出した第2特徴量Y2に最も類似する第2特徴量Y2に対応付けられたコードを第2コードX2として推定してもよい。 (8) In each of the above embodiments, the chord estimation apparatus 100 estimates the second code X2 from the feature quantity of the acoustic signal V using the trained model M, but the method of estimating the second code X2 is limited to the above examples. not. For example, the code associated with the second feature quantity Y2 most similar to the second feature quantity Y2 extracted by the second extraction unit 25 among the plurality of second feature quantities Y2 associated with different codes is selected as the first It may be estimated as 2 codes X2.

(9)前述の第5実施形態では、各単位期間Tが連続区間の境界に該当するか否かを2値的に表す境界データBを例示したが、境界データBの内容は以上の例示に限定されない。例えば、各単位期間Tが連続区間の境界である尤度を表す境界データBを境界推定モデルMbが出力してもよい。具体的には、境界データBの各単位データbは0以上かつ1以下の範囲内の数値に設定され、複数の単位データbが表す数値の合計は所定値(例えば1)となる。第2抽出部25は、境界データBの各単位データbが表す尤度から連続区間の境界を推定し、当該連続区間毎に第2特徴量Y2を抽出する。 (9) In the above-described fifth embodiment, the boundary data B binary representing whether or not each unit period T corresponds to the boundary of the continuous section was exemplified. Not limited. For example, the boundary estimation model Mb may output boundary data B representing the likelihood that each unit period T is the boundary of continuous sections. Specifically, each unit data b of the boundary data B is set to a numerical value within the range of 0 or more and 1 or less, and the sum of the numerical values represented by the plurality of unit data b becomes a predetermined value (eg, 1). The second extraction unit 25 estimates the boundary of the continuous section from the likelihood represented by each unit data b of the boundary data B, and extracts the second feature Y2 for each continuous section.

(10)前述の第6実施形態では、第2特徴量Y2の時系列とコードデータCの時系列との関係を学習したコード遷移モデルMcを例示したが、コード遷移モデルMcに入力される特徴量は第2特徴量Y2に限定されない。例えば、第1特徴量Y1の時系列とコードデータCの時系列との関係をコード遷移モデルMcが学習した構成では、第1抽出部21が抽出した第1特徴量Y1の時系列がコード遷移モデルMcに入力される。コード遷移モデルMcは、第1特徴量Y1の時系列に応じたコードデータCの時系列を出力する。第1特徴量Y1および第2特徴量Y2とは異なる種類の特徴量の時系列とコードデータCの時系列との関係を学習したコード遷移モデルMcを、コードデータCの時系列に推定に利用してもよい。 (10) In the sixth embodiment described above, the chord transition model Mc that learns the relationship between the time series of the second feature Y2 and the time series of the code data C was exemplified. The quantity is not limited to the second feature quantity Y2. For example, in a configuration in which the chord transition model Mc learns the relationship between the time series of the first feature Y1 and the time series of the code data C, the time series of the first feature Y1 extracted by the first extraction unit 21 is code transition Input to the model Mc. The code transition model Mc outputs a time series of code data C according to the time series of the first feature Y1. A code transition model Mc that has learned the relationship between the time series of the feature quantity different from the first feature quantity Y1 and the second feature quantity Y2 and the time series of the code data C is used for estimating the time series of the code data C. You may

(11)前述の第6実施形態では、Q個の候補コードの各々について0以上かつ1以下の出現確率λcを表すコードデータCを例示したが、コードデータCの具体的な内容は以上の例示に限定されない。例えば、Q個の候補コードの何れかの出現確率λcが数値1に設定され、残余の(Q-1)個の出現確率λcが数値0に設定されたコードデータCをコード遷移モデルMcが出力してもよい。すなわち、コードデータCは、Q個の候補コードの何れかをone-hot形式で表現するQ次元ベクトルである。 (11) In the sixth embodiment described above, the code data C representing the occurrence probability λc of 0 or more and 1 or less for each of the Q candidate codes was exemplified. is not limited to For example, the chord transition model Mc outputs code data C in which the appearance probability λc of any one of Q candidate codes is set to 1 and the remaining (Q-1) appearance probabilities λc are set to 0. You may That is, the code data C is a Q-dimensional vector that expresses one of the Q candidate codes in a one-hot format.

(12)第6実施形態では、学習済モデルMと境界推定モデルMbとコード遷移モデルMcとを具備するコード推定装置100を例示したが、境界推定モデルMbおよびコード遷移モデルMcの各々を単独で利用してもよい。例えば、境界推定モデルMbを利用して第1特徴量Y1の時系列から各連続区間の境界を推定する情報処理装置(境界推定装置)において、学習済モデルMおよびコード遷移モデルMcは必須ではない。コード遷移モデルMcを利用して第2特徴量Y2の時系列からコードデータCを推定する情報処理装置(コード遷移推定装置)において、学習済モデルMおよび境界推定モデルMbは必須ではない。また、境界推定モデルMbとコード遷移モデルMcとを具備する情報処理装置において学習済モデルMは省略される。すなわち、出現確率λ1および出現確率λ2の生成は必須ではない。例えばQ個の候補コードのうち、コード遷移モデルMcが出力する出現確率λcが高い候補コードが、第2コードX2として単位期間T毎に出力される。 (12) In the sixth embodiment, the chord estimation device 100 including the learned model M, the boundary estimation model Mb, and the chord transition model Mc is illustrated. may be used. For example, in an information processing device (boundary estimation device) that estimates the boundary of each continuous section from the time series of the first feature Y1 using the boundary estimation model Mb, the trained model M and the chord transition model Mc are not essential. . In the information processing device (chord transition estimation device) that estimates the code data C from the time series of the second feature Y2 using the chord transition model Mc, the trained model M and the boundary estimation model Mb are not essential. Also, the learned model M is omitted in the information processing apparatus having the boundary estimation model Mb and the chord transition model Mc. That is, generation of the occurrence probability λ1 and the occurrence probability λ2 is not essential. For example, among Q candidate codes, a candidate code having a high appearance probability λc output by the code transition model Mc is output as the second code X2 every unit period T.

(13)前述の各形態に係るコード推定装置100および機械学習装置200は、各形態での例示の通り、コンピュータ(具体的には制御装置)とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含み得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。また、プログラムの実行主体はCPUに限定されず、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク用のプロセッサ、または、信号処理用のDSP(Digital Signal Processor)がプログラムを実行してもよい。また、以上の例示から選択された複数種の主体が協働してプログラムを実行してもよい。 (13) The code estimation device 100 and the machine learning device 200 according to each of the above embodiments are implemented by cooperation between a computer (specifically, a control device) and a program, as illustrated in each embodiment. The program according to each of the forms described above can be provided in a form stored in a computer-readable recording medium and installed in a computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disc) such as a CD-ROM is a good example. may include a recording medium in the form of The non-transitory recording medium includes any recording medium other than transitory, propagating signals, and does not exclude volatile recording media. It is also possible to provide the computer with the program in the form of distribution via a communication network. Further, the execution body of the program is not limited to the CPU, and the program may be executed by a neural network processor such as a Tensor Processing Unit and a Neural Engine, or a DSP (Digital Signal Processor) for signal processing. In addition, multiple types of subjects selected from the above examples may work together to execute the program.

(14)学習済モデル(第1学習済モデルM1、第2学習済モデルM2、境界推定モデルMbまたはコード遷移モデルMc)は、制御装置(コンピュータの例示)により実現される統計的推定モデル(例えばニューラルネットワーク)であり、入力Aに応じた出力Bを生成する。具体的には、学習済モデルは、入力Aから出力Bを特定する演算を制御装置に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。学習済モデルの複数の係数は、入力Aと出力Bとを対応させた複数の教師データを利用した事前の機械学習(深層学習)により最適化されている。すなわち、学習済モデルは、入力Aと出力Bとの間の関係を学習した統計的推定モデルである。制御装置は、学習済の複数の係数と所定の応答関数とを適用した演算を未知の入力Aに対して実行することにより、複数の教師データに潜在する傾向(入力Aと出力Bとの間の関係)のもとで入力Aに対して統計的に妥当な出力Bを生成する。 (14) A trained model (first trained model M1, second trained model M2, boundary estimation model Mb, or code transition model Mc) is a statistical estimation model (for example, A neural network) that produces an output B in response to an input A. Specifically, the trained model consists of a program (for example, a program module that constitutes artificial intelligence software) that causes the control device to execute a calculation that specifies output B from input A, and a plurality of coefficients that are applied to the calculation. Realized in combination. A plurality of coefficients of the trained model are optimized by prior machine learning (deep learning) using a plurality of teacher data in which the input A and the output B are matched. That is, the trained model is a statistical estimation model that has learned the relationship between the input A and the output B. The control device performs calculations applying a plurality of learned coefficients and a predetermined response function to an unknown input A, thereby detecting tendencies latent in a plurality of teacher data (between input A and output B produces a statistically valid output B for an input A under the relationship ).

(15)以上に例示した形態から、例えば以下の構成が把握される。 (15) For example, the following configurations can be grasped from the above-exemplified forms.

本発明の好適な態様(第1態様)に係るコード推定方法は、音響信号から第1コードを推定し、コードに対する変更の傾向を学習した学習済モデルに前記第1コードを入力することにより、第2コードを推定する。以上の態様によれば、コードに対する変更の傾向を学習した学習済モデルに音響信号から推定した第1コードを入力することにより第2コードが推定されるから、音響信号から第1コードを推定するだけの構成と比較して、コードに対する変更の傾向を加味した第2コードを高精度に推定することができる。 A chord estimation method according to a preferred aspect (first aspect) of the present invention estimates a first chord from an acoustic signal, inputs the first chord to a trained model that has learned a tendency of changes to the chord, Estimate the second code. According to the above aspect, since the second code is estimated by inputting the first code estimated from the acoustic signal to the trained model that has learned the tendency of changes to the chord, the first code is estimated from the acoustic signal. Compared to the configuration of only one, it is possible to highly accurately estimate the second code that takes into account the tendency of changes to the code.

第1態様の好適例(第2態様)において、前記学習済モデルは、コードに対する変更の内容の傾向を学習した第1学習済モデルと、コードに対する変更の有無の傾向を学習した第2学習済モデルとを含み、前記第2コードの推定においては、前記第1学習済モデルに前記第1コードを入力したときの出力と、前記第2学習済モデルに前記第1コードを入力したときの出力と、に応じて前記第2コードを推定する。以上の態様によれば、例えば第1学習済モデルおよび第2学習済モデルの何れか一方を利用して第2コードを推定する方法と比較して、コードに対する変更の傾向を適切に反映した第2コードを推定することができる。 In a preferred example of the first mode (second mode), the trained models include a first trained model that has learned the tendency of changes to the code and a second trained model that has learned the tendency of changes to the code. and a model, wherein, in estimating the second code, an output when the first code is input to the first trained model and an output when the first code is input to the second trained model. and the second code is estimated according to. According to the above aspect, compared to the method of estimating the second code using either one of the first trained model and the second trained model, for example, the second code appropriately reflects the tendency of changes to the code. 2 codes can be estimated.

第1態様の好適例(第3態様)では、前記第1コードの推定においては、前記音響信号のうち音階音に対応する成分の強度に応じた成分強度を音階音毎に含む第1特徴量から、前記第1コードを推定し、前記第2コードの推定においては、前記各音階音の前記成分強度の時間変化に関する指標を含む第2特徴量と、前記第1コードとを、前記学習済モデルに入力することにより、前記第2コードを推定する。以上の態様によれば、各音階音の成分強度の時系列に関する分散および平均を含む第2特徴量を学習済モデルに入力することにより、第2コードが推定されるから、音響信号の時間変化を加味して高精度に第2コードを推定することができる。 In a preferred example of the first aspect (third aspect), in estimating the first code, a first feature amount including, for each tone of the scale, a component intensity corresponding to the intensity of a component corresponding to a tone of the scale in the acoustic signal. , and in estimating the second code, the learned Estimate the second code by inputting it into the model. According to the above aspect, the second code is estimated by inputting the second feature amount including the variance and average regarding the time series of the component intensity of each scale sound to the trained model. can be taken into account to estimate the second code with high precision.

第3態様の好適例(第4態様)において、前記第1特徴量は、前記音響信号の強度を含み、前記第2特徴量は、前記音響信号の強度の時系列に関する分散および平均を含む。以上の態様によれば、音響信号の時間変化を加味して高精度に第2コードを推定できるという前述の効果は格別に顕著である。 In a preferred example of the third aspect (fourth aspect), the first feature quantity includes the intensity of the acoustic signal, and the second feature quantity includes the variance and mean of the intensity of the acoustic signal over time. According to the above aspect, the effect that the second code can be estimated with high accuracy in consideration of the time change of the acoustic signal is particularly remarkable.

第1態様の好適例(第5態様)において、第1特徴量の時系列と、コードが継続する連続区間の境界を表す境界データとの関係を学習した境界推定モデルに前記音響信号の第1特徴量の時系列を入力することにより境界データを推定し、前記境界データが表す連続区間毎に前記第1特徴量の時系列から第2特徴量を抽出し、前記第2コードの推定においては、前記第1コードと前記第2特徴量とを前記学習済モデルに入力することにより第2コードを推定する。以上の態様では、第1特徴量の時系列と境界データとの関係を学習した境界推定モデルを利用して、未知の音響信号に関する境界データが生成される。したがって、境界データに応じて生成された第2特徴量を利用することにより、第2コードを高精度に推定することが可能である。 In the preferred example of the first aspect (fifth aspect), a boundary estimation model that has learned the relationship between the time series of the first feature amount and the boundary data representing the boundary of the continuous section where the code continues is applied to the first Boundary data is estimated by inputting a time series of feature amounts, a second feature amount is extracted from the time series of the first feature amount for each continuous interval represented by the boundary data, and in estimating the second code, and estimating a second code by inputting the first code and the second feature into the trained model. In the above aspect, the boundary data regarding the unknown acoustic signal is generated using the boundary estimation model that has learned the relationship between the time series of the first feature amount and the boundary data. Therefore, it is possible to estimate the second code with high accuracy by using the second feature amount generated according to the boundary data.

第1態様の好適例(第6態様)において、特徴量の時系列とコードを表すコードデータの時系列との関係を学習したコード遷移モデルに前記音響信号の特徴量の時系列を入力することによりコードデータの時系列を推定し、前記第2コードの推定においては、前記学習済モデルの出力と前記コードデータとに基づいて前記第2コードを推定する。以上の態様によれば、特徴量の時系列とコードデータの時系列との関係を学習したコード遷移モデルを利用して、未知の音響信号に関する第2コードが推定される。したがって、コード遷移モデルを利用しない構成と比較して、多数の楽曲において観測される聴感的に自然な第2コードの配列を推定することが可能である。 In the preferred embodiment of the first aspect (sixth aspect), inputting the time series of the feature amount of the acoustic signal to a chord transition model that has learned the relationship between the time series of the feature amount and the time series of the code data representing the chord. and estimates the second code based on the output of the trained model and the code data. According to the above aspect, the second code relating to the unknown acoustic signal is estimated using the code transition model that has learned the relationship between the time series of the feature amount and the time series of the code data. Therefore, compared to a configuration that does not use a chord transition model, it is possible to estimate perceptually natural sequences of second chords observed in many pieces of music.

第1態様から第6態様の好適例(第7態様)において、前記音響信号を端末装置から受信し、前記音響信号から推定した前記第1コードを前記学習済モデルに入力することにより前記第2コードを推定し、当該第2コードを前記端末装置に送信する。以上の態様によれば、例えば利用者の端末装置に搭載された学習済モデルによりコードを推定する方法と比較して、端末装置での処理負荷が低減される。 In the preferred example (seventh aspect) of the first to sixth aspects (seventh aspect), the acoustic signal is received from a terminal device, and the second code estimated from the acoustic signal is input to the trained model. A code is estimated and the second code is transmitted to the terminal device. According to the above aspect, the processing load on the terminal device is reduced compared to, for example, a method of estimating the code using a trained model installed in the user's terminal device.

以上に例示した各態様のコード推定方法を実行するコード推定装置、または、以上に例示した各態様のコード推定方法をコンピュータに実行させるプログラムとしても、本発明の好適な態様は実現される。例えば、本発明の好適な態様に係るコード推定装置は、音響信号から第1コードを推定する第1コード推定部と、コードに対する変更の傾向を学習した学習済モデルに前記第1コードを入力することにより、第2コードを推定する第2コード推定部とを具備する。 A preferred aspect of the present invention is also implemented as a chord estimation device that executes the chord estimation method of each aspect illustrated above, or a program that causes a computer to execute the chord estimation method of each aspect illustrated above. For example, a chord estimating device according to a preferred aspect of the present invention inputs the first chord to a first chord estimating unit that estimates a first chord from an acoustic signal, and a trained model that has learned the tendency of changes to chords. and a second code estimator for estimating the second code.

100…コード推定装置、200…機械学習装置、300…端末装置、11…通信装置、12…制御装置、13…記憶装置、20…前処理部、21…第1抽出部、23…解析部、25…第2抽出部、27…コード推定部、51…教師データ生成部、512…選択部、514…処理部、53…学習部、532…第1学習部、534…第2学習部、55…第3学習部、56…第4学習部、70…推定処理部、M…学習済モデル、M1…第1学習済モデル、M2…第2学習済モデル、Mb…境界推定モデル、Mc…コード遷移モデル。 DESCRIPTION OF SYMBOLS 100... Code|cord estimation apparatus, 200... Machine-learning apparatus, 300... Terminal device, 11... Communication apparatus, 12... Control apparatus, 13... Storage device, 20... Pre-processing part, 21... First extraction part, 23... Analysis part, 25 Second extraction unit 27 Chord estimation unit 51 Teacher data generation unit 512 Selection unit 514 Processing unit 53 Learning unit 532 First learning unit 534 Second learning unit 55 Third learning unit 56 Fourth learning unit 70 Estimation processing unit M Learned model M1 First learned model M2 Second learned model Mb Boundary estimation model Mc Code transition model.

Claims (16)

音響信号から第1コードを推定し、
コードに対する変更の傾向を学習した学習済モデルに前記第1コードを入力することにより、第2コードを推定する
コンピュータにより実現されるコード推定方法であって、
前記学習済モデルは、
コードに対する変更の内容の傾向を学習した第1学習済モデルと、
コードに対する変更の有無の傾向を学習した第2学習済モデルとを含み、
前記第2コードの推定においては、前記第1学習済モデルに前記第1コードを入力したときの出力と、前記第2学習済モデルに前記第1コードを入力したときの出力と、に応じて前記第2コードを推定する
コード推定方法。
estimating a first code from the acoustic signal;
A computer- implemented chord estimation method for estimating a second chord by inputting the first chord into a trained model that has learned a tendency of changes to the chord, comprising:
The learned model is
a first trained model that has learned trends in changes to code;
a second trained model that has learned trends in the presence or absence of changes to the code;
In estimating the second code, according to the output when the first code is input to the first trained model and the output when the first code is input to the second trained model Estimate the second code
Code estimation method.
音響信号から第1コードを推定し、
コードに対する変更の傾向を学習した学習済モデルに前記第1コードと前記音響信号の第2特徴量とを入力することにより、第2コードを推定し、
前記第2特徴量は、複数の音階音の各々について、前記音響信号のうち当該音階音に対応する成分の強度に応じた成分強度の時間変化に関する指標を含む
コンピュータにより実現されるコード推定方法。
estimating a first code from the acoustic signal;
estimating a second code by inputting the first code and a second feature quantity of the acoustic signal to a trained model that has learned the tendency of changes to the code;
The second feature amount includes, for each of a plurality of scale sounds, an index related to time change of component intensity corresponding to the intensity of the component corresponding to the scale sound in the acoustic signal.
A computer-implemented code estimation method.
前記第1コードの推定においては、前記成分強度を音階音毎に含む第1特徴量から、前記第1コードを推定する In estimating the first code, the first code is estimated from a first feature amount including the component strength for each note of the scale.
請求項2のコード推定方法。 3. The code estimation method of claim 2.
前記第1特徴量は、前記音響信号の強度を含み、
前記第2特徴量は、前記音響信号の強度の時間変化に関する指標を含む
請求項3のコード推定方法。
The first feature amount includes the intensity of the acoustic signal,
4. The chord estimation method according to claim 3, wherein said second feature quantity includes an index relating to temporal change in intensity of said acoustic signal.
音響信号から第1コードを推定し、
第1特徴量の時系列と、コードが継続する連続区間の境界を表す境界データとの関係を学習した境界推定モデルに前記音響信号の第1特徴量の時系列を入力することにより境界データを推定し、
前記境界データが表す連続区間毎に前記第1特徴量の時系列から第2特徴量を生成し、
コードに対する変更の傾向を学習した学習済モデルに前記第1コードと前記第2特徴量とを入力することにより、第2コードを推定する
コンピュータにより実現されるコード推定方法。
estimating a first code from the acoustic signal;
Boundary data is obtained by inputting the time series of the first feature amount of the acoustic signal to a boundary estimation model that has learned the relationship between the time series of the first feature amount and boundary data representing the boundary of the continuous section where the code continues. presume,
generating a second feature value from the time series of the first feature value for each continuous section represented by the boundary data;
A chord estimation method implemented by a computer, comprising: estimating a second chord by inputting the first chord and the second feature quantity into a trained model that has learned a tendency of changes to the chord.
音響信号から第1コードを推定し、
特徴量の時系列とコードを表すコードデータの時系列との関係を学習したコード遷移モデルに前記音響信号の特徴量の時系列を入力することによりコードデータの時系列を推定し、
コードに対する変更の傾向を学習した学習済モデルに前記第1コードを入力したときの出力と、前記コードデータとに基づいて、第2コードを推定する
コンピュータにより実現されるコード推定方法。
estimating a first code from the acoustic signal;
estimating the time series of the code data by inputting the time series of the feature amount of the acoustic signal to a code transition model that has learned the relationship between the time series of the feature amount and the time series of the code data representing the code;
A chord estimation method implemented by a computer , comprising: estimating a second chord based on an output when the first chord is input to a trained model that has learned a tendency of changes to the chord, and the chord data .
音響信号から第1コードを推定する第1コード推定部と、
コードに対する変更の傾向を学習した学習済モデルに前記第1コードを入力することにより、第2コードを推定する第2コード推定部とを具備し、
前記学習済モデルは、
コードに対する変更の内容の傾向を学習した第1学習済モデルと、
コードに対する変更の有無の傾向を学習した第2学習済モデルとを含み、
前記第2コード推定部は、前記第1学習済モデルに前記第1コードを入力したときの出力と、前記第2学習済モデルに前記第1コードを入力したときの出力と、に応じて前記第2コードを推定する
コード推定装置。
a first code estimation unit that estimates a first code from the acoustic signal;
a second code estimating unit for estimating a second code by inputting the first code to a trained model that has learned the tendency of changes to the code ,
The learned model is
a first trained model that has learned trends in changes to code;
a second trained model that has learned trends in the presence or absence of changes to the code;
The second code estimating unit performs the above-described A code estimation device for estimating a second code .
音響信号から第1コードを推定する第1コード推定部と、
コードに対する変更の傾向を学習した学習済モデルに前記第1コードと前記音響信号の第2特徴量とを入力することにより、第2コードを推定する第2コード推定部と
を具備し、
前記第2特徴量は、複数の音階音の各々について、前記音響信号のうち当該音階音に対応する成分の強度に応じた成分強度の時間変化に関する指標を含む
コード推定装置。
a first code estimation unit that estimates a first code from the acoustic signal;
a second code estimator for estimating a second code by inputting the first code and the second feature quantity of the acoustic signal to a trained model that has learned the tendency of changes to the code ,
The second feature quantity includes, for each of a plurality of scale sounds, an index relating to time change of component intensity corresponding to the intensity of the component corresponding to the scale sound in the acoustic signal.
Code estimator.
前記第1コード推定部は、前記成分強度を音階音毎に含む第1特徴量から、前記第1コードを推定する The first chord estimating unit estimates the first chord from a first feature amount including the component strength for each note of the scale.
請求項8のコード推定装置。 9. The chord estimation apparatus of claim 8.
前記第1特徴量は、前記音響信号の強度を含み、
前記第2特徴量は、前記音響信号の強度の時間変化に関する指標を含む
請求項のコード推定装置。
The first feature amount includes the intensity of the acoustic signal,
10. The chord estimating apparatus according to claim 9 , wherein said second feature quantity includes an index relating to temporal change in strength of said acoustic signal.
音響信号から第1コードを推定する第1コード推定部と、
第1特徴量の時系列と、コードが継続する連続区間の境界を表す境界データとの関係を学習した境界推定モデルであって、前記音響信号の第1特徴量の時系列の入力により境界データを出力する境界推定モデルと、
前記境界データが表す連続区間毎に前記第1特徴量の時系列から第2特徴量を抽出する抽出部と、
コードに対する変更の傾向を学習した学習済モデルに前記第1コードと前記第2特徴量とを入力することにより、第2コードを推定する第2コード推定部と
を具備するコード推定装置。
a first code estimation unit that estimates a first code from the acoustic signal;
A boundary estimation model that learns the relationship between the time series of the first feature amount and boundary data representing the boundary of the continuous section where the code continues, wherein the boundary data is obtained by inputting the time series of the first feature amount of the acoustic signal. a boundary estimation model that outputs
an extraction unit that extracts a second feature from the time series of the first feature for each continuous section represented by the boundary data;
A chord estimation device comprising: a second chord estimation unit that estimates a second chord by inputting the first chord and the second feature quantity into a trained model that has learned the tendency of chord changes.
音響信号から第1コードを推定する第1コード推定部と、
特徴量の時系列とコードを表すコードデータの時系列との関係を学習したコード遷移モデルであって、前記音響信号の特徴量の時系列の入力によりコードデータの時系列を出力するコード遷移モデルと、
コードに対する変更の傾向を学習した学習済モデルに前記第1コードを入力したときの出力と、前記コードデータとに基づいて、第2コードを推定する第2コード推定部と
を具備するコード推定装置。
a first code estimation unit that estimates a first code from the acoustic signal;
A code transition model that learns the relationship between the time series of the feature amount and the time series of code data representing the code, wherein the time series of the feature amount of the acoustic signal is input and the time series of the code data is output. and,
a second chord estimation unit for estimating a second chord based on the chord data and an output when the first chord is input to a trained model that has learned the tendency of chord changes. .
音響信号から第1コードを推定する第1コード推定部、および、 a first code estimator for estimating a first code from an acoustic signal; and
コードに対する変更の傾向を学習した学習済モデルに前記第1コードを入力することにより、第2コードを推定する第2コード推定部、 a second code estimating unit for estimating a second code by inputting the first code to a trained model that has learned the tendency of changes to the code;
としてコンピュータを機能させるプログラムであって、 A program that causes a computer to function as
前記学習済モデルは、 The learned model is
コードに対する変更の内容の傾向を学習した第1学習済モデルと、 a first trained model that has learned trends in changes to code;
コードに対する変更の有無の傾向を学習した第2学習済モデルとを含み、 a second trained model that has learned trends in the presence or absence of changes to the code;
前記第2コード推定部は、前記第1学習済モデルに前記第1コードを入力したときの出力と、前記第2学習済モデルに前記第1コードを入力したときの出力と、に応じて前記第2コードを推定する The second code estimating unit performs the above-described guess the second chord
プログラム。 program.
音響信号から第1コードを推定する第1コード推定部、および、 a first code estimator for estimating a first code from an acoustic signal; and
コードに対する変更の傾向を学習した学習済モデルに前記第1コードと前記音響信号の第2特徴量とを入力することにより、第2コードを推定する第2コード推定部、 a second code estimator for estimating a second code by inputting the first code and the second feature quantity of the acoustic signal to a trained model that has learned the tendency of changes to the code;
としてコンピュータを機能させるプログラムであって、 A program that causes a computer to function as
前記第2特徴量は、複数の音階音の各々について、前記音響信号のうち当該音階音に対応する成分の強度に応じた成分強度の時間変化に関する指標を含む The second feature amount includes, for each of a plurality of scale sounds, an index related to time change of component intensity corresponding to the intensity of the component corresponding to the scale sound in the acoustic signal.
プログラム。 program.
音響信号から第1コードを推定する第1コード推定部、 a first code estimation unit that estimates a first code from the acoustic signal;
第1特徴量の時系列と、コードが継続する連続区間の境界を表す境界データとの関係を学習した境界推定モデルであって、前記音響信号の第1特徴量の時系列の入力により境界データを出力する境界推定モデル、 A boundary estimation model that learns the relationship between the time series of the first feature amount and boundary data representing the boundary of the continuous section where the code continues, wherein the boundary data is obtained by inputting the time series of the first feature amount of the acoustic signal. A boundary estimation model that outputs
前記境界データが表す連続区間毎に前記第1特徴量の時系列から第2特徴量を抽出する抽出部、および、 an extraction unit that extracts a second feature value from the time series of the first feature value for each continuous section represented by the boundary data;
コードに対する変更の傾向を学習した学習済モデルに前記第1コードと前記第2特徴量とを入力することにより、第2コードを推定する第2コード推定部、 a second code estimating unit for estimating a second code by inputting the first code and the second feature quantity to a trained model that has learned the tendency of changes to the code;
としてコンピュータを機能させるプログラム。 A program that makes a computer function as a
音響信号から第1コードを推定する第1コード推定部、 a first code estimation unit that estimates a first code from the acoustic signal;
特徴量の時系列とコードを表すコードデータの時系列との関係を学習したコード遷移モデルであって、前記音響信号の特徴量の時系列の入力によりコードデータの時系列を出力するコード遷移モデル、および、 A code transition model that learns the relationship between the time series of the feature amount and the time series of code data representing the code, wherein the time series of the feature amount of the acoustic signal is input and the time series of the code data is output. ,and,
コードに対する変更の傾向を学習した学習済モデルに前記第1コードを入力したときの出力と、前記コードデータとに基づいて、第2コードを推定する第2コード推定部、 a second chord estimating unit for estimating a second chord based on the chord data and an output when the first chord is input to a trained model that has learned the tendency of chord changes;
としてコンピュータを機能させるプログラム。 A program that makes a computer function as a
JP2018223837A 2018-02-09 2018-11-29 Code estimation method, code estimation device and program Active JP7243147B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/270,979 US10586519B2 (en) 2018-02-09 2019-02-08 Chord estimation method and chord estimation apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018022004 2018-02-09
JP2018022004 2018-02-09

Publications (2)

Publication Number Publication Date
JP2019139209A JP2019139209A (en) 2019-08-22
JP7243147B2 true JP7243147B2 (en) 2023-03-22

Family

ID=67695297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018223837A Active JP7243147B2 (en) 2018-02-09 2018-11-29 Code estimation method, code estimation device and program

Country Status (1)

Country Link
JP (1) JP7243147B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7230464B2 (en) * 2018-11-29 2023-03-01 ヤマハ株式会社 SOUND ANALYSIS METHOD, SOUND ANALYZER, PROGRAM AND MACHINE LEARNING METHOD

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010538335A (en) 2007-09-07 2010-12-09 マイクロソフト コーポレーション Automatic accompaniment for voice melody
US20140140536A1 (en) 2009-06-01 2014-05-22 Music Mastermind, Inc. System and method for enhancing audio
JP2015031738A (en) 2013-07-31 2015-02-16 株式会社河合楽器製作所 Chord progression estimation and detection device and chord progression estimation and detection program
JP2017215520A (en) 2016-06-01 2017-12-07 株式会社Nttドコモ Identification apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010538335A (en) 2007-09-07 2010-12-09 マイクロソフト コーポレーション Automatic accompaniment for voice melody
US20140140536A1 (en) 2009-06-01 2014-05-22 Music Mastermind, Inc. System and method for enhancing audio
JP2015031738A (en) 2013-07-31 2015-02-16 株式会社河合楽器製作所 Chord progression estimation and detection device and chord progression estimation and detection program
JP2017215520A (en) 2016-06-01 2017-12-07 株式会社Nttドコモ Identification apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
森篤史,新井イスマイル,既存曲から学習した遷移確率に基づくコード付与手法の検討,情報処理学会研究報告,2016年10月,Vol.2016-MUS-113,No.17,p.1-4

Also Published As

Publication number Publication date
JP2019139209A (en) 2019-08-22

Similar Documents

Publication Publication Date Title
JP6933264B2 (en) Label generators, model learning devices, emotion recognition devices, their methods, programs, and recording media
US10586519B2 (en) Chord estimation method and chord estimation apparatus
JP7230919B2 (en) Musical score data information processing device
JP7069819B2 (en) Code identification method, code identification device and program
JP6729515B2 (en) Music analysis method, music analysis device and program
JP2017161574A (en) Sound signal processing method and sound signal processing device
JP2012506061A (en) Analysis method of digital music sound signal
JP7243147B2 (en) Code estimation method, code estimation device and program
WO2020145326A1 (en) Acoustic analysis method and acoustic analysis device
JP2017090848A (en) Music analysis device and music analysis method
Kim et al. Statistical approach to automatic expressive rendition of polyphonic piano music
JPWO2016042626A1 (en) Audio processing apparatus, audio processing method, and program
JP7343012B2 (en) Information processing device and information processing method
US11942106B2 (en) Apparatus for analyzing audio, audio analysis method, and model building method
WO2020196321A1 (en) Musical piece analysis method and musical piece analysis device
JP7147384B2 (en) Information processing method and information processing device
JP2019028107A (en) Performance analysis method and program
Ohishi et al. Statistical modeling of F0 dynamics in singing voices based on Gaussian processes with multiple oscillation bases.
JP5318042B2 (en) Signal analysis apparatus, signal analysis method, and signal analysis program
Papadopoulos et al. Exploiting structural relationships in audio music signals using markov logic networks
JP2017161572A (en) Sound signal processing method and sound signal processing device
JP5131130B2 (en) Follow-up evaluation system, karaoke system and program
JP6693189B2 (en) Sound signal processing method
JP5262875B2 (en) Follow-up evaluation system, karaoke system and program
JP6101599B2 (en) Acoustic signal analysis apparatus, volume trajectory prediction apparatus, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230220

R151 Written notification of patent or utility model registration

Ref document number: 7243147

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151