JP7375302B2 - 音響解析方法、音響解析装置およびプログラム - Google Patents

音響解析方法、音響解析装置およびプログラム Download PDF

Info

Publication number
JP7375302B2
JP7375302B2 JP2019003324A JP2019003324A JP7375302B2 JP 7375302 B2 JP7375302 B2 JP 7375302B2 JP 2019003324 A JP2019003324 A JP 2019003324A JP 2019003324 A JP2019003324 A JP 2019003324A JP 7375302 B2 JP7375302 B2 JP 7375302B2
Authority
JP
Japan
Prior art keywords
key
interval
time series
acoustic signal
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019003324A
Other languages
English (en)
Other versions
JP2020112683A (ja
Inventor
康平 須見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2019003324A priority Critical patent/JP7375302B2/ja
Priority to CN202080007107.2A priority patent/CN113196381B/zh
Priority to PCT/JP2020/000374 priority patent/WO2020145326A1/ja
Publication of JP2020112683A publication Critical patent/JP2020112683A/ja
Priority to US17/331,520 priority patent/US20210287641A1/en
Application granted granted Critical
Publication of JP7375302B2 publication Critical patent/JP7375302B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/38Chord
    • G10H1/383Chord detection and/or recognition, e.g. for correction, or automatic bass generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/081Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、楽曲を解析する技術に関する。
楽曲の歌唱音または演奏音等の音響から各種の情報を推定する技術が従来から提案されている。例えば、特許文献1には、楽曲を表す音響信号からコードを推定する構成が開示されている。具体的には、音響信号から楽曲の調が推定され、当該推定された調を加味してコードが推定される。また、特許文献2には、楽曲のパワースペクトルの形状から調性の種別を特定する構成が開示されている。パワースペクトルの時系列データから算出された音名毎のパワーに応じて調性の種別が特定される。
特開2015-31738号公報 特開2007-248610号公報
特許文献1の技術では、最も出現頻度が高い音符から楽曲の調が推定される。しかし、調に対応する音符の出現頻度が低い楽曲もある。また、特許文献2の技術では、各音名のパワーと調性の種別との相関関係を利用して調性の種別が特定される。しかし、各音名のパワーと調性の種別とが相関関係にない楽曲もある。すなわち、特許文献1および特許文献2の技術のもとでは、多様な楽曲に対して高精度に調を推定することは実際には困難である。以上の事情を考慮して、本発明は、調を高精度に推定することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音響解析方法は、音響信号の特徴量の時系列と調との関係を学習した学習済モデルに、音響信号の特徴量の時系列を入力することで、調を表す調情報を生成する。
本発明の好適な態様に係る音響解析装置は、音響信号の特徴量の時系列と調との関係を学習した学習済モデルであって、音響信号の特徴量の時系列の入力から、調を表す調情報を生成する調推定モデルを具備する。
第1実施形態に係る音響解析装置の構成を例示するブロック図である。 音響解析装置の機能的な構成を例示するブロック図である。 特徴量および調情報の概略的な説明図である。 特徴量の説明図である。 調情報の説明図である。 調推定処理の具体的な手順を例示するフローチャートである。 学習処理部の動作の説明図である。 第2実施形態に係る音響解析装置の機能構成を例示するブロック図である。 第2実施形態に係る後処理により修正された調の時系列の説明図である。 第2実施形態に係る後処理の具体的な手順を例示するフローチャートである。 第3実施形態に係る音響解析装置の機能構成を例示するブロック図である。 第3実施形態に係る後処理により修正された調の時系列の説明図である。 第3実施形態に係る後処理の具体的な手順を例示するフローチャートである。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響解析装置100の構成を例示するブロック図である。音響解析装置100は、楽曲の歌唱音または演奏音等の音響を表す音響信号Vを解析することで、当該楽曲の調を推定する情報処理装置である。音響解析装置100は、複数の主音(具体的には平均律の12半音)と調名(長調および短調)との組合せに相当する24種類の調を候補として音響信号Vから何れかの調を推定する。なお、調の種類数は、24種類に限定されない。
音響解析装置100は、制御装置11と記憶装置12と表示装置13とを具備する。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、音響解析装置100として好適に利用される。表示装置13は、音響信号Vから推定された調を表示する。表示装置13は、音響信号Vを解析した結果を再生する再生装置の一例である。例えば、音響信号Vを解析した結果に応じた音響を放音する放音装置を再生装置として利用してもよい。
制御装置11は、例えばCPU(Central Processing Unit)等の単数または複数の処理回路で構成され、音響解析装置100の各要素を制御する。記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成された単数または複数のメモリであり、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。例えば記憶装置12は音響信号Vを記憶する。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、音響解析装置100に対して着脱可能な可搬型の記録媒体、または音響解析装置100が通信網を介して通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。
図2は、記憶装置12に記憶されたプログラムを制御装置11が実行することで実現される機能を例示するブロック図である。制御装置11は、特徴抽出部21と調推定モデル22と学習処理部23とを実現する。なお、相互に別体で構成された複数の装置により制御装置11の機能を実現してもよい。制御装置11の機能の一部または全部を専用の電子回路により実現してもよい。
特徴抽出部21は、記憶装置12に記憶された音響信号Vから、当該音響信号Vの特徴量Yを抽出する。第1実施形態の特徴抽出部21は、第1処理部211と第2処理部212と第3処理部213とを具備する。
第1処理部211は、音響信号Vから当該音響信号Vの特徴量Xを抽出する。第2処理部212は、第1処理部211が抽出した特徴量XからコードOを推定する。第3処理部213は、音響信号V特徴量Yを抽出する。特徴量Yは、音響信号Vの時間変化を加味して音響的な特徴を表す指標である。一例として、第3処理部213は、第1処理部211が抽出した特徴量Xと、第2処理部212が推定したコードOとから特徴量Yを抽出する。特徴量Yの時系列が調推定モデル22に入力される。
調推定モデル22は、特徴量Yの時系列と調との関係を学習した学習済モデルである。
具体的には、調推定モデル22は、特徴量Yの時系列の入力により、調を表す情報(以下「調情報H」という)を生成する。
図3は、特徴量X,特徴量Yおよび調情報Hの説明図である。特徴量Xは、単位期間T(T1,T2,T3,…)毎に抽出される。単位期間Tは、例えば楽曲の1拍分に相当する期間である。すなわち、音響信号Vから特徴量Xの時系列が生成される。なお、楽曲の拍点とは無関係に固定長または可変長の単位期間Tを画定してもよい。
特徴量Xは、音響信号Vのうち各単位期間Tに対応した部分について音響的な特徴を表す指標である。コードOは、特徴量X毎(すなわち単位期間T毎)に推定される。すなわち、コードOの時系列が生成される。例えば、相異なるコードが対応付けられた複数の特徴量Xのうち、第1処理部211が抽出した特徴量Xに最も類似する特徴量Xに対応付けられたコードがコードOとして推定される。なお、音響信号Vの入力によりコードOを生成する統計的推定モデル(例えば隠れマルコフモデルまたはニューラルネットワーク)をコードOの推定に利用してもよい。
特徴量Yは、第2処理部212が推定した同じコードOが継続する一連の区間(以下「継続区間」という)U毎に抽出される。第2処理部212により同じコードが推定された区間が継続区間Uである。楽曲内に複数の継続区間U(U1,U2,U3…)が推定される。例えばコードOとして「F」が推定された継続区間U1(単位期間T1-T4に相当する区間)について、1個の特徴量Yが抽出される。
図4は、特徴量Xおよび特徴量Yを模式的に示した図である。特徴量Xは、複数の音階音(具体的には平均律の12半音)にそれぞれ対応する複数の要素を含むクロマベクトル(PCP:Pitch Class Profile)と、音響信号Vの強度Pvを含む。音階音は、オクターブの相違を無視した音名(ピッチクラス)である。クロマベクトルのうち任意の音階音に対応する要素は、音響信号Vのうち当該音階音に対応する成分の強度を複数のオクターブにわたり加算した強度(以下「成分強度」という)Pqに設定される。特徴量Xは、所定の周波数よりも低域側の帯域と高域側の帯域との各々について、クロマベクトルおよび強度Pvを含む。つまり、音響信号Vのうち低域側の帯域に関するクロマベクトルと、当該帯域内の音響信号Vの強度Pvと、音響信号Vのうち高域側の帯域に関するクロマベクトルと、当該帯域内の音響信号Vの強度Pvとが特徴量Xに含まれる。すなわち、特徴量Xは、全体として26次元のベクトルで表現される。
特徴量Yは、音階音毎の成分強度Pqの時系列に関する分散σqおよび平均μqと、音響信号Vの強度Pvの時系列に関する分散σvおよび平均μvとを、低域側の帯域と高域側の帯域との各々について含む。第3処理部213は、継続区間U内の複数の特徴量Xの各々に含まれる成分強度Pq(つまり継続区間U内における成分強度Pqの時系列)の分散σqおよび平均μqと、継続区間U内の複数の特徴量Xの各々に含まれる強度Pv(つまり継続区間U内における強度Pvの時系列)の分散σvおよび平均μvとを算定することにより、特徴量Yを抽出する。特徴量Yは、全体として52次元のベクトルで表現される。以上の説明から理解される通り、各継続区間Uの特徴量Yは、音響信号Vのうち音階音に対応する成分強度Pqにおける当該継続区間Uの時間変化に関する指標(典型的には分散σq等の散布度)を含む。
図5は、調情報Hの説明図である。調情報Hは、推定の候補となる24種類の調の各々について、継続区間Uの調に該当するか否かを表す指標Q(Q1~Q24)を含む。例えば、任意の1個の調に対応する指標Qは、当該調が継続区間Uの調に該当するか否かを2値的に表す。すなわち、調情報Hは、複数の調のうち何れかを示す情報である。継続区間U毎に特徴量Yを調推定モデル22に入力することで、当該継続区間U毎に調情報Hが生成される。すなわち、調情報Hの時系列が調推定モデル22により生成される。以上の説明から理解される通り、調推定モデル22は、特徴量Yの時系列から各継続区間Uの調を推定する統計的推定モデルである。すなわち、楽曲における調の時系列が推定される。
調推定モデル22は、特徴量Yの時系列から調情報Hを生成する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数Kとの組合せで実現される。複数の係数Kは、複数の教師データを利用した機械学習(特に深層学習)により設定されて記憶装置12に記憶される。例えば時系列データの処理に好適な長短期記憶(LSTM:Long Short Term Memory)等の再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)が調推定モデル22として利用される。
図6は、音響信号Vから各継続区間Uの調情報Hを推定する処理(以下「調推定処理」という)の具体的な手順を例示するフローチャートである。例えば利用者からの指示を契機として調推定処理が開始される。調推定処理を開始すると、特徴抽出部21は、記憶装置12に記憶された音響信号Vから特徴量Yを継続区間U毎に抽出する(Sa1)。調推定モデル22は、特徴抽出部21が抽出した特徴量Yの時系列から調情報Hを生成する(Sa2)。制御装置11は、調推定モデル22から出力される調情報Hが表す調を継続区間U毎に表示装置13に表示させる(Sa3)。なお、調推定モデル22による推定の結果を表す表示画面の内容は任意である。例えば、第2処理部212が推定したコードの時系列と調推定モデル22が推定した調とを併記した表示画面が表示される。なお、調推定モデル22が推定した調に応じて構成音が共通するコードの標記を表示してもよい。例えば、調「D♭major」が推定された継続区間Uについてコード「G♭」を表示し、調「Bmajor」が推定された継続区間Uについてコード「F♯」を表示する。
学習処理部23は、調推定モデル22の複数の係数Kを機械学習(特に深層学習)により設定する。学習処理部23は、複数の教師データLを利用した機械学習により複数の係数Kを設定する。図7は、学習処理部23の動作の説明図である。複数の教師データLの各々は、特徴量Yの時系列と、調情報Hxの時系列との組合せで構成される。各教師データLの調情報Hxの時系列は、当該教師データLにおける特徴量Yの時系列に対する正解値に相当する。既存の楽曲の演奏音から抽出される特徴量Yの時系列と、当該楽曲の調を表す調情報Hの時系列とが教師データLに含められる。
学習処理部23は、教師データLの特徴量Yの時系列を入力することにより暫定的な調推定モデル22から出力される調情報Hの時系列と、当該教師データLの調情報Hxとの相違が低減されるように、調推定モデル22の複数の係数Kを更新する。具体的には、学習処理部23は、調情報Hと調情報Hxとの相違を表す評価関数が最小化されるように、例えば誤差逆伝播法により複数の係数Kを反復的に更新する。以上の手順で学習処理部23が設定した複数の係数Kが記憶装置12に記憶される。したがって、調推定モデル22は、複数の教師データLにおける特徴量Yの時系列と調情報Hxとの間に潜在する傾向のもとで、未知の特徴量Yの時系列に対して統計的に妥当な調情報Hを出力する。
以上に説明した通り、音響信号Vの特徴量Yと調との関係を学習した調推定モデル22に音響信号Vの特徴量Yを入力することで調情報Hが生成されるから、所定の規則に従って楽曲の調情報Hを生成する構成と比較して、調を高精度に推定することができる。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
楽曲における調が短期間で変化する可能性は低いという傾向がある。第2実施形態では、以上の傾向をもとに、第1実施形態で推定された調を修正する。
図8は、第2実施形態に係る音響解析装置100の機能構成を例示するブロック図である。第2実施形態の音響解析装置100は、第1実施形態の音響解析装置100に後処理部24を追加した構成である。特徴抽出部21と調推定モデル22と学習処理部23とは、第1実施形態と同様である。図9には、調推定モデル22により推定された調の時系列Waが模式的に図示されている。図9の調区間I(I1,I2,I3…)は、調推定モデル22が生成した調情報Hが表す調が連続する区間である。図9に例示される通り、1個の調区間Iには、同じ調が推定された連続する1個以上の継続区間Uが含まれる。
後処理部24は、調推定モデル22により推定された調の時系列Waを修正する。具体的には、後処理部24は、調の時系列Waに対応する複数の調区間Iのうち時間長が所定値を下回る調区間Iの調を修正することで、時系列Wbを生成する。所定値は、例えば楽曲の3拍分に相当する時間長である。図9では、調「Emajor」が推定された調区間I2が所定値を下回る場合が例示される。第2実施形態の後処理部24は、調区間Iの時間長が所定値を下回る場合に、当該調区間Iの調を当該調区間Iの直前の調情報Hが表す調に置換する。具体的には、調区間I2の直前の継続区間U(すなわち調区間I1の末尾の継続区間U)の調情報Hが表す調「Fmajor」に、調区間I2の調「Emajor」が置換される。
図10は、調推定モデルが推定した調を修正する処理(以下「後処理1」という)の具体的な手順を例示するフローチャートである。調推定モデルにより調の時系列Waが推定された後に、例えば利用者からの指示を契機として後処理1が開始される。後処理1を開始すると、後処理部24は、調の時系列Waから複数の調区間I(I1,I2,I3…)を時間軸上に画定する(Sb1)。すなわち、調区間Iの時系列が特定される。後処理部24は、複数の調区間Iの何れかを選択する(Sb2)。具体的には、先頭から末尾に向かって調区間Iが順次に選択される。後処理部24は、ステップSb2において選択した調区間Iの時間長が所定値を下回るか否かを判定する(Sb3)。調区間Iの時間長が所定値を下回る場合(Sb3:YES)、後処理部24は、当該調区間Iの調を当該調区間Iの直前の調情報Hが表す調に置換する(Sb4)。一方で、調区間Iの時間長が所定値を上回る場合(Sb3:NO)、調の修正は実行されず、当該調区間Iの直後に位置する調区間Iが選択される(Sb2)。全部の調区間Iの各々について時間長の判定(Sb3)と所定値よりも短い調区間Iの調の修正(Sb4)とを実行すると(Sb5:YES)、制御装置11は、後処理部24が生成した調の時系列Wbを表示装置13に表示させる(Sb6)。すなわち、複数の調区間Iのうち時間長が所定値を下回る全ての調区間Iについて調が置換された時系列Wbが表示装置13により表示される。一方で、ステップSb2において未選択の調区間Iがある場合(Sb5:NO)、後処理部24は、当該未選択の調区間IについてステップSb2~Sb4の処理を繰り返し実行する。なお、調区間Iの時系列のうち先頭の調区間Iにおける調が置換対象となる場合には、当該調区間Iの直後の調情報Hが表す調に置換する。
第2実施形態でも第1実施形態と同様の効果が実現される。第2実施形態では、調情報Hが表す調が連続する調区間Iの時間長が所定値を下回る場合に、当該調区間Iの調が、当該調区間Iの直前の調情報Hが表す調に置換される。したがって、調が短期間で変化する可能性が低いという傾向を加味して、調推定モデルにより推定された調を適切に修正することができる。なお、第2実施形態では、置換元の直前の調区間Iの調情報Hが表す調を置換先としたが、置換元の直後の調区間Iの調情報Hが表す調を置換先としてもよい。以上の構成では、例えば図10のステップSb2において複数の調区間Iのうち末尾から先頭に向かって調区間Iを順次に選択する。
<第3実施形態>
楽曲のコードと調とは相関関係がある。例えば、楽曲の調の音階を構成音とするコードが当該楽曲内で演奏される。特に、楽曲において特定の調が設定された区間の先頭のコードは、当該調の主音を根音とするコードと一致する可能性が高いという傾向がある。第3実施形態では、以上の傾向をもとに第1実施形態で推定された調を修正する。
図11は、第3実施形態に係る音響解析装置100の機能構成を例示するブロック図である。第3実施形態の音響解析装置100は、第2実施形態と同様に後処理部24を具備する。後処理部24は、調推定モデル22により推定された調の時系列Waを修正することで時系列Wbを生成する。第3実施形態の後処理部24は、音響信号VにおけるコードOの時系列(例えば第2処理部212が推定したコードOの時系列)を利用して時系列Wbを生成する。図12は、第3実施形態に係る後処理部24が生成する時系列Wbの説明図である。具体的には、後処理部24は、音響信号VにおけるコードOの時系列に応じて、調区間Iの端点(具体的には始点S)を変更する。第3実施形態の後処理部24は、調区間Iの始点Sを含む区間(以下「探索区間」という)Rにおける音響信号VのコードOの時系列に、当該調区間Iの調情報Hが表す調に対応するコード(以下「調対応コード」という)がある場合に、当該調区間Iの始点Sを、当該調対応コードに対応する区間(典型的には継続区間U)の始点に変更する。探索区間Rは、例えば調区間Iの始点Sを中心とした複数(図12では6個)の継続区間Uが探索区間Rとして例示される。調対応コードは、例えば調の主音を根音とするコード(典型的にはトニックコード)である。図12では、「Emajor」が推定された調区間I2の始点Sが、探索区間Rについて推定された複数のコードOうちコード「E」が推定された継続区間Uの始点に変更される場合が例示されている。
図13は、第3実施形態に係る後処理部24が調推定モデルにより推定された調を修正する処理(以下「後処理2」という)の具体的な手順を例示するフローチャートである。後処理部24は、調推定モデル22により調の時系列Waが推定された後に、例えば利用者からの指示を契機として後処理2が開始される。後処理2を開始すると、後処理部24は、調の時系列Waから複数の調区間Iを時間軸上に画定する(Sc1)。すなわち、調区間Iの時系列が特定される。後処理部24は、複数の調区間Iの何れかを選択する(Sc2)。具体的には、先頭から末尾に向かって調区間Iが順次に選択される。
次に、後処理部24は、ステップSc2において選択された調区間Iにおける探索区間Rについて推定された複数のコード(以下「候補コード」という)の各々について、当該候補コードと調対応コードとの間における類似度とを算定する(Sc3)。類似度は、調対応コードを表すベクトルと候補コードを表すベクトルとの距離または相関を表す指標である。調対応コードまたは候補コードを表すベクトルとしては、例えば文献「山口直彦、管村昇,"非調構成音を含む和音への対応を目的としたTPS(Tonal Pitch Space)の拡張-ジャズ音楽理論への適用を目指して-",情報処理学会研究報告,2011年2月11日」に記載されたベーシックスペース関数が好適である。次に、後処理部24は、複数の候補コードのうち調対応コードとの類似度が最大となる候補コードを探索する(Sc4)。ステップSc3およびステップSc4は、調区間Iの調が表す調対応コードに最も類似(典型的には一致)する1個の候補コードを、当該調区間Iにおける探索区間Rの複数の候補コードから探索する処理である。
後処理部24は、調区間Iの始点Sを、ステップSc4で探索された候補コードに対応する区間の始点に変更する(Sc5)。具体的には、当該候補コードが推定された継続区間Uの始点に調区間Iの始点Sが変更される。なお、調区間Iの先頭における候補コードの類似度が最大となる場合には、調区間Iの始点Sは変更されずに維持される。全部の調区間Iの各々についてステップSc2~Sc6の処理を実行した場合(Sc6:YES)、制御装置11は、後処理部24が生成した時系列Wbを表示装置13に表示させる(Sc7)。すなわち、時系列Waから画定された複数の調区間Iの各々について始点Sが変更または維持された時系列Wbが表示装置13により表示される。一方で、ステップSc2において未選択の調区間Iがある場合(Sc6:NO)、後処理部24は、当該未選択の調区間IについてステップSc2~Sc6の処理を実行する。
第3実施形態においても第1実施形態と同様の効果が実現される。第3実施形態では、音響信号VにおけるコードOの時系列に応じて、調区間Iの端点が変更されるから、コードの時間変化を加味して、調推定モデル22により推定された調を適切に修正することができる。また、第3実施形態では、調区間Iの始点Sを含む探索区間Rにおける音響信号Vのコードの時系列(すなわち複数の候補コード)に、当該調区間Iの調情報Hが表す調の主音を根音とする調対応コードがある場合に、当該調区間Iの始点Sが、当該調対応コードに対応する区間の始点に変更される。したがって、調区間Iに対応する音響信号VのコードOの時系列の先頭が、当該調の主音を根音とするコードである可能性が高いという傾向を加味して、調情報Hに適切に修正することができる。なお、第2実施形態における後処理1および第3実施形態における後処理2を組み合わせてもよい。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、調推定モデル22と学習処理部23とを具備する音響解析装置100を例示したが、音響解析装置100とは別体の情報処理装置(以下「機械学習装置」という)に学習処理部23を搭載してもよい。機械学習装置の学習処理部23が設定した複数の係数Kを適用した調推定モデル22が、音響解析装置100に転送されて調情報Hの生成に利用される。以上の説明から理解される通り、音響解析装置100から学習処理部23は省略される。
(2)携帯電話機またはスマートフォン等の情報端末との間で通信するサーバ装置により音響解析装置100を実現してもよい。例えば、音響解析装置100は、情報端末から受信した音響信号Vの解析により調情報Hを生成して情報端末に送信する。なお、音響信号Vから特徴量Yを抽出する特徴抽出部21が情報端末に搭載された構成では、音響解析装置100は、情報端末から受信した特徴量Yの時系列を調推定モデル22に入力することで調情報Hを生成し、当該調情報Hを情報端末に送信する。以上の説明から理解される通り、音響解析装置100から特徴抽出部21を省略してもよい。
(3)前述の各形態において、例えば楽曲の楽譜において指定された既知のコードOの時系列を特徴量Yの抽出に利用してもよい。第3処理部213は、第1処理部211が抽出した特徴量Xと既知のコードOの時系列とから特徴量Yを生成する。すなわち、第2処理部212は省略され得る。以上の構成では、既知のコードOの時系列と調推定モデル22が推定した調の時系列とを併記した表示画面が表示装置13により表示される。なお、既知のコードOの時系列は、事前に記憶装置12に記憶される。
(4)前述の各形態では、継続区間U毎の特徴量Yを調推定モデル22に入力することで、当該継続区間U毎に調情報Hを生成したが、調推定モデル22に対する入力および出力は以上の例示に限定されない。例えば以下の[A]-[D]の構成が採用される。
[A]第1処理部211が生成した単位期間T毎の特徴量Xの時系列を調推定モデル22に入力することで、当該単位期間T毎に調情報Hを生成する。すなわち、調推定モデル22は、特徴量Xの時系列と調情報Hとの関係を学習する。なお、第2処理部212および第3処理部213は省略される。
[B]第1処理部211が生成した単位期間T毎の特徴量Xの時系列と、第2処理部212が生成した単位期間T毎のコードOの時系列とを調推定モデル22に入力することで、単位期間T毎に調情報Hを生成する。すなわち、調推定モデル22は、特徴量Xの時系列およびコードOの時系列と、調情報Hとの関係を学習する。なお、第3処理部213は省略される。
[C]第2処理部212が生成した単位期間T毎のコードOの時系列を調推定モデル22に入力することで、単位期間T毎に調情報Hを生成してもよい。すなわち、調推定モデル22は、コードOの時系列と調情報Hとの関係を学習する。第3処理部213は省略される。なお、[B]および[C]において、例えば楽曲の既知の楽譜から生成されたコードOの時系列を調推定モデル22に対する入力として利用してもよい。
[D]第1処理部211が生成した単位期間T毎の特徴量Xの時系列と、継続区間Uの時系列を表すデータ(以下「区間データ」という)とを調推定モデル22に入力することで、継続区間U毎に調情報Hを生成する。すなわち、調推定モデル22は、特徴量Xの時系列および区間データと、調情報Hとの関係を学習する。なお、第3処理部213は省略される。区間データは、例えば継続区間Uの境界を示すデータであり、例えば第2処理部212が生成したコードOの時系列から生成してもよいし、例えば楽曲の既知の楽譜から生成された区間データを利用してもよい。
以上の説明から理解される通り、調推定モデル22に対する入力および出力は任意である。なお、入力および出力の単位は、入力の種類に応じて適宜に変更し得る。例えば継続区間U毎または単位期間T毎の入力および出力が例示される。また、調推定モデル22に対する入力に応じて、特徴抽出部21の構成も適宜に変更し得る。
(5)前述の各形態では、複数種の調の何れかを2値的に表す指標Qを含む調情報Hを例示したが、調情報Hの内容は以上の例示に限定されない。例えば、各調に対応する指標Qが、楽曲の調がその調に該当する尤度を表す調情報Hを利用してもよい。尤度を表す指標Qは、0以上かつ1以下の範囲内の数値に設定され、相異なる調に対応する全部の調にわたる指標Qの合計値は所定値(例えば1)となる。また、複数種の調の何れかを識別するための識別情報を調情報Hとして調推定モデル22が生成してもよい。
(6)前述の各形態では、クロマベクトルと強度Pvとを含む特徴量Xを例示したが、特徴量Xの内容は以上の例示に限定されない。例えば、クロマベクトルを単独で特徴量Yとして利用してもよい。また、音響信号Vのうち所定の周波数に対して低域側の帯域成分と高域側の帯域成分の各々についてクロマベクトルと強度Pvとを含む特徴量Xを例示したが、音響信号Vにおける全体の周波数帯域についてクロマベクトルと強度Pvとを含む特徴量Xを生成してもよい。また、同様に、特徴量Yが、音階音毎の成分強度Pqの時系列に関する分散σqおよび平均μqと、音響信号Vの強度Pvの時系列に関する分散σvおよび平均μvとを、音響信号Vの全体の周波数帯域について含んでもよい。
(7)第3実施形態の後処理2において、音響信号Vに対応する楽曲の音楽構造上の構造区間(例えばAメロ,サビ,Bメロ等の各フレーズ)を加味してもよい。例えば、調が構造区間毎に変化するという傾向がある。以上の傾向を利用して、例えば調区間Iにおける探索区間R内に構造区間の始点が位置する場合には、当該構造区間の始点に当該調区間Iの始点Sを変更してもよい。
(8)前述の各形態では、調推定モデル22が生成した調情報Hが表す調を表示したが、調情報Hの用途は以上の例示に限定されない。表示装置13が表示するコード(第2処理部212が推定したコード)が、例えば利用者の演奏が困難なコードである場合には、当該コードを簡単なコードに変更したいという事情がある。以上の事情を考慮して、利用者による変更の候補となる複数のコードの特定に、調推定モデル22が推定した調を利用してもよい。調推定モデル22が推定した調を加味して、音響的に近似した複数のコードが変更の候補として特定される。
(9)前述の形態において、調推定モデルは平均律における調を推定したが、調推定モデルが推定する調の基礎となる音律は、平均律に限定されない。例えば、インド音楽等の民族音楽の音律における調を調推定モデルが推定してもよい。
(10)前述の各形態に係る音響解析装置100は、各形態での例示の通り、コンピュータ(具体的には制御装置11)とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含み得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。
なお、調推定モデル22を実現するプログラムの実行主体はCPU等の汎用の処理回路に限定されない。例えば、Tensor Processing UnitまたはNeural Engine等の人工知能に特化した処理回路、または信号処理用の電子回路(DSP:Digital Signal Processor)がプログラムを実行してもよい。また、以上の例示から選択された複数種の主体が協働してプログラムを実行してもよい。
(11)学習済モデル(調推定モデル22)は、制御装置(コンピュータの例示)により実現される統計的推定モデル(例えばニューラルネットワーク)であり、入力Aに応じた出力Bを生成する。具体的には、学習済モデルは、入力Aから出力Bを特定する演算を制御装置に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。学習済モデルの複数の係数は、入力Aと出力Bとを対応させた複数の教師データを利用した事前の機械学習(深層学習)により最適化されている。すなわち、学習済モデルは、入力Aと出力Bとの間の関係を学習した統計的推定モデルである。制御装置は、学習済の複数の係数と所定の応答関数とを適用した演算を未知の入力Aに対して実行することにより、複数の教師データに潜在する傾向(入力Aと出力Bとの間の関係)のもとで入力Aに対して統計的に妥当な出力Bを生成する。
(12)以上に例示した形態から、例えば以下の構成が把握される。
本発明の態様(第1態様)に係る音響解析方法は、音響信号の特徴量の時系列と調との関係を学習した学習済モデルに、音響信号の特徴量の時系列を入力することで、調を表す調情報を生成する。以上の態様によれば、音響信号の特徴量と調との関係を学習した学習済モデルに音響信号の特徴量を入力することで調を表す調情報が生成されるから、所定の規則に従って楽曲の調情報を生成する構成と比較して、調を高精度に推定することができる。
第1態様の一例(第2態様)において、同じコードが継続する継続区間毎に前記音響信号の特徴量を前記学習済モデルに入力することで、当該継続区間毎に前記調情報を生成する。以上の態様によれば、同じコードが継続する継続区間毎に音響信号の特徴量を学習済モデルに入力することで、当該継続区間毎に調情報が生成されるから、同じコードが継続する継続区間内では調が変化しないという傾向を加味して、調情報を高精度に推定することができる。
第2態様の一例(第3態様)において、各継続区間の前記特徴量は、前記音響信号のうち音階音に対応する成分強度における当該継続区間の時間変化に関する指標を音階音毎に含む。以上の態様によれば、音響信号のうち音階音に対応する成分強度における継続区間の時間変化に関する指標を音階音毎に含む特徴量が継続区間毎に学習済モデルに入力されるから、音響信号の時間変化を加味して、高精度に調情報を推定することができる。
第1態様の一例(第4態様)において、前記特徴量は、前記音響信号のうち音階音に対応する成分強度を複数のオクターブにわたり加算した成分強度を音階音毎に含む。以上の態様によれば、音響信号のうち音階音に対応する成分強度を複数のオクターブにわたり加算した成分強度を音階音毎に含む特徴量が学習済モデルに入力されるから、音響信号が表す楽曲のコードが適切に反映された特徴量を利用して、調情報を高精度に推定できるという利点がある。
第1態様から第4態様の何れかの一例(第5態様)において、前記調情報が表す調が連続する調区間の時間長が所定値を下回る場合に、当該調区間の調を、当該調区間の直前または直後の調情報が表す調に置換する。以上の態様によれば、調情報が表す調が連続する調区間の時間長が所定値を下回る場合に、当該調区間の調が、当該調区間の直前または直後の調情報が表す調に置換される。したがって、調が短期間で変化する可能性が低いという傾向を加味して、学習済モデルにより推定された調を適切に修正することができる。
第1態様から第5態様の何れかの一例(第6態様)において、音響信号におけるコードの時系列に応じて、前記調情報が表す調が連続する調区間の端点を変更する。以上の態様によれば、音響信号におけるコードの時系列に応じて、調情報が表す調が連続する調区間の端点が変更されるから、コードの時間変化を加味して、学習済モデルにより推定された調を適切に修正することができる。
第6態様の一例(第7態様)において、前記調区間の始点を含む探索区間における音響信号のコードの時系列に、当該調区間の調情報が表す調の主音を根音とするコードがある場合に、当該調区間の始点を、当該コードに対応する区間の始点に変更する。以上の態様によれば、調区間の始点を含む探索区間における音響信号のコードの時系列に、当該調区間の調情報が表す調の主音を根音とするコードに音響的に近似するコード(理想的には一致するコード)がある場合に、当該調区間の始点が、当該コードに対応する区間の始点に変更される。したがって、調区間に対応する音響信号のコードの時系列の先頭が、当該調の主音を根音とするコードに音響的に近似するコード(理想的には一致するコード)である可能性が高いという傾向を加味して、調情報に適切に修正することができる。
本発明の好適な態様(第8態様)に係る音響解析装置は、音響信号の特徴量の時系列と調との関係を学習した学習済モデルであって、音響信号の特徴量の時系列の入力から、調を表す調情報を生成する調推定モデルを具備する。以上の態様によれば、音響信号の特徴量と調との関係を学習した学習済モデルに音響信号の特徴量を入力することで調を表す調情報が生成されるから、所定の規則に従って楽曲の調情報を生成する構成と比較して、調を高精度に推定することができる。
100…音響解析装置、11…制御装置、12…記憶装置、13…表示装置、21…特徴抽出部、211…処理部、212…処理部、213…処理部、22…調推定モデル、23…学習処理部、24…後処理部。

Claims (8)

  1. 音響信号から第1特徴量を抽出する第1処理部、
    前記第1特徴量と前記音響信号に対応するコードとから第2特徴量を生成する第3処理部、および、
    第2特徴量と調との関係を学習した学習済モデルであって、前記第3処理部が生成した前記第2特徴量の時系列の入力から、調を表す調情報を生成する調推定モデル、
    としてコンピュータを機能させるプログラム。
  2. さらに、
    前記音響信号から前記コードを推定する第2処理部
    として前記コンピュータを機能させ、
    前記第3処理部は、前記第1処理部が抽出した前記第1特徴量と前記第2処理部が推定した前記コードとから前記第2特徴量を生成する
    請求項のプログラム。
  3. 特徴量と調との関係を学習した学習済モデルに対し、同じコードが継続する継続区間毎に、音響信号の特徴量の時系列を入力することで、調を表す調情報を前記継続区間毎に生成する
    コンピュータにより実現される音響解析方法。
  4. 特徴量と調との関係を学習した学習済モデルに、音響信号の特徴量の時系列を入力することで、調を表す調情報を生成する
    コンピュータにより実現される音響解析方法であって、
    前記特徴量は、前記音響信号のうち音階音に対応する成分強度の時間変化に関する指標を音階音毎に含む
    音響解析方法。
  5. 特徴量と調との関係を学習した学習済モデルに、音響信号の特徴量の時系列を入力することで、調を表す調情報を生成し、
    前記調情報が表す調が連続する調区間の時間長が所定値を下回る場合に、当該調区間の調を、当該調区間の直前または直後の調情報が表す調に置換する
    コンピュータにより実現される音響解析方法。
  6. 特徴量と調との関係を学習した学習済モデルに、音響信号の特徴量の時系列を入力することで、調を表す調情報を生成し、
    前記音響信号におけるコードの時系列に応じて、前記調情報が表す調が連続する調区間の端点を変更する
    コンピュータにより実現される音響解析方法であって、
    前記調区間の端点の変更においては、前記調区間の始点を含む探索区間における音響信号のコードの時系列に、当該調区間の調情報が表す調に対応する調対応コードがある場合に、当該調区間の始点を、前記調対応コードに対応する区間の始点に変更する
    音響解析方法。
  7. 前記調対応コードは、前記調区間の調情報が表す調の主音を根音とするコードである
    請求項の音響解析方法。
  8. 特徴量と調との関係を学習した学習済モデルに対し、同じコードが継続する継続区間毎に、音響信号の特徴量の時系列を入力することで、調を表す調情報を前記継続区間毎に生成する
    音響解析装置。
JP2019003324A 2019-01-11 2019-01-11 音響解析方法、音響解析装置およびプログラム Active JP7375302B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019003324A JP7375302B2 (ja) 2019-01-11 2019-01-11 音響解析方法、音響解析装置およびプログラム
CN202080007107.2A CN113196381B (zh) 2019-01-11 2020-01-09 音响解析方法以及音响解析装置
PCT/JP2020/000374 WO2020145326A1 (ja) 2019-01-11 2020-01-09 音響解析方法および音響解析装置
US17/331,520 US20210287641A1 (en) 2019-01-11 2021-05-26 Audio analysis method and audio analysis device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019003324A JP7375302B2 (ja) 2019-01-11 2019-01-11 音響解析方法、音響解析装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2020112683A JP2020112683A (ja) 2020-07-27
JP7375302B2 true JP7375302B2 (ja) 2023-11-08

Family

ID=71520523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019003324A Active JP7375302B2 (ja) 2019-01-11 2019-01-11 音響解析方法、音響解析装置およびプログラム

Country Status (4)

Country Link
US (1) US20210287641A1 (ja)
JP (1) JP7375302B2 (ja)
CN (1) CN113196381B (ja)
WO (1) WO2020145326A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022202199A1 (ja) * 2021-03-26 2022-09-29 ヤマハ株式会社 コード推定装置、訓練装置、コード推定方法および訓練方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041234A (ja) 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3088919B2 (ja) * 1994-12-22 2000-09-18 カシオ計算機株式会社 調判定音楽装置
US6057502A (en) * 1999-03-30 2000-05-02 Yamaha Corporation Apparatus and method for recognizing musical chords
JP4622808B2 (ja) * 2005-10-28 2011-02-02 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、楽曲分類プログラム
US7705231B2 (en) * 2007-09-07 2010-04-27 Microsoft Corporation Automatic accompaniment for vocal melodies
US7842878B2 (en) * 2007-06-20 2010-11-30 Mixed In Key, Llc System and method for predicting musical keys from an audio source representing a musical composition
WO2009001202A1 (en) * 2007-06-28 2008-12-31 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
WO2010043258A1 (en) * 2008-10-15 2010-04-22 Museeka S.A. Method for analyzing a digital music audio signal
JP5974436B2 (ja) * 2011-08-26 2016-08-23 ヤマハ株式会社 楽曲生成装置
US20130066452A1 (en) * 2011-09-08 2013-03-14 Yoshiyuki Kobayashi Information processing device, estimator generating method and program
JP6151121B2 (ja) * 2013-07-31 2017-06-21 株式会社河合楽器製作所 コード進行推定検出装置及びコード進行推定検出プログラム
JP6295794B2 (ja) * 2014-04-09 2018-03-20 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP6671245B2 (ja) * 2016-06-01 2020-03-25 株式会社Nttドコモ 識別装置
US10002596B2 (en) * 2016-06-30 2018-06-19 Nokia Technologies Oy Intelligent crossfade with separated instrument tracks
JP6812273B2 (ja) * 2017-02-28 2021-01-13 株式会社Nttドコモ 楽器音認識装置及び楽器音認識プログラム
US10586519B2 (en) * 2018-02-09 2020-03-10 Yamaha Corporation Chord estimation method and chord estimation apparatus
JP7069819B2 (ja) * 2018-02-23 2022-05-18 ヤマハ株式会社 コード特定方法、コード特定装置およびプログラム
JP7230464B2 (ja) * 2018-11-29 2023-03-01 ヤマハ株式会社 音響解析方法、音響解析装置、プログラムおよび機械学習方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041234A (ja) 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DUAN, Zhiyao et al.,AUDIO TONALITY MODE CLASSIFICATION WITHOUT TONIC ANNOTATIONS,[onlline],ICME 2008,2008年08月26日,Retrieved from the Internet:<URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=4607696&tag=1>,<DOI: 10.1109/ICME.2008.4607696>

Also Published As

Publication number Publication date
US20210287641A1 (en) 2021-09-16
CN113196381A (zh) 2021-07-30
CN113196381B (zh) 2023-12-26
JP2020112683A (ja) 2020-07-27
WO2020145326A1 (ja) 2020-07-16

Similar Documents

Publication Publication Date Title
CN112382257B (zh) 一种音频处理方法、装置、设备及介质
JP6743425B2 (ja) 音信号処理方法および音信号処理装置
Nakamura et al. Statistical piano reduction controlling performance difficulty
US10586519B2 (en) Chord estimation method and chord estimation apparatus
US11842719B2 (en) Sound processing method, sound processing apparatus, and recording medium
JP7069819B2 (ja) コード特定方法、コード特定装置およびプログラム
JP2012506061A (ja) デジタル音楽音響信号の分析方法
JP7375302B2 (ja) 音響解析方法、音響解析装置およびプログラム
US20220383843A1 (en) Arrangement generation method, arrangement generation device, and generation program
Kim et al. Statistical approach to automatic expressive rendition of polyphonic piano music
JP7343012B2 (ja) 情報処理装置および情報処理方法
Weil et al. Automatic Generation of Lead Sheets from Polyphonic Music Signals.
US11942106B2 (en) Apparatus for analyzing audio, audio analysis method, and model building method
WO2022153875A1 (ja) 情報処理システム、電子楽器、情報処理方法およびプログラム
JP6733487B2 (ja) 音響解析方法および音響解析装置
JP7243147B2 (ja) コード推定方法、コード推定装置およびプログラム
JP7318253B2 (ja) 楽曲解析方法、楽曲解析装置およびプログラム
JP2017161572A (ja) 音信号処理方法および音信号処理装置
JP7107427B2 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
Chien et al. An acoustic-phonetic model of F0 likelihood for vocal melody extraction
Cheng Exploiting Piano Acoustics in Automatic Transcription
JP7251248B2 (ja) コード処理方法、コード処理装置およびプログラム
US20230290325A1 (en) Sound processing method, sound processing system, electronic musical instrument, and recording medium
US20210366455A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
Fernando Anomalous Note Change Detection of Unknown Monophonic Melodies

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221223

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230703

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231009

R151 Written notification of patent or utility model registration

Ref document number: 7375302

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151