JP6197569B2

JP6197569B2 - 音響解析装置

Info

Publication number: JP6197569B2
Application number: JP2013216008A
Authority: JP
Inventors: 暖篠井; 陽前澤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-10-17
Filing date: 2013-10-17
Publication date: 2017-09-20
Anticipated expiration: 2033-10-17
Also published as: JP2015079110A

Description

本発明は、音響信号を解析する技術に関する。

楽曲の演奏音を表す音響信号の特徴を解析する各種の技術が従来から提案されている。例えば非特許文献１には、多数の楽曲の音響信号に対して非負値行列因子分解（NMF：Nonnegative Matrix Factorization）を実行した結果を利用して楽曲のジャンルを推定する技術が開示されている。

Konstantin Markov, Tomoko Matsui, "NONNEGATIVE MATRIX FACTORIZATION BASED SELF-TAUGHT LEARNING WITH APPLICATION TO MUSIC GENRE CLASSIFICATION", IEEE International Workshop on Machine Learning for Signal Processing (MLSP), 2012

しかし、非特許文献１のように既存の非負値行列因子分解を音響信号の解析に単純に適用した構成では、実際には音響信号の高精度な解析は困難である。以上の事情を考慮して、本発明は、楽曲のジャンルやスタイル等の区分を高精度に解析することを目的とする。

以上の課題を解決するために、本発明の音響解析装置は、複数の参照音を分類した複数の区分について、区分内の参照音の周波数特性を表す複数の基底ベクトルを含む区分毎の参照基底行列（例えば参照基底行列Ｂ[g]）と、参照基底行列の各基底ベクトルの加重値の時間変動を表す複数の係数ベクトルを含む解析係数行列（例えば解析係数行列Ｙ[g]）との行列積を、区分毎の第１区分加重値（例えば区分加重値ｗA[g]）のもとで加重加算した結果が、解析対象音の周波数特性の時系列を表す解析特性行列（例えば解析特性行列Ｘ）に近似するように、第１区分加重値と解析係数行列とを区分毎に算定する行列解析手段を具備する。以上の構成では、参照基底行列と解析係数行列との行列積を区分毎の第１区分加重値のもとで加重加算した結果が解析対象音の解析特性行列に近似するように、第１区分加重値と解析係数行列とが参照音の区分毎に個別に算定されるから、相異なる複数の区分の参照音に音響特性が類似する音響成分を解析対象音が包含する場合でも、当該音響成分は１個の区分の解析係数行列に優勢に反映される。すなわち、解析対象音の解析係数行列が高精度に推定される。したがって、解析対象音のジャンルやスタイル等の区分を高精度に解析することが可能である。なお、各区分は典型的には複数の参照音を包含するが、１個の参照音のみを各区分に包含させることも可能である。

本発明の好適な態様に係る音響解析装置は、参照音の周波数特性の時系列を表す複数の参照特性行列（例えば参照特性行列Ｒ[g,s]）を、参照基底行列と、当該参照基底行列の各基底ベクトルの加重値の時間変動を表す複数の係数ベクトルを含む参照係数行列（例えば参照係数行列Ｚ[g,s]）とに分解したときの当該参照係数行列と、行列解析手段が算定した解析係数行列とを比較する特性比較手段を具備する。以上の構成によれば、参照特性行列を参照基底行列と参照係数行列とに分解（非負値行列因子分解）したときの当該参照係数行列と解析対象音の解析係数行列とが比較されるから、解析対象音と参照音との間で各音響成分の時間的なパターンの類否の度合を評価することが可能である。

本発明の好適な態様において、特性比較手段は、参照基底行列と参照係数行列との行列積を区分毎の第２区分加重値（例えば区分加重値ｗB[g,s]）のもとで加重加算した結果が参照特性行列に近似するように、第２区分加重値と参照係数行列とを区分毎に算定したときの当該各参照係数行列を、行列解析手段が算定した解析係数行列と比較する。以上の態様では、参照基底行列と参照係数行列との行列積を区分毎の第２区分加重値のもとで加重加算した結果が参照音の参照特性行列に近似するように、第２区分加重値と参照係数行列とが区分毎に個別に算定されるから、参照音の参照係数行列を高精度が高精度に推定される。したがって、解析対象音のジャンルやスタイル等の区分を高精度に解析できるという前述の効果は格別に顕著である。

本発明の好適な態様において、特性比較手段は、複数の区分のうち行列解析手段が区分毎に算定した第１区分加重値に応じて選択された特定区分内の複数の参照音の各々について、当該参照音の参照係数行列と、行列解析手段が特定区分について算定した解析係数行列とを比較する。以上の態様では、複数の区分のうち第１区分加重値に応じて選択された特定区分（例えば第１区分加重値が最大となる区分）内の複数の参照音の各々について参照係数行列と解析対象音の解析係数行列とが比較されるから、複数の区分の全部について参照係数行列の算定や解析係数行列との比較を実行する構成と比較して処理量が削減されるという利点がある。

本発明の好適な態様において、複数の参照音は、音楽的なスタイルが相違する各楽曲の伴奏音であり、楽曲のジャンル毎に複数の区分に分類され、特定区分のジャンルの名称と特性比較手段による比較結果に応じて選択された参照音のスタイルの名称とを表示装置に表示させる表示制御手段を具備する。以上の態様では、特定区分のジャンルの名称と特性比較手段による比較結果に応じて選択された参照音のスタイルの名称とが表示装置に表示されるから、解析対象音のジャンルおよびスタイルの判別を所望する利用者に有用な情報を提供できるという利点がある。

以上の各態様に係る音響解析装置は、解析対象音の解析に専用されるＤＳＰ（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音響解析装置の動作方法（音響解析方法）としても特定される。

本発明の第１実施形態に係る音響解析装置の構成図である。基底学習処理の説明図である。基底学習処理のフローチャートである。行列解析処理のフローチャートである。行列解析処理（階層化ＮＭＦ）の説明図である。係数算定部による処理の説明図である。係数算定部が実行する階層化ＮＭＦの説明図である。解析結果画面の模式図である。対比例の説明図である。本発明の第２実施形態に係る電子楽器の構成図である。変形例に係る特性比較部の動作の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音響解析装置１００の構成図である。図１に例示される通り、音響解析装置１００には信号供給装置１２と表示装置１４とが接続される。信号供給装置１２は、音響信号ＡXを音響解析装置１００に供給する。音響信号ＡXは、音響解析装置１００による解析の対象となる音響（以下「解析対象音」という）の波形を表す信号である。第１実施形態では、楽曲を構成する複数の演奏パートの演奏音（歌唱者の音声や楽器の楽音）の混合音を解析対象音として想定する。可搬型または内蔵型の記録媒体から音響信号ＡXを取得して音響解析装置１００に供給する再生装置や、配信サーバ装置から配信（例えばストリーミング配信）された楽曲の音響信号ＡXを通信網から受信して音響解析装置１００に供給する通信装置が、信号供給装置１２として好適に採用される。なお、信号供給装置１２を音響解析装置１００と一体に構成することも可能である。

音響解析装置１００は、信号供給装置１２から供給される音響信号ＡXを解析する信号処理装置である。具体的には、第１実施形態の音響解析装置１００は、音響信号ＡXで表現される楽曲のジャンルとスタイルとを推定する。ジャンルは、楽曲を音楽的な観点で分類した区分（種類）を意味し、スタイルは、楽曲をジャンルよりも詳細に分類した区分（様式）を意味する。例えばロックやポップスやクラシック等の区分がジャンルに相当し、６０年代や８０年代等の区分がスタイルに相当する。第１実施形態では、音響信号ＡXのジャンルをＧ個（Ｇは２以上の自然数）の候補から推定するとともに１個のジャンルにおける音響信号ＡXのスタイルをＳ個（Ｓは２以上の自然数）の候補から推定する場合を想定する。以下の説明では便宜的に、Ｇ個のジャンルの各々が同数（Ｓ個）のスタイルを包含する場合を想定するが、実際にはスタイルの種類や総数Ｓはジャンル毎に相違する。図１の表示装置１４（例えば液晶表示パネル）は、音響解析装置１００からの指示に応じた画像を表示する。具体的には、音響解析装置１００による音響信号ＡXの解析結果（楽曲のジャンルおよびスタイル）が表示装置１４に表示される。

図１に例示される通り、音響解析装置１００は、演算処理装置２２と記憶装置２４とを具備するコンピュータシステムで実現される。記憶装置２４は、演算処理装置２２が実行するプログラムや演算処理装置２２が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置２４として利用される。音響信号ＡXを記憶装置２４に記憶した構成（したがって、信号供給装置１２は省略され得る）も好適である。

第１実施形態の記憶装置２４は、音響信号ＡXの解析に利用される複数の参照データＤR[g,s]（ｇ＝１〜Ｇ，ｓ＝１〜Ｓ）を記憶する。図１に例示される通り、各参照データＤR[g,s]は、属性情報ｄと参照信号ＡRとを含んで構成される。参照信号ＡRは、音響信号ＡXの解析に利用される音響（以下「参照音」という）の波形を表す信号である。参照データＤR[g,s]の参照信号ＡRで表現される参照音は、第ｇ番目のジャンルと第ｓ番目のスタイルとの組合せに対応する楽曲の伴奏パートに好適な演奏音（例えば当該組合せに該当する既存の楽曲で多用される傾向がある打楽器等のリズム楽器の伴奏パターン）である。楽曲の所定長（例えば４小節分）の区間にわたる参照音が各参照信号ＡRで表現される。

属性情報ｄは、参照音に対応する楽曲（例えば参照音が伴奏パートの演奏音として好適な楽曲）の属性を指定する。具体的には、参照データＤR[g,s]の属性情報ｄは、第ｇ番目のジャンルの名称（ロックやポップス等の名称）と第ｓ番目のスタイルの名称（６０年代や８０年代等の名称）とを指定する。楽曲のジャンルまたはスタイルが相違する多数の参照音の各々について参照データＤR[g,s]が事前に用意されて記憶装置２４に格納される。以上の説明から理解される通り、複数の参照音は、Ｇ個のジャンルとＳ個のスタイルとに分類される。なお、楽曲の参照音の発音／消音を時系列に指定するMIDI（Musical Instrument Digital Interface）形式の演奏データを参照データＤR[g,s]として記憶装置２４に記憶し、演奏データから参照信号ＡRを生成する構成も採用され得る。

演算処理装置２２は、記憶装置２４に記憶されたプログラムを実行することで、音響信号ＡXを解析するための複数の機能（基底学習部３２，行列解析部３４，係数算定部３６，特性比較部３８，表示制御部４０）を実現する。なお、演算処理装置２２の各機能を複数の集積回路に分散した構成や、専用の電子回路（例えばDSP）が演算処理装置２２の一部の機能を実現する構成も採用され得る。

基底学習部３２は、記憶装置２４に記憶された各参照データＤR[g,s]から相異なるジャンルに対応するＧ個の参照基底行列Ｂ[1]〜Ｂ[G]を生成する。図２に例示される通り、任意の１個の参照基底行列Ｂ[g]は、第ｇ番目のジャンルに分類される楽曲の伴奏パートに典型的に出現する各音響成分に対応するＫ個の基底ベクトルｂ[1]〜ｂ[K]を横方向に配列したＭ行Ｋ列の非負値行列（基底行列）である。参照基底行列Ｂ[g]のうち第ｋ列（ｋ＝１〜Ｋ）の基底ベクトルｂ[k]は、第ｇ番目のジャンルの楽曲の伴奏パートの参照音に典型的に出現するＫ種類の音響成分のうち第ｋ番目の音響成分の周波数特性（振幅スペクトルまたはパワースペクトル）を表現する。参照基底行列Ｂ[g]の行数（基底ベクトルｂ[k]の要素数）Ｍは、周波数軸上に離散的に設定された周波数の個数に相当する。なお、以下の説明では便宜的に、参照基底行列Ｂ[g]の列数ＫをＧ個の参照基底行列Ｂ[1]〜Ｂ[G]にわたり共通させた場合を例示するが、参照基底行列Ｂ[g]毎（ジャンル毎）に列数Ｋを相違させることも可能である。

図３は、基底学習部３２が参照データＤR[g,s]から各参照基底行列Ｂ[g]を算定する処理（以下「基底学習処理」という）のフローチャートである。基底学習処理を開始すると、基底学習部３２は、記憶装置２４に記憶された複数の参照データＤR[g,s]の各々について参照特性行列Ｒ[g,s]を生成する（ＳA1）。参照特性行列Ｒ[g,s]は、図２に例示される通り、参照データＤR[g,s]の参照信号ＡRの周波数特性の時系列（スペクトログラム）を表すＭ行Ｎ列（Ｎは２以上の自然数）の非負値行列である。すなわち、参照特性行列Ｒ[g,s]の第ｎ列（ｎ＝１〜Ｎ）は、参照データＤR[g,s]の参照信号ＡRを時間軸上で区分したＮ個のフレームのうち第ｎ番目のフレームでの参照信号ＡRの周波数特性（振幅スペクトルまたはパワースペクトル）に相当する。参照基底行列Ｂ[g]の生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用される。なお、以下の各図面において記号ｔは時間を意味し、記号ｆは周波数を意味する。

基底学習部３２は、各参照データＤR[g,s]から算定した複数（(Ｇ×Ｓ)個）の参照特性行列Ｒ[g,s]（Ｒ[1,1]〜Ｒ[G,S]）をジャンル毎に区分し、各ジャンルのＳ個の参照特性行列Ｒ[g,1]〜Ｒ[g,S]に応じた結合特性行列Ｒ[g]をジャンル毎に生成する（ＳA2）。具体的には、結合特性行列Ｒ[g]は、図２に例示される通り、第ｇ番目のジャンルに対応するＳ個の参照特性行列Ｒ[g,1]〜Ｒ[g,S]を横方向（時間軸方向）に配列したＭ行(Ｎ×Ｓ)列の非負値行列である。

基底学習部３２は、結合特性行列Ｒ[g]に対する非負値行列因子分解で第ｇ番目のジャンルの参照基底行列Ｂ[g]を算定する（ＳA3）。具体的には、基底学習部３２は、結合特性行列Ｒ[g]を参照基底行列Ｂ[g]と図２の係数行列Ｈ[g]とに分解する。係数行列Ｈ[g]は、参照基底行列Ｂ[g]の各基底ベクトルｂ[k]に対応するＫ個の係数ベクトルｈ[1]〜ｈ[K]を縦方向に配列したＫ行(Ｎ×Ｓ)列の非負値行列（アクティベーション）である。係数行列Ｈ[g]の第ｋ行の係数ベクトルｈ[k]は、参照基底行列Ｂ[g]の基底ベクトルｂ[k]に対する加重値（活性度）の時間変動に相当する。基底学習部３２は、参照基底行列Ｂ[g]と係数行列Ｈ[g]との行列積Ｂ[g]Ｈ[g]が結合特性行列Ｒ[g]に近付くように参照基底行列Ｂ[g]と係数行列Ｈ[g]とを反復的に更新する学習処理で参照基底行列Ｂ[g]と係数行列Ｈ[g]とを算定する。結合特性行列Ｒ[g]の非負値行列因子分解（参照基底行列Ｂ[g]の算定）には公知の技術が任意に採用される。

結合特性行列Ｒ[g]の非負値行列因子分解（ＳA3）がジャンル毎に実行されることで、相異なるジャンルに対応するＧ個の参照基底行列Ｂ[1]〜Ｂ[G]が生成される。以上の説明から理解される通り、参照基底行列Ｂ[g]は、第ｇ番目のジャンルの相異なるスタイルに対応するＳ個の参照音（参照データＤR[g,1]〜ＤR[g,S]の各々の参照信号ＡRで表現される参照音）に優勢に出現する音響成分の周波数特性を表現する。なお、参照基底行列Ｂ[g]とともに算定される係数行列Ｈ[g]は破棄されて音響信号ＡXの解析には利用されない。

図１の行列解析部３４は、基底学習部３２が算定したＧ個の参照基底行列Ｂ[1]〜Ｂ[G]を利用して解析対象音の音響信号ＡXを解析する。第１実施形態の行列解析部３４は、以下に詳述する通り、音響信号ＡXの周波数特性の時系列を表す解析特性行列Ｘについて、基底学習部３２が算定した各参照基底行列Ｂ[g]を教師情報（事前情報）として利用した教師あり非負値行列因子分解を実行する。

図４は、行列解析部３４が音響信号ＡXの解析特性行列Ｘを解析する処理（以下「行列解析処理」という）のフローチャートであり、図５は、行列解析処理の説明図である。行列解析処理を開始すると、行列解析部３４は、図５に例示される通り、信号供給装置１２が供給する音響信号ＡXから解析対象の区間（以下「解析区間」という）を抽出する（ＳB1，ＳB2）。具体的には、行列解析部３４は、音響信号ＡXの時間軸上の各拍点を特定し（ＳB1）、各拍点を境界として音響信号ＡXから解析区間を抽出する（ＳB2）。解析区間は、音響信号ＡXのうち各参照信号ＡRと同等の時間長（例えば４小節分）の区間である。なお、音響信号ＡXの拍点の特定には公知の技術（ビート検出）が任意に採用される。例えば、行列解析部３４は、時間軸上で音響信号ＡXの音量が極大となる略等間隔の時点を拍点として特定する。

行列解析部３４は、音響信号ＡXの解析区間について解析特性行列Ｘを生成する（ＳB3）。解析特性行列Ｘは、図５に例示される通り、解析区間内の音響信号ＡXの周波数特性の時系列（スペクトログラム）を表すＭ行Ｎ列の非負値行列である。すなわち、解析特性行列Ｘの第ｎ列は、解析区間を時間軸上で区分したＮ個のフレームのうち第ｎ番目のフレームでの音響信号ＡXの周波数特性（振幅スペクトルまたはパワースペクトル）に相当する。解析特性行列Ｘの生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用される。

行列解析部３４は、解析特性行列Ｘに対して非負値行列因子分解を実行する（ＳB4）。第１実施形態の行列解析部３４が実行する非負値行列因子分解は、図５からも理解される通り、相異なるジャンルに対応するＧ個の係数（以下「区分加重値」という）ｗA[1]〜ｗA[G]を適用した以下の数式(1)で表現される。

数式(1)および図５から理解される通り、第１実施形態の行列解析部３４は、参照基底行列Ｂ[g]と解析係数行列Ｙ[g]との行列積Ｂ[g]Ｙ[g]をジャンル毎の区分加重値ｗA[g]のもとで加重加算した結果（数式(1)の右辺）が音響信号ＡXの解析特性行列Ｘに近似するように、区分加重値ｗA[g]（ｗA[1]〜ｗA[G]）と解析係数行列Ｙ[g]（Ｙ[1]〜Ｙ[G]）とをジャンル毎に算定する。具体的には、行列解析部３４は、区分加重値ｗA[1]〜ｗA[G]を適用したＧ個の行列積Ｂ[1]Ｙ[1]〜Ｂ[G]Ｙ[G]の加重和が解析特性行列Ｘに近付くように各区分加重値ｗA[g]と各解析係数行列Ｙ[g]とを反復的に更新する学習処理で、各ジャンルの区分加重値ｗA[g]と解析係数行列Ｙ[g]とを一括的に算定する。区分加重値ｗA[g]および解析係数行列Ｙ[g]の更新式は、非負値行列因子分解に適用される既存の更新式の導出と同様に、例えば区分加重値ｗA[1]〜ｗA[G]を適用したＧ個の行列積Ｂ[1]Ｙ[1]〜Ｂ[G]Ｙ[G]の加重和と音響信号ＡXの解析特性行列Ｘとの差分に相当する評価関数が最小化される（評価関数の微分値がゼロになる）という条件から導出される。

解析係数行列Ｙ[g]は、図５に例示される通り、参照基底行列Ｂ[g]の各基底ベクトルｂ[k]に対応するＫ個の係数ベクトルｙ[1]〜ｙ[K]を縦方向に配列したＫ行Ｎ列の非負値行列である。解析係数行列Ｙ[g]の第ｋ行の係数ベクトルｙ[k]は、参照基底行列Ｂ[g]の基底ベクトルｂ[k]に対する加重値（活性度）の時間変動（すなわち、基底ベクトルｂ[k]の音響成分が解析対象音の音響信号ＡXに出現する時間的なパターン）に相当する。したがって、参照基底行列Ｂ[g]と解析係数行列Ｙ[g]との行列積Ｂ[g]Ｙ[g]は、音響信号ＡXのうち第ｇ番目のジャンルの各参照音に優勢に出現する音響成分の周波数特性の時系列（スペクトログラム）に相当する。以上の説明から理解される通り、各区分加重値ｗA[g]は、第ｇ番目のジャンルの楽曲の伴奏パートに多用される音響成分を解析対象音の音響信号ＡXが含有する度合（優勢度）の指標に相当する。すなわち、行列解析部３４が算定する区分加重値ｗA[g]が大きいほど、第ｇ番目のジャンルに多用される音響成分が音響信号ＡXにて優勢である（解析対象音が第ｇ番目のジャンルに該当する確度が高い）と評価できる。

以上の傾向を考慮して、第１実施形態の行列解析部３４は、解析特性行列Ｘの非負値行列因子分解で算定したＧ個の区分加重値ｗA[1]〜ｗA[G]に応じて解析対象音のジャンル（以下「特定ジャンル」という）を推定する（ＳB5）。具体的には、行列解析部３４は、Ｇ個の区分加重値ｗA[1]〜ｗA[G]のうち最大の区分加重値ｗA[γ]（γ＝argmax_g（ｗA[g]））に対応するジャンル（第γ番目のジャンル）を特定ジャンルとして特定する。そして、行列解析部３４は、解析特性行列Ｘに対する非負値行列因子分解で相異なるジャンルについて算定したＧ個の解析係数行列Ｙ[1]〜Ｙ[G]のうち特定ジャンルに対応する解析係数行列Ｙ[γ]を選択する（ＳB6）。以上の説明から理解される通り、解析係数行列Ｙ[γ]の各係数ベクトルｙ[k]は、特定ジャンルの楽曲の伴奏パートに多用される各音響成分が解析対象音の音響信号ＡXに出現する時間的なパターン（当該音響成分のリズムパターン）に相当する。なお、参照基底行列Ｂ[g]の基底ベクトルｂ[k]の加重値が、当該基底ベクトルｂ[k]に対応する係数ベクトルｙ[k]と各ジャンルの区分加重値ｗA[g]とに階層化されるという観点から、数式(1)で例示されるように基底行列と係数行列との加重和で分解対象の行列（数式(1)の例示では解析特性行列Ｘ）を近似する非負値行列因子分解を、以下の説明では便宜的に「階層化ＮＭＦ」と表記する。

図１の係数算定部３６は、特定ジャンルのＳ個の参照データＤR[γ,1]〜ＤR[γ,S]の各々の参照信号ＡRの参照特性行列Ｒ[γ,s]について参照基底行列Ｂ[1]〜Ｂ[G]を教師情報とする教師あり非負値行列因子分解を実行することで図６の基礎データＱ[γ]を生成する。図６に例示される通り、基礎データＱ[γ]は、特定ジャンルの相異なるスタイルに対応するＳ個の単位データｑ[γ,1]〜ｑ[γ,S]を含んで構成される。

第１実施形態の係数算定部３６が参照特性行列Ｒ[γ,s]に対して実行する非負値行列因子分解は、前述の解析特性行列Ｘの非負値行列因子分解（数式(1)）と同様に、相異なるジャンルに対応するＧ個の区分加重値ｗB[1,s]〜ｗB[G,s]を適用した以下の数式(2)で表現される階層化ＮＭＦである。

数式(2)および図７から理解される通り、第１実施形態の係数算定部３６は、参照基底行列Ｂ[g]と参照係数行列Ｚ[g,s]との行列積Ｂ[g]Ｚ[g,s]をジャンル毎の区分加重値ｗB[g,s]のもとで加重加算した結果（数式(2)の右辺）が特定ジャンルの参照信号ＡRの参照特性行列Ｒ[γ,s]に近似するように、Ｇ個の区分加重値ｗB[1,s]〜ｗB[G,s]とＧ個の参照係数行列Ｚ[1,s]〜Ｚ[G,s]とを算定する。図６に例示される通り、基礎データＱ[γ]のうち１個の参照特性行列Ｒ[γ,s]に対応する単位データｑ[γ,s]は、参照特性行列Ｒ[γ,s]から算定されたＧ個の区分加重値ｗB[1,s]〜ｗB[G,s]とＧ個の参照係数行列Ｚ[1,s]〜Ｚ[G,s]とを包含する。

参照係数行列Ｚ[g,s]は、図７に例示される通り、参照基底行列Ｂ[g]の各基底ベクトルｂ[k]に対応するＫ個の係数ベクトルｚ[1]〜ｚ[K]を縦方向に配列したＫ行Ｎ列の非負値行列である。参照係数行列Ｚ[g,s]の第ｋ行の係数ベクトルｚ[k]は、参照基底行列Ｂ[g]の基底ベクトルｂ[k]に対する加重値の時間変動（すなわち、基底ベクトルｂ[k]の音響成分が参照音の参照信号ＡRに出現する時間的なパターン）に相当する。以上の説明から理解される通り、参照基底行列Ｂ[g]と参照係数行列Ｚ[g,s]との行列積Ｂ[g]Ｚ[g,s]は、第ｇ番目のジャンルの参照音に優勢に出現する音響成分の周波数特性の時系列（スペクトログラム）に相当する。したがって、係数算定部３６がスタイル毎に算定するＧ個の区分加重値ｗB[1,s]〜ｗB[G,s]のうち特定ジャンルに対応する１個の区分加重値ｗB[γ,s]は他の(Ｇ−１)個と比較して大きい数値（１に近い数値）となる。

係数算定部３６は、図６から理解される通り、単位データｑ[γ,s]に包含されるＧ個の参照係数行列Ｚ[1,s]〜Ｚ[G,s]のうち特定ジャンルに対応する参照係数行列Ｚ[γ,s]を、相異なるスタイルに対応するＳ個の単位データｑ[γ,1]〜ｑ[γ,S]の各々について選択する。すなわち、特定ジャンルの相異なるスタイルに対応するＳ個の参照係数行列Ｚ[γ,1]〜Ｚ[γ,s]が選択される。以上の説明から理解される通り、任意の１個の参照係数行列Ｚ[γ,s]は、特定ジャンルの楽曲の伴奏パートに多用される各音響成分が参照データＤR[γ,s]の参照信号ＡRに出現する時間的なパターン（当該音響成分のリズムパターン）に相当する。

図１の特性比較部３８は、行列解析部３４が特定ジャンルについて算定した解析係数行列Ｙ[γ]と、係数算定部３６が特定ジャンルのスタイル毎に算定した参照係数行列Ｚ[γ,1]〜Ｚ[γ,S]の各々とを比較する。具体的には、特性比較部３８は、解析係数行列Ｙ[γ]と参照係数行列Ｚ[γ,s]との類似度σ[s]をスタイル毎に算定する。すなわち、特定ジャンルの相異なるスタイル（相異なるＳ個の参照係数行列Ｚ[γ,1]〜Ｚ[γ,S]の各々）に対応するＳ個の類似度σ[1]〜σ[S]が算定される。類似度σ[s]は、解析係数行列Ｙ[γ]と参照係数行列Ｚ[γ,s]との類否の度合の指標であり、例えば距離（ユークリッド距離）や相関が好適例である。第１実施形態では、解析係数行列Ｙ[γ]と参照係数行列Ｚ[γ,s]との相関を類似度σ[s]として算定する。したがって、解析係数行列Ｙ[γ]と参照係数行列Ｚ[γ,s]とが類似するほど類似度σ[s]は増加する。以上の説明から理解される通り、特性比較部３８が算定する類似度σ[s]が大きいほど、特定ジャンルの第ｓ番目のスタイルの楽曲の伴奏パートに多用される音響成分の時間的なパターンに音響信号ＡXが類似する（解析対象音が特定ジャンルの第ｓ番目のスタイルに該当する確度が高い）と評価できる。

表示制御部４０は、特性比較部３８が算定した類似度σ[1]〜σ[S]に応じた解析結果を表示装置１４に表示させる。第１実施形態の表示制御部４０は、図８に例示される解析結果画面５０を表示装置１４に表示させる。解析結果画面５０は、特定ジャンルの名称（ロックやポップス等のジャンル名）と、類似度σ[s]に応じて選択されたスタイルの名称とを含むリストである。具体的には、特定ジャンルのＳ個のスタイルのうち類似度σ[s]の降順で上位に位置する所定個のスタイル（すなわち音響信号ＡXが該当する確度が高いスタイル）の名称が類似度σ[s]の降順で配列される。ジャンルおよびスタイルの名称は、各参照データＤR[g,s]の属性情報ｄから特定される。利用者は、表示装置１４に表示された解析結果を確認することで、音響信号ＡXのジャンルおよびスタイルを認識することが可能である。なお、以上の例示では、類似度σ[s]の降順で上位に位置する所定個のスタイルの名称を表示したが、例えば類似度σ[s]が所定の閾値を上回る１個以上（類似度σ[s]と閾値とに応じた可変の個数）のスタイルの名称を表示させることも可能である。

以上に説明した第１実施形態では、参照基底行列Ｂ[g]と各解析係数行列Ｙ[g]との行列積Ｂ[g]Ｙ[g]をジャンル毎の区分加重値ｗA[g]のもとでＧ個のジャンルについて加重加算した結果が音響信号ＡXの解析特性行列Ｘに近似するように、区分加重値ｗA[g]と解析係数行列Ｙ[g]とがジャンル毎に個別に算定される。したがって、以下に詳述する通り、音響信号ＡXのジャンルやスタイルを高精度に解析できるという利点がある。

各ジャンルの参照音に優勢に出現する音響成分（基底ベクトルｂ[k]）の時間的なパターン（各音響成分の加重値の時間変動）を算定する方法としては、例えば図９に例示される通り、相異なるジャンルに対応するＧ個の参照基底行列Ｂ[1]〜Ｂ[G]を連結したＭ行(Ｋ×Ｇ)列の大行列（以下「統合基底行列」という）Ｂ0を音響信号ＡXの解析特性行列Ｘの非負値行列因子分解に適用する方法（以下「対比例」という）が想定される。対比例では、解析特性行列Ｘが、統合基底行列Ｂ0と統合係数行列Ｙとに分解される。統合基底行列Ｂ0は、Ｇ個の参照基底行列Ｂ[1]〜Ｂ[G]の各々に包含される複数（(Ｋ×Ｍ)個）の基底ベクトルｂ[k]を包含し、統合係数行列Ｙは、各基底ベクトルｂ[k]に対応する複数（(Ｋ×Ｍ)個）の係数ベクトルｙ[k]を包含する。対比例では、相異なるジャンルに属する各基底ベクトルｂ[k]がジャンル毎に区別されることなく相互に対等に取扱われるから、相異なる２個以上のジャンルの参照音に音響特性が類似する解析対象音の音響成分が、各ジャンルに対応する複数の係数ベクトルｙ[k]に分配される（複数の係数ベクトルｙ[k]にて同時に励起される）可能性がある。すなわち、例えば「ダンス」のジャンルの演奏音（例えばキックドラムの演奏音）と「アコースティック」のジャンルの演奏音（例えばスネアドラムの演奏音）とに類似する解析対象音の音響成分は、本来的には１個のジャンルの係数ベクトルｙ[k]のみに反映されるべきであるが、「ダンス」のジャンルの基底ベクトルｂ[k1]に対応する係数ベクトルｙ[k1]と「アコースティック」のジャンルの基底ベクトルｂ[k2]（ｋ2≠ｋ1）に対応する係数ベクトルｙ[k2]との双方に分配され得る。

以上に例示した対比例とは対照的に、第１実施形態にて解析特性行列Ｘに実行される階層化ＮＭＦでは、参照基底行列Ｂ[g]と解析係数行列Ｙ[g]とが区分加重値ｗA[g]によりジャンル毎に区分されるから、解析対象音の音響成分の音響特性が２個以上のジャンルの参照音に類似する場合でも、当該音響成分は１個のジャンルの係数ベクトルｙ[g]に適切に分配される。すなわち、解析対象音の解析係数行列Ｙ[g]が高精度に推定される。したがって、前述の通り、音響信号ＡXのジャンルやスタイルを高精度に推定することが可能である。

以上の説明では解析特性行列Ｘの階層化ＮＭＦに着目したが、第１実施形態では、参照信号ＡRの参照特性行列Ｒ[g,s]についても同様に、参照基底行列Ｂ[g]と各参照係数行列Ｚ[g,s]との行列積Ｂ[g]Ｚ[g,s]をジャンル毎の区分加重値ｗB[g,s]のもとでＧ個のジャンルについて加重加算した結果を参照信号ＡRの参照特性行列Ｒ[g,s]に近似させる階層化ＮＭＦが実行される。以上の構成によれば、Ｇ個の参照基底行列Ｂ[1]〜Ｂ[G]を包含する統合基底行列Ｂ0を利用して参照特性行列Ｒ[g,s]を分解する構成と比較して、参照音の参照係数行列Ｚ[g,s]が高精度に推定される。したがって、音響信号ＡXのジャンルやスタイルを高精度に推定できるという効果は格別に顕著である。

また、第１実施形態では、Ｇ個のジャンルのうち区分加重値ｗA[g]に応じて選択された特定ジャンルのＳ個の参照音の参照特性行列Ｒ[γ,1]〜Ｒ[γ,S]について基礎データＱ[γ]の算定や解析係数行列Ｙ[γ]との比較が実行される。したがって、Ｇ個のジャンルの全部について基礎データＱ[γ]の算定や解析係数行列Ｙ[γ]との比較を実行する構成と比較して、演算処理装置２２の処理量が削減されるという利点がある。

＜第２実施形態＞
本発明の第２実施形態について説明する。第２実施形態は、第１実施形態の音響解析装置１００を利用した電子楽器である。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図１０は、第２実施形態の電子楽器２００の構成図である。電子楽器２００は、鍵盤楽器型の演奏機器（例えばMIDI楽器）であり、演算処理装置２２と記憶装置２４と表示装置１４とに加えて操作機器１６と放音装置１８とを具備する。操作機器１６は、利用者が操作する入力機器である。具体的には、操作機器１６は、鍵盤楽器と同様に複数の鍵（白鍵および黒鍵）が配列された鍵盤と、利用者が操作する操作子とを含んで構成される。利用者は、操作機器１６（典型的には鍵盤以外の操作子）を適宜に操作することで、音響信号ＡXの解析結果として表示装置１４に表示された図８の解析結果画面５０から、所望のジャンルおよびスタイルの組合せを選択することが可能である。放音装置１８（例えばスピーカやヘッドホン）は、演算処理装置２２から供給される音響信号Ｖに応じた音響を放射する。

図１０に例示される通り、第２実施形態の電子楽器２００の演算処理装置２２は、電子楽器２００に接続された信号供給装置１２から供給される解析対象音の音響信号ＡXを第１実施形態と同様に解析して解析結果を利用者に提示する要素（基底学習部３２，行列解析部３４，係数算定部３６，特性比較部３８，表示制御部４０）として機能する。したがって、第２実施形態においても第１実施形態と同様の効果が実現される。第１実施形態と同様の要素に加えて、第２実施形態の演算処理装置２２は、指示受付部６２および再生処理部６４としても機能する。指示受付部６２は、操作機器１６に対する利用者からの操作を受付ける。具体的には、指示受付部６２は、操作機器１６の鍵盤に対する演奏操作と、操作機器１６に対するジャンルおよびスタイルの選択操作とを受付ける。

再生処理部６４は、記憶装置２４に記憶された複数の参照データＤR[g,s]のうち指示受付部６２が受付けた選択操作で指定されたジャンルおよびスタイルの参照データＤR[g,s]の参照信号ＡRと、指示受付部６２が受付けた演奏操作で順次に指定される音高の時系列を表す演奏信号とを混合することで音響信号Ｖを生成して放音装置１８に供給する。なお、参照信号ＡRがMIDI形式等の演奏データで記憶装置２４に記憶された構成では、再生処理部６４が演奏データから参照信号ＡRを生成する。以上の説明から理解される通り、第２実施形態では、音響信号ＡXの楽曲のジャンルおよびスタイルに好適な伴奏パートの演奏音（参照信号ＡR）のもとで、例えば当該楽曲の旋律パートを、利用者が操作機器１６に対する演奏操作で演奏することが可能である。

＜第３実施形態＞
第１実施形態では、区分加重値ｗA[1]〜ｗA[G]を適用したＧ個の行列積Ｂ[1]Ｙ[1]〜Ｂ[G]Ｙ[G]の加重和と音響信号ＡXの解析特性行列Ｘとの差分に相当する評価関数が最小化されるという条件から導出された更新式の演算で区分加重値ｗA[g]と解析係数行列Ｙ[g]とをジャンル毎に算定したが、階層化ＮＭＦの解法は以上の例示に限定されない。第３実施形態は、階層化ＮＭＦの処理に変分ベイズ法を適用した形態である。

観測対象音の音響信号ＡXの解析特性行列Ｘの観測尤度は、ポアソン分布（Pois()）を適用した以下の数式(3)の確率モデルで近似的に表現される。数式(3)の添字ｔは時間を意味し、添字ｆは周波数を意味する。また、数式(3)の記号ｂ_f[k,g]は、第ｇ番目のジャンルの参照基底行列Ｂ[g]における第ｋ列の基底ベクトルｂ[k]に相当する。

数式(3)の係数ベクトルｙ_t[k]および基底ベクトルｂ_f[g,k]の各々の事前分布は、ガンマ分布（Gam()）を適用した以下の数式(4A)および数式(4B)で表現される。

ジャンルの総数Ｇを不定値として好適な数値に設定する観点から、以下の数式(5A)のようにガンマ過程を仮定する。また、基底ベクトルｂ_f[k,g]の総数Ｋを不定値として好適な数値に設定する観点から、前述の数式(3)では、ガンマ過程を適用した数式(5B)で表現される変数θ_g[k]を導入した。

以上のように定義された確率モデルの各変数を推定する。対数同時分布logｐ(wA,b,y,θ)は、定数項を無視すると以下の数式(6)で表現される。

数式(6)の変数Λ_f,t[g,k]は、以下の数式(7)の条件を充足する変数である。

数式(6)の確率モデルの各変数の推定に公知の変分ベイズ法を適用する。まず、変数Λ_f,t[g,k]を以下の数式(8)の演算で更新する。

確率モデルの他の変数の事後分布も以下の数式(9)から数式(12)のように設定できる。

行列解析部３４は、数式(9)から数式(12)の演算で数式(3)の確率モデルの各変数（ｂ_f[k,g]，ｙ_t[k]，ｗA[g]，θ_g[k]）を算定する。第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、ガンマ過程の導入により基底ベクトルｂ_f[k,g]の総数（スタイルの総数）Ｋを不定値として取扱う確率モデルで音響信号ＡXの解析特性行列Ｘを表現するから、基底ベクトルｂ_f[k,g]の総数Ｋを適切に設定しながら階層化ＮＭＦを実現できるという利点がある。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、図１１の部分(A)に例示される通り、特定ジャンルの各スタイルに対応するＳ個の参照係数行列Ｚ[γ,1]〜Ｚ[γ,S]の各々と音響信号ＡXから生成された特定ジャンルの解析係数行列Ｙ[γ]とを特性比較部３８が比較したが、特性比較部３８による比較の対象は以上の例示に限定されない。例えば、図１１の部分(B)に例示される通り、数式(1)の階層化ＮＭＦで算定された特定ジャンルの区分加重値ｗA[γ]と解析係数行列Ｙ[γ]との乗算結果ｗA[γ]Ｙ[γ]と、数式(2)の階層化ＮＭＦで算定された特定ジャンルの区分加重値ｗB[γ,s]と参照係数行列Ｚ[γ,s]との乗算結果ｗB[γ,s]Ｚ[γ,s]とを、特定ジャンルのスタイル毎に特性比較部３８が比較する（すなわち類似度σ[1]〜σ[S]を算定する）ことも可能である。以上の例示から理解される通り、特性比較部３８は、解析係数行列Ｙ[γ]と参照係数行列Ｚ[γ,s]とを比較する要素として包括的に表現され、解析係数行列Ｙ[γ]に対する区分加重値ｗA[γ]の乗算の有無や参照係数行列Ｚ[γ,s]に対する区分加重値ｗB[γ]の乗算の有無は不問である。

（２）前述の各形態では、相異なるジャンルに対応するＧ個の参照基底行列Ｂ[1]〜Ｂ[G]を基底学習部３２が参照データＤR[g,s]から算定する構成を例示したが、Ｇ個の参照基底行列Ｂ[1]〜Ｂ[G]を事前に算定して記憶装置２４に格納した構成も採用され得る。例えば音響解析装置１００の基底学習部３２が事前に生成した参照基底行列Ｂ[1]〜Ｂ[G]や、音響解析装置１００とは別個の装置にて第１実施形態と同様の方法で事前に生成された参照基底行列Ｂ[1]〜Ｂ[G]が記憶装置２４に格納される。以上の説明から理解される通り、基底学習部３２は音響解析装置１００から省略され得る。

（３）前述の各形態では、特定ジャンルの基礎データＱ[γ]を係数算定部３６が算定する構成を例示したが、相異なるジャンルに対応するＧ個の基礎データＱ[1]〜Ｑ[G]を事前に算定して記憶装置２４に格納した構成も採用され得る。図８を参照して前述した通り、基礎データＱ[g]は、第ｇ番目のジャンルの相異なるスタイルに対応するＳ個の単位データｑ[g,1]〜ｑ[g,S]を含んで構成される。各単位データｑ[g,s]は、参照特性行列Ｒ[g,s]に対する数式(2)の階層化ＮＭＦで算定されたＧ個の区分加重値ｗB[1,s]〜ｑB[G,s]とＧ個の参照係数行列Ｚ[1,s]〜Ｚ[G,s]とを包含する。特性比較部３８は、記憶装置２４に記憶されたＧ個の基礎データＱ[1]〜Ｑ[G]のうち特定ジャンルの基礎データＱ[γ]を選択し、基礎データＱ[γ]の各単位データｑ[γ,s]からＳ個の参照係数行列Ｚ[γ,1]〜Ｚ[γ,S]を抽出してスタイル毎の類似度σ[s]を算定する。例えば音響解析装置１００の係数算定部３６が事前に生成した基礎データＱ[1]〜Ｑ[G]や、音響解析装置１００とは別個の装置にて第１実施形態と同様の方法で事前に生成された基礎データＱ[1]〜Ｑ[G]が記憶装置２４に格納される。以上の説明から理解される通り、係数算定部３６は音響解析装置１００から省略され得る。

（４）前述の各形態では、複数の参照音のジャンルおよびスタイルの名称を類似度σ[s]の降順で配列したリストを表示装置１４に表示させたが、解析結果を利用者に提示する方法は以上の例示に限定されない。例えば、特定ジャンルのＳ個のスタイルのうち類似度σ[s]が最大となる１個のスタイルの名称を表示装置１４に表示させることも可能である。また、解析結果の利用方法は利用者に対する提示（典型的には画像表示）に限定されない。例えば、特定ジャンルのＳ個のスタイルのうち類似度σ[s]が最大となるスタイルの参照信号ＡRを放音装置１８に供給して再生する構成や、類似度が最大となるスタイルの参照信号ＡRを解析対象音の音響信号ＡXに対応付けて記憶する構成も採用され得る。以上の説明から理解される通り、解析結果を表示装置１４に表示させる表示制御部４０は省略され得る。

（５）前述の各形態では、行列解析部３４が算定したＧ個の解析係数行列Ｙ[1]〜Ｙ[G]のうち区分加重値ｗA[1]〜ｗA[G]に応じて推定された特定ジャンルの解析係数行列Ｙ[γ]について各参照音の参照係数行列Ｚ[γ,s]との類似度σ[s]を算定したが、行列解析部３４による解析結果を利用する方法は以上の例示に限定されない。例えば、行列解析部３４が算定したＧ個の区分加重値ｗA[1]〜ｗA[G]のうち最大の区分加重値ｗA[γ]に対応するジャンルの名称を解析結果として利用者に提示する構成も採用され得る。すなわち、音響解析装置１００は、音響信号ＡXで表現される楽曲のジャンルを推定する装置として利用される。以上の説明から理解される通り、行列解析部３４による解析結果を利用して類似度σ[s]を算定する特性比較部３８は省略され得る。

（６）前述の各形態では、音響信号ＡXで表現される楽曲の音楽的なジャンルやスタイルの推定を例示したが、音響解析装置１００による解析の目的は、解析対象音のジャンルやスタイルの推定に限定されない。例えば、複数の楽曲から抽出されて楽曲構成用の素材（ループ素材）として利用される多数の参照音から音響信号ＡXに類似する参照音を推定する処理にも本発明を適用することが可能である。

（７）携帯電話機等の端末装置と通信するサーバ装置により音響解析装置１００を実現することも可能である。具体的には、音響解析装置１００は、端末装置から通信網を介して受信した音響信号ＡXを前述の各形態と同様に解析するとともに解析結果（例えば類似度σ[1]〜σ[S]や解析結果画面５０の画像データ）を端末装置に送信する。

１００……音響解析装置、２００……電子楽器、１２……信号供給装置、１４……表示装置、１６……操作機器、１８……放音装置、２２……演算処理装置、２４……記憶装置、３２……基底学習部、３４……行列解析部、３６……係数算定部、３８……特性比較部、４０……表示制御部、５０……解析結果画面、６２……指示受付部、６４……再生処理部。

Claims

複数の参照音を分類した複数の区分について、前記区分内の参照音の周波数特性を表す複数の基底ベクトルを含む前記区分毎の参照基底行列と、前記参照基底行列の各基底ベクトルの加重値の時間変動を表す複数の係数ベクトルを含む解析係数行列との行列積を、前記区分毎の第１区分加重値のもとで加重加算した結果が、解析対象音の周波数特性の時系列を表す解析特性行列に近似するように、前記第１区分加重値と前記解析係数行列とを前記区分毎に算定する行列解析手段
を具備する音響解析装置。
前記参照音の周波数特性の時系列を表す複数の参照特性行列を、前記参照基底行列と、当該参照基底行列の各基底ベクトルの加重値の時間変動を表す複数の係数ベクトルを含む参照係数行列とに分解したときの当該参照係数行列と、前記行列解析手段が算定した前記解析係数行列とを比較する特性比較手段
を具備する請求項１の音響解析装置。
前記特性比較手段は、前記参照基底行列と前記参照係数行列との行列積を前記区分毎の第２区分加重値のもとで加重加算した結果が前記参照特性行列に近似するように、前記第２区分加重値と前記参照係数行列とを前記区分毎に算定したときの当該各参照係数行列を、前記行列解析手段が算定した前記解析係数行列と比較する
請求項２の音響解析装置。
前記特性比較手段は、前記複数の区分のうち前記行列解析手段が前記区分毎に算定した第１区分加重値に応じて選択された特定区分内の複数の参照音の各々について、当該参照音の前記参照係数行列と、前記行列解析手段が前記特定区分について算定した解析係数行列とを比較する
請求項２または請求項３の音響解析装置。
前記複数の参照音は、音楽的なスタイルが相違する各楽曲の伴奏音であり、前記楽曲のジャンル毎に前記複数の区分に分類され、
前記特定区分のジャンルの名称と前記特性比較手段による比較結果に応じて選択された参照音のスタイルの名称とを表示装置に表示させる表示制御手段を具備する
請求項４の音響解析装置。