<第1実施形態>
図1は、本発明の第1実施形態に係る音響解析装置100の構成図である。図1に例示される通り、音響解析装置100には信号供給装置12と表示装置14とが接続される。信号供給装置12は、音響信号AXを音響解析装置100に供給する。音響信号AXは、音響解析装置100による解析の対象となる音響(以下「解析対象音」という)の波形を表す信号である。第1実施形態では、楽曲を構成する複数の演奏パートの演奏音(歌唱者の音声や楽器の楽音)の混合音を解析対象音として想定する。可搬型または内蔵型の記録媒体から音響信号AXを取得して音響解析装置100に供給する再生装置や、配信サーバ装置から配信(例えばストリーミング配信)された楽曲の音響信号AXを通信網から受信して音響解析装置100に供給する通信装置が、信号供給装置12として好適に採用される。なお、信号供給装置12を音響解析装置100と一体に構成することも可能である。
音響解析装置100は、信号供給装置12から供給される音響信号AXを解析する信号処理装置である。具体的には、第1実施形態の音響解析装置100は、音響信号AXで表現される楽曲のジャンルとスタイルとを推定する。ジャンルは、楽曲を音楽的な観点で分類した区分(種類)を意味し、スタイルは、楽曲をジャンルよりも詳細に分類した区分(様式)を意味する。例えばロックやポップスやクラシック等の区分がジャンルに相当し、60年代や80年代等の区分がスタイルに相当する。第1実施形態では、音響信号AXのジャンルをG個(Gは2以上の自然数)の候補から推定するとともに1個のジャンルにおける音響信号AXのスタイルをS個(Sは2以上の自然数)の候補から推定する場合を想定する。以下の説明では便宜的に、G個のジャンルの各々が同数(S個)のスタイルを包含する場合を想定するが、実際にはスタイルの種類や総数Sはジャンル毎に相違する。図1の表示装置14(例えば液晶表示パネル)は、音響解析装置100からの指示に応じた画像を表示する。具体的には、音響解析装置100による音響信号AXの解析結果(楽曲のジャンルおよびスタイル)が表示装置14に表示される。
図1に例示される通り、音響解析装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムや演算処理装置22が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置24として利用される。音響信号AXを記憶装置24に記憶した構成(したがって、信号供給装置12は省略され得る)も好適である。
第1実施形態の記憶装置24は、音響信号AXの解析に利用される複数の参照データDR[g,s](g=1〜G,s=1〜S)を記憶する。図1に例示される通り、各参照データDR[g,s]は、属性情報dと参照信号ARとを含んで構成される。参照信号ARは、音響信号AXの解析に利用される音響(以下「参照音」という)の波形を表す信号である。参照データDR[g,s]の参照信号ARで表現される参照音は、第g番目のジャンルと第s番目のスタイルとの組合せに対応する楽曲の伴奏パートに好適な演奏音(例えば当該組合せに該当する既存の楽曲で多用される傾向がある打楽器等のリズム楽器の伴奏パターン)である。楽曲の所定長(例えば4小節分)の区間にわたる参照音が各参照信号ARで表現される。
属性情報dは、参照音に対応する楽曲(例えば参照音が伴奏パートの演奏音として好適な楽曲)の属性を指定する。具体的には、参照データDR[g,s]の属性情報dは、第g番目のジャンルの名称(ロックやポップス等の名称)と第s番目のスタイルの名称(60年代や80年代等の名称)とを指定する。楽曲のジャンルまたはスタイルが相違する多数の参照音の各々について参照データDR[g,s]が事前に用意されて記憶装置24に格納される。以上の説明から理解される通り、複数の参照音は、G個のジャンルとS個のスタイルとに分類される。なお、楽曲の参照音の発音/消音を時系列に指定するMIDI(Musical Instrument Digital Interface)形式の演奏データを参照データDR[g,s]として記憶装置24に記憶し、演奏データから参照信号ARを生成する構成も採用され得る。
演算処理装置22は、記憶装置24に記憶されたプログラムを実行することで、音響信号AXを解析するための複数の機能(基底学習部32,行列解析部34,係数算定部36,特性比較部38,表示制御部40)を実現する。なお、演算処理装置22の各機能を複数の集積回路に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置22の一部の機能を実現する構成も採用され得る。
基底学習部32は、記憶装置24に記憶された各参照データDR[g,s]から相異なるジャンルに対応するG個の参照基底行列B[1]〜B[G]を生成する。図2に例示される通り、任意の1個の参照基底行列B[g]は、第g番目のジャンルに分類される楽曲の伴奏パートに典型的に出現する各音響成分に対応するK個の基底ベクトルb[1]〜b[K]を横方向に配列したM行K列の非負値行列(基底行列)である。参照基底行列B[g]のうち第k列(k=1〜K)の基底ベクトルb[k]は、第g番目のジャンルの楽曲の伴奏パートの参照音に典型的に出現するK種類の音響成分のうち第k番目の音響成分の周波数特性(振幅スペクトルまたはパワースペクトル)を表現する。参照基底行列B[g]の行数(基底ベクトルb[k]の要素数)Mは、周波数軸上に離散的に設定された周波数の個数に相当する。なお、以下の説明では便宜的に、参照基底行列B[g]の列数KをG個の参照基底行列B[1]〜B[G]にわたり共通させた場合を例示するが、参照基底行列B[g]毎(ジャンル毎)に列数Kを相違させることも可能である。
図3は、基底学習部32が参照データDR[g,s]から各参照基底行列B[g]を算定する処理(以下「基底学習処理」という)のフローチャートである。基底学習処理を開始すると、基底学習部32は、記憶装置24に記憶された複数の参照データDR[g,s]の各々について参照特性行列R[g,s]を生成する(SA1)。参照特性行列R[g,s]は、図2に例示される通り、参照データDR[g,s]の参照信号ARの周波数特性の時系列(スペクトログラム)を表すM行N列(Nは2以上の自然数)の非負値行列である。すなわち、参照特性行列R[g,s]の第n列(n=1〜N)は、参照データDR[g,s]の参照信号ARを時間軸上で区分したN個のフレームのうち第n番目のフレームでの参照信号ARの周波数特性(振幅スペクトルまたはパワースペクトル)に相当する。参照基底行列B[g]の生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用される。なお、以下の各図面において記号tは時間を意味し、記号fは周波数を意味する。
基底学習部32は、各参照データDR[g,s]から算定した複数((G×S)個)の参照特性行列R[g,s](R[1,1]〜R[G,S])をジャンル毎に区分し、各ジャンルのS個の参照特性行列R[g,1]〜R[g,S]に応じた結合特性行列R[g]をジャンル毎に生成する(SA2)。具体的には、結合特性行列R[g]は、図2に例示される通り、第g番目のジャンルに対応するS個の参照特性行列R[g,1]〜R[g,S]を横方向(時間軸方向)に配列したM行(N×S)列の非負値行列である。
基底学習部32は、結合特性行列R[g]に対する非負値行列因子分解で第g番目のジャンルの参照基底行列B[g]を算定する(SA3)。具体的には、基底学習部32は、結合特性行列R[g]を参照基底行列B[g]と図2の係数行列H[g]とに分解する。係数行列H[g]は、参照基底行列B[g]の各基底ベクトルb[k]に対応するK個の係数ベクトルh[1]〜h[K]を縦方向に配列したK行(N×S)列の非負値行列(アクティベーション)である。係数行列H[g]の第k行の係数ベクトルh[k]は、参照基底行列B[g]の基底ベクトルb[k]に対する加重値(活性度)の時間変動に相当する。基底学習部32は、参照基底行列B[g]と係数行列H[g]との行列積B[g]H[g]が結合特性行列R[g]に近付くように参照基底行列B[g]と係数行列H[g]とを反復的に更新する学習処理で参照基底行列B[g]と係数行列H[g]とを算定する。結合特性行列R[g]の非負値行列因子分解(参照基底行列B[g]の算定)には公知の技術が任意に採用される。
結合特性行列R[g]の非負値行列因子分解(SA3)がジャンル毎に実行されることで、相異なるジャンルに対応するG個の参照基底行列B[1]〜B[G]が生成される。以上の説明から理解される通り、参照基底行列B[g]は、第g番目のジャンルの相異なるスタイルに対応するS個の参照音(参照データDR[g,1]〜DR[g,S]の各々の参照信号ARで表現される参照音)に優勢に出現する音響成分の周波数特性を表現する。なお、参照基底行列B[g]とともに算定される係数行列H[g]は破棄されて音響信号AXの解析には利用されない。
図1の行列解析部34は、基底学習部32が算定したG個の参照基底行列B[1]〜B[G]を利用して解析対象音の音響信号AXを解析する。第1実施形態の行列解析部34は、以下に詳述する通り、音響信号AXの周波数特性の時系列を表す解析特性行列Xについて、基底学習部32が算定した各参照基底行列B[g]を教師情報(事前情報)として利用した教師あり非負値行列因子分解を実行する。
図4は、行列解析部34が音響信号AXの解析特性行列Xを解析する処理(以下「行列解析処理」という)のフローチャートであり、図5は、行列解析処理の説明図である。行列解析処理を開始すると、行列解析部34は、図5に例示される通り、信号供給装置12が供給する音響信号AXから解析対象の区間(以下「解析区間」という)を抽出する(SB1,SB2)。具体的には、行列解析部34は、音響信号AXの時間軸上の各拍点を特定し(SB1)、各拍点を境界として音響信号AXから解析区間を抽出する(SB2)。解析区間は、音響信号AXのうち各参照信号ARと同等の時間長(例えば4小節分)の区間である。なお、音響信号AXの拍点の特定には公知の技術(ビート検出)が任意に採用される。例えば、行列解析部34は、時間軸上で音響信号AXの音量が極大となる略等間隔の時点を拍点として特定する。
行列解析部34は、音響信号AXの解析区間について解析特性行列Xを生成する(SB3)。解析特性行列Xは、図5に例示される通り、解析区間内の音響信号AXの周波数特性の時系列(スペクトログラム)を表すM行N列の非負値行列である。すなわち、解析特性行列Xの第n列は、解析区間を時間軸上で区分したN個のフレームのうち第n番目のフレームでの音響信号AXの周波数特性(振幅スペクトルまたはパワースペクトル)に相当する。解析特性行列Xの生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用される。
行列解析部34は、解析特性行列Xに対して非負値行列因子分解を実行する(SB4)。第1実施形態の行列解析部34が実行する非負値行列因子分解は、図5からも理解される通り、相異なるジャンルに対応するG個の係数(以下「区分加重値」という)wA[1]〜wA[G]を適用した以下の数式(1)で表現される。
数式(1)および図5から理解される通り、第1実施形態の行列解析部34は、参照基底行列B[g]と解析係数行列Y[g]との行列積B[g]Y[g]をジャンル毎の区分加重値wA[g]のもとで加重加算した結果(数式(1)の右辺)が音響信号AXの解析特性行列Xに近似するように、区分加重値wA[g](wA[1]〜wA[G])と解析係数行列Y[g](Y[1]〜Y[G])とをジャンル毎に算定する。具体的には、行列解析部34は、区分加重値wA[1]〜wA[G]を適用したG個の行列積B[1]Y[1]〜B[G]Y[G]の加重和が解析特性行列Xに近付くように各区分加重値wA[g]と各解析係数行列Y[g]とを反復的に更新する学習処理で、各ジャンルの区分加重値wA[g]と解析係数行列Y[g]とを一括的に算定する。区分加重値wA[g]および解析係数行列Y[g]の更新式は、非負値行列因子分解に適用される既存の更新式の導出と同様に、例えば区分加重値wA[1]〜wA[G]を適用したG個の行列積B[1]Y[1]〜B[G]Y[G]の加重和と音響信号AXの解析特性行列Xとの差分に相当する評価関数が最小化される(評価関数の微分値がゼロになる)という条件から導出される。
解析係数行列Y[g]は、図5に例示される通り、参照基底行列B[g]の各基底ベクトルb[k]に対応するK個の係数ベクトルy[1]〜y[K]を縦方向に配列したK行N列の非負値行列である。解析係数行列Y[g]の第k行の係数ベクトルy[k]は、参照基底行列B[g]の基底ベクトルb[k]に対する加重値(活性度)の時間変動(すなわち、基底ベクトルb[k]の音響成分が解析対象音の音響信号AXに出現する時間的なパターン)に相当する。したがって、参照基底行列B[g]と解析係数行列Y[g]との行列積B[g]Y[g]は、音響信号AXのうち第g番目のジャンルの各参照音に優勢に出現する音響成分の周波数特性の時系列(スペクトログラム)に相当する。以上の説明から理解される通り、各区分加重値wA[g]は、第g番目のジャンルの楽曲の伴奏パートに多用される音響成分を解析対象音の音響信号AXが含有する度合(優勢度)の指標に相当する。すなわち、行列解析部34が算定する区分加重値wA[g]が大きいほど、第g番目のジャンルに多用される音響成分が音響信号AXにて優勢である(解析対象音が第g番目のジャンルに該当する確度が高い)と評価できる。
以上の傾向を考慮して、第1実施形態の行列解析部34は、解析特性行列Xの非負値行列因子分解で算定したG個の区分加重値wA[1]〜wA[G]に応じて解析対象音のジャンル(以下「特定ジャンル」という)を推定する(SB5)。具体的には、行列解析部34は、G個の区分加重値wA[1]〜wA[G]のうち最大の区分加重値wA[γ](γ=argmaxg(wA[g]))に対応するジャンル(第γ番目のジャンル)を特定ジャンルとして特定する。そして、行列解析部34は、解析特性行列Xに対する非負値行列因子分解で相異なるジャンルについて算定したG個の解析係数行列Y[1]〜Y[G]のうち特定ジャンルに対応する解析係数行列Y[γ]を選択する(SB6)。以上の説明から理解される通り、解析係数行列Y[γ]の各係数ベクトルy[k]は、特定ジャンルの楽曲の伴奏パートに多用される各音響成分が解析対象音の音響信号AXに出現する時間的なパターン(当該音響成分のリズムパターン)に相当する。なお、参照基底行列B[g]の基底ベクトルb[k]の加重値が、当該基底ベクトルb[k]に対応する係数ベクトルy[k]と各ジャンルの区分加重値wA[g]とに階層化されるという観点から、数式(1)で例示されるように基底行列と係数行列との加重和で分解対象の行列(数式(1)の例示では解析特性行列X)を近似する非負値行列因子分解を、以下の説明では便宜的に「階層化NMF」と表記する。
図1の係数算定部36は、特定ジャンルのS個の参照データDR[γ,1]〜DR[γ,S]の各々の参照信号ARの参照特性行列R[γ,s]について参照基底行列B[1]〜B[G]を教師情報とする教師あり非負値行列因子分解を実行することで図6の基礎データQ[γ]を生成する。図6に例示される通り、基礎データQ[γ]は、特定ジャンルの相異なるスタイルに対応するS個の単位データq[γ,1]〜q[γ,S]を含んで構成される。
第1実施形態の係数算定部36が参照特性行列R[γ,s]に対して実行する非負値行列因子分解は、前述の解析特性行列Xの非負値行列因子分解(数式(1))と同様に、相異なるジャンルに対応するG個の区分加重値wB[1,s]〜wB[G,s]を適用した以下の数式(2)で表現される階層化NMFである。
数式(2)および図7から理解される通り、第1実施形態の係数算定部36は、参照基底行列B[g]と参照係数行列Z[g,s]との行列積B[g]Z[g,s]をジャンル毎の区分加重値wB[g,s]のもとで加重加算した結果(数式(2)の右辺)が特定ジャンルの参照信号ARの参照特性行列R[γ,s]に近似するように、G個の区分加重値wB[1,s]〜wB[G,s]とG個の参照係数行列Z[1,s]〜Z[G,s]とを算定する。図6に例示される通り、基礎データQ[γ]のうち1個の参照特性行列R[γ,s]に対応する単位データq[γ,s]は、参照特性行列R[γ,s]から算定されたG個の区分加重値wB[1,s]〜wB[G,s]とG個の参照係数行列Z[1,s]〜Z[G,s]とを包含する。
参照係数行列Z[g,s]は、図7に例示される通り、参照基底行列B[g]の各基底ベクトルb[k]に対応するK個の係数ベクトルz[1]〜z[K]を縦方向に配列したK行N列の非負値行列である。参照係数行列Z[g,s]の第k行の係数ベクトルz[k]は、参照基底行列B[g]の基底ベクトルb[k]に対する加重値の時間変動(すなわち、基底ベクトルb[k]の音響成分が参照音の参照信号ARに出現する時間的なパターン)に相当する。以上の説明から理解される通り、参照基底行列B[g]と参照係数行列Z[g,s]との行列積B[g]Z[g,s]は、第g番目のジャンルの参照音に優勢に出現する音響成分の周波数特性の時系列(スペクトログラム)に相当する。したがって、係数算定部36がスタイル毎に算定するG個の区分加重値wB[1,s]〜wB[G,s]のうち特定ジャンルに対応する1個の区分加重値wB[γ,s]は他の(G−1)個と比較して大きい数値(1に近い数値)となる。
係数算定部36は、図6から理解される通り、単位データq[γ,s]に包含されるG個の参照係数行列Z[1,s]〜Z[G,s]のうち特定ジャンルに対応する参照係数行列Z[γ,s]を、相異なるスタイルに対応するS個の単位データq[γ,1]〜q[γ,S]の各々について選択する。すなわち、特定ジャンルの相異なるスタイルに対応するS個の参照係数行列Z[γ,1]〜Z[γ,s]が選択される。以上の説明から理解される通り、任意の1個の参照係数行列Z[γ,s]は、特定ジャンルの楽曲の伴奏パートに多用される各音響成分が参照データDR[γ,s]の参照信号ARに出現する時間的なパターン(当該音響成分のリズムパターン)に相当する。
図1の特性比較部38は、行列解析部34が特定ジャンルについて算定した解析係数行列Y[γ]と、係数算定部36が特定ジャンルのスタイル毎に算定した参照係数行列Z[γ,1]〜Z[γ,S]の各々とを比較する。具体的には、特性比較部38は、解析係数行列Y[γ]と参照係数行列Z[γ,s]との類似度σ[s]をスタイル毎に算定する。すなわち、特定ジャンルの相異なるスタイル(相異なるS個の参照係数行列Z[γ,1]〜Z[γ,S]の各々)に対応するS個の類似度σ[1]〜σ[S]が算定される。類似度σ[s]は、解析係数行列Y[γ]と参照係数行列Z[γ,s]との類否の度合の指標であり、例えば距離(ユークリッド距離)や相関が好適例である。第1実施形態では、解析係数行列Y[γ]と参照係数行列Z[γ,s]との相関を類似度σ[s]として算定する。したがって、解析係数行列Y[γ]と参照係数行列Z[γ,s]とが類似するほど類似度σ[s]は増加する。以上の説明から理解される通り、特性比較部38が算定する類似度σ[s]が大きいほど、特定ジャンルの第s番目のスタイルの楽曲の伴奏パートに多用される音響成分の時間的なパターンに音響信号AXが類似する(解析対象音が特定ジャンルの第s番目のスタイルに該当する確度が高い)と評価できる。
表示制御部40は、特性比較部38が算定した類似度σ[1]〜σ[S]に応じた解析結果を表示装置14に表示させる。第1実施形態の表示制御部40は、図8に例示される解析結果画面50を表示装置14に表示させる。解析結果画面50は、特定ジャンルの名称(ロックやポップス等のジャンル名)と、類似度σ[s]に応じて選択されたスタイルの名称とを含むリストである。具体的には、特定ジャンルのS個のスタイルのうち類似度σ[s]の降順で上位に位置する所定個のスタイル(すなわち音響信号AXが該当する確度が高いスタイル)の名称が類似度σ[s]の降順で配列される。ジャンルおよびスタイルの名称は、各参照データDR[g,s]の属性情報dから特定される。利用者は、表示装置14に表示された解析結果を確認することで、音響信号AXのジャンルおよびスタイルを認識することが可能である。なお、以上の例示では、類似度σ[s]の降順で上位に位置する所定個のスタイルの名称を表示したが、例えば類似度σ[s]が所定の閾値を上回る1個以上(類似度σ[s]と閾値とに応じた可変の個数)のスタイルの名称を表示させることも可能である。
以上に説明した第1実施形態では、参照基底行列B[g]と各解析係数行列Y[g]との行列積B[g]Y[g]をジャンル毎の区分加重値wA[g]のもとでG個のジャンルについて加重加算した結果が音響信号AXの解析特性行列Xに近似するように、区分加重値wA[g]と解析係数行列Y[g]とがジャンル毎に個別に算定される。したがって、以下に詳述する通り、音響信号AXのジャンルやスタイルを高精度に解析できるという利点がある。
各ジャンルの参照音に優勢に出現する音響成分(基底ベクトルb[k])の時間的なパターン(各音響成分の加重値の時間変動)を算定する方法としては、例えば図9に例示される通り、相異なるジャンルに対応するG個の参照基底行列B[1]〜B[G]を連結したM行(K×G)列の大行列(以下「統合基底行列」という)B0を音響信号AXの解析特性行列Xの非負値行列因子分解に適用する方法(以下「対比例」という)が想定される。対比例では、解析特性行列Xが、統合基底行列B0と統合係数行列Yとに分解される。統合基底行列B0は、G個の参照基底行列B[1]〜B[G]の各々に包含される複数((K×M)個)の基底ベクトルb[k]を包含し、統合係数行列Yは、各基底ベクトルb[k]に対応する複数((K×M)個)の係数ベクトルy[k]を包含する。対比例では、相異なるジャンルに属する各基底ベクトルb[k]がジャンル毎に区別されることなく相互に対等に取扱われるから、相異なる2個以上のジャンルの参照音に音響特性が類似する解析対象音の音響成分が、各ジャンルに対応する複数の係数ベクトルy[k]に分配される(複数の係数ベクトルy[k]にて同時に励起される)可能性がある。すなわち、例えば「ダンス」のジャンルの演奏音(例えばキックドラムの演奏音)と「アコースティック」のジャンルの演奏音(例えばスネアドラムの演奏音)とに類似する解析対象音の音響成分は、本来的には1個のジャンルの係数ベクトルy[k]のみに反映されるべきであるが、「ダンス」のジャンルの基底ベクトルb[k1]に対応する係数ベクトルy[k1]と「アコースティック」のジャンルの基底ベクトルb[k2](k2≠k1)に対応する係数ベクトルy[k2]との双方に分配され得る。
以上に例示した対比例とは対照的に、第1実施形態にて解析特性行列Xに実行される階層化NMFでは、参照基底行列B[g]と解析係数行列Y[g]とが区分加重値wA[g]によりジャンル毎に区分されるから、解析対象音の音響成分の音響特性が2個以上のジャンルの参照音に類似する場合でも、当該音響成分は1個のジャンルの係数ベクトルy[g]に適切に分配される。すなわち、解析対象音の解析係数行列Y[g]が高精度に推定される。したがって、前述の通り、音響信号AXのジャンルやスタイルを高精度に推定することが可能である。
以上の説明では解析特性行列Xの階層化NMFに着目したが、第1実施形態では、参照信号ARの参照特性行列R[g,s]についても同様に、参照基底行列B[g]と各参照係数行列Z[g,s]との行列積B[g]Z[g,s]をジャンル毎の区分加重値wB[g,s]のもとでG個のジャンルについて加重加算した結果を参照信号ARの参照特性行列R[g,s]に近似させる階層化NMFが実行される。以上の構成によれば、G個の参照基底行列B[1]〜B[G]を包含する統合基底行列B0を利用して参照特性行列R[g,s]を分解する構成と比較して、参照音の参照係数行列Z[g,s]が高精度に推定される。したがって、音響信号AXのジャンルやスタイルを高精度に推定できるという効果は格別に顕著である。
また、第1実施形態では、G個のジャンルのうち区分加重値wA[g]に応じて選択された特定ジャンルのS個の参照音の参照特性行列R[γ,1]〜R[γ,S]について基礎データQ[γ]の算定や解析係数行列Y[γ]との比較が実行される。したがって、G個のジャンルの全部について基礎データQ[γ]の算定や解析係数行列Y[γ]との比較を実行する構成と比較して、演算処理装置22の処理量が削減されるという利点がある。
<第2実施形態>
本発明の第2実施形態について説明する。第2実施形態は、第1実施形態の音響解析装置100を利用した電子楽器である。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図10は、第2実施形態の電子楽器200の構成図である。電子楽器200は、鍵盤楽器型の演奏機器(例えばMIDI楽器)であり、演算処理装置22と記憶装置24と表示装置14とに加えて操作機器16と放音装置18とを具備する。操作機器16は、利用者が操作する入力機器である。具体的には、操作機器16は、鍵盤楽器と同様に複数の鍵(白鍵および黒鍵)が配列された鍵盤と、利用者が操作する操作子とを含んで構成される。利用者は、操作機器16(典型的には鍵盤以外の操作子)を適宜に操作することで、音響信号AXの解析結果として表示装置14に表示された図8の解析結果画面50から、所望のジャンルおよびスタイルの組合せを選択することが可能である。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置22から供給される音響信号Vに応じた音響を放射する。
図10に例示される通り、第2実施形態の電子楽器200の演算処理装置22は、電子楽器200に接続された信号供給装置12から供給される解析対象音の音響信号AXを第1実施形態と同様に解析して解析結果を利用者に提示する要素(基底学習部32,行列解析部34,係数算定部36,特性比較部38,表示制御部40)として機能する。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。第1実施形態と同様の要素に加えて、第2実施形態の演算処理装置22は、指示受付部62および再生処理部64としても機能する。指示受付部62は、操作機器16に対する利用者からの操作を受付ける。具体的には、指示受付部62は、操作機器16の鍵盤に対する演奏操作と、操作機器16に対するジャンルおよびスタイルの選択操作とを受付ける。
再生処理部64は、記憶装置24に記憶された複数の参照データDR[g,s]のうち指示受付部62が受付けた選択操作で指定されたジャンルおよびスタイルの参照データDR[g,s]の参照信号ARと、指示受付部62が受付けた演奏操作で順次に指定される音高の時系列を表す演奏信号とを混合することで音響信号Vを生成して放音装置18に供給する。なお、参照信号ARがMIDI形式等の演奏データで記憶装置24に記憶された構成では、再生処理部64が演奏データから参照信号ARを生成する。以上の説明から理解される通り、第2実施形態では、音響信号AXの楽曲のジャンルおよびスタイルに好適な伴奏パートの演奏音(参照信号AR)のもとで、例えば当該楽曲の旋律パートを、利用者が操作機器16に対する演奏操作で演奏することが可能である。
<第3実施形態>
第1実施形態では、区分加重値wA[1]〜wA[G]を適用したG個の行列積B[1]Y[1]〜B[G]Y[G]の加重和と音響信号AXの解析特性行列Xとの差分に相当する評価関数が最小化されるという条件から導出された更新式の演算で区分加重値wA[g]と解析係数行列Y[g]とをジャンル毎に算定したが、階層化NMFの解法は以上の例示に限定されない。第3実施形態は、階層化NMFの処理に変分ベイズ法を適用した形態である。
観測対象音の音響信号AXの解析特性行列Xの観測尤度は、ポアソン分布(Pois())を適用した以下の数式(3)の確率モデルで近似的に表現される。数式(3)の添字tは時間を意味し、添字fは周波数を意味する。また、数式(3)の記号b
f[k,g]は、第g番目のジャンルの参照基底行列B[g]における第k列の基底ベクトルb[k]に相当する。
数式(3)の係数ベクトルy
t[k]および基底ベクトルb
f[g,k]の各々の事前分布は、ガンマ分布(Gam())を適用した以下の数式(4A)および数式(4B)で表現される。
ジャンルの総数Gを不定値として好適な数値に設定する観点から、以下の数式(5A)のようにガンマ過程を仮定する。また、基底ベクトルb
f[k,g]の総数Kを不定値として好適な数値に設定する観点から、前述の数式(3)では、ガンマ過程を適用した数式(5B)で表現される変数θ
g[k]を導入した。
以上のように定義された確率モデルの各変数を推定する。対数同時分布logp(wA,b,y,θ)は、定数項を無視すると以下の数式(6)で表現される。
数式(6)の変数Λ
f,t[g,k]は、以下の数式(7)の条件を充足する変数である。
数式(6)の確率モデルの各変数の推定に公知の変分ベイズ法を適用する。まず、変数Λ
f,t[g,k]を以下の数式(8)の演算で更新する。
確率モデルの他の変数の事後分布も以下の数式(9)から数式(12)のように設定できる。
行列解析部34は、数式(9)から数式(12)の演算で数式(3)の確率モデルの各変数(bf[k,g],yt[k],wA[g],θg[k])を算定する。第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、ガンマ過程の導入により基底ベクトルbf[k,g]の総数(スタイルの総数)Kを不定値として取扱う確率モデルで音響信号AXの解析特性行列Xを表現するから、基底ベクトルbf[k,g]の総数Kを適切に設定しながら階層化NMFを実現できるという利点がある。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、図11の部分(A)に例示される通り、特定ジャンルの各スタイルに対応するS個の参照係数行列Z[γ,1]〜Z[γ,S]の各々と音響信号AXから生成された特定ジャンルの解析係数行列Y[γ]とを特性比較部38が比較したが、特性比較部38による比較の対象は以上の例示に限定されない。例えば、図11の部分(B)に例示される通り、数式(1)の階層化NMFで算定された特定ジャンルの区分加重値wA[γ]と解析係数行列Y[γ]との乗算結果wA[γ]Y[γ]と、数式(2)の階層化NMFで算定された特定ジャンルの区分加重値wB[γ,s]と参照係数行列Z[γ,s]との乗算結果wB[γ,s]Z[γ,s]とを、特定ジャンルのスタイル毎に特性比較部38が比較する(すなわち類似度σ[1]〜σ[S]を算定する)ことも可能である。以上の例示から理解される通り、特性比較部38は、解析係数行列Y[γ]と参照係数行列Z[γ,s]とを比較する要素として包括的に表現され、解析係数行列Y[γ]に対する区分加重値wA[γ]の乗算の有無や参照係数行列Z[γ,s]に対する区分加重値wB[γ]の乗算の有無は不問である。
(2)前述の各形態では、相異なるジャンルに対応するG個の参照基底行列B[1]〜B[G]を基底学習部32が参照データDR[g,s]から算定する構成を例示したが、G個の参照基底行列B[1]〜B[G]を事前に算定して記憶装置24に格納した構成も採用され得る。例えば音響解析装置100の基底学習部32が事前に生成した参照基底行列B[1]〜B[G]や、音響解析装置100とは別個の装置にて第1実施形態と同様の方法で事前に生成された参照基底行列B[1]〜B[G]が記憶装置24に格納される。以上の説明から理解される通り、基底学習部32は音響解析装置100から省略され得る。
(3)前述の各形態では、特定ジャンルの基礎データQ[γ]を係数算定部36が算定する構成を例示したが、相異なるジャンルに対応するG個の基礎データQ[1]〜Q[G]を事前に算定して記憶装置24に格納した構成も採用され得る。図8を参照して前述した通り、基礎データQ[g]は、第g番目のジャンルの相異なるスタイルに対応するS個の単位データq[g,1]〜q[g,S]を含んで構成される。各単位データq[g,s]は、参照特性行列R[g,s]に対する数式(2)の階層化NMFで算定されたG個の区分加重値wB[1,s]〜qB[G,s]とG個の参照係数行列Z[1,s]〜Z[G,s]とを包含する。特性比較部38は、記憶装置24に記憶されたG個の基礎データQ[1]〜Q[G]のうち特定ジャンルの基礎データQ[γ]を選択し、基礎データQ[γ]の各単位データq[γ,s]からS個の参照係数行列Z[γ,1]〜Z[γ,S]を抽出してスタイル毎の類似度σ[s]を算定する。例えば音響解析装置100の係数算定部36が事前に生成した基礎データQ[1]〜Q[G]や、音響解析装置100とは別個の装置にて第1実施形態と同様の方法で事前に生成された基礎データQ[1]〜Q[G]が記憶装置24に格納される。以上の説明から理解される通り、係数算定部36は音響解析装置100から省略され得る。
(4)前述の各形態では、複数の参照音のジャンルおよびスタイルの名称を類似度σ[s]の降順で配列したリストを表示装置14に表示させたが、解析結果を利用者に提示する方法は以上の例示に限定されない。例えば、特定ジャンルのS個のスタイルのうち類似度σ[s]が最大となる1個のスタイルの名称を表示装置14に表示させることも可能である。また、解析結果の利用方法は利用者に対する提示(典型的には画像表示)に限定されない。例えば、特定ジャンルのS個のスタイルのうち類似度σ[s]が最大となるスタイルの参照信号ARを放音装置18に供給して再生する構成や、類似度が最大となるスタイルの参照信号ARを解析対象音の音響信号AXに対応付けて記憶する構成も採用され得る。以上の説明から理解される通り、解析結果を表示装置14に表示させる表示制御部40は省略され得る。
(5)前述の各形態では、行列解析部34が算定したG個の解析係数行列Y[1]〜Y[G]のうち区分加重値wA[1]〜wA[G]に応じて推定された特定ジャンルの解析係数行列Y[γ]について各参照音の参照係数行列Z[γ,s]との類似度σ[s]を算定したが、行列解析部34による解析結果を利用する方法は以上の例示に限定されない。例えば、行列解析部34が算定したG個の区分加重値wA[1]〜wA[G]のうち最大の区分加重値wA[γ]に対応するジャンルの名称を解析結果として利用者に提示する構成も採用され得る。すなわち、音響解析装置100は、音響信号AXで表現される楽曲のジャンルを推定する装置として利用される。以上の説明から理解される通り、行列解析部34による解析結果を利用して類似度σ[s]を算定する特性比較部38は省略され得る。
(6)前述の各形態では、音響信号AXで表現される楽曲の音楽的なジャンルやスタイルの推定を例示したが、音響解析装置100による解析の目的は、解析対象音のジャンルやスタイルの推定に限定されない。例えば、複数の楽曲から抽出されて楽曲構成用の素材(ループ素材)として利用される多数の参照音から音響信号AXに類似する参照音を推定する処理にも本発明を適用することが可能である。
(7)携帯電話機等の端末装置と通信するサーバ装置により音響解析装置100を実現することも可能である。具体的には、音響解析装置100は、端末装置から通信網を介して受信した音響信号AXを前述の各形態と同様に解析するとともに解析結果(例えば類似度σ[1]〜σ[S]や解析結果画面50の画像データ)を端末装置に送信する。