JP2015219304A

JP2015219304A - 音響解析装置

Info

Publication number: JP2015219304A
Application number: JP2014101405A
Authority: JP
Inventors: 陽前澤; Akira Maezawa
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-05-15
Filing date: 2014-05-15
Publication date: 2015-12-07
Anticipated expiration: 2034-05-15
Also published as: JP6323159B2

Abstract

【課題】複数の音響信号の間で時間軸上の対応を高精度に解析する。【解決手段】音響解析装置１００は、任意の状態間を遷移可能なエルゴード型の第１マルコフモデルから生成されてＤ個の音響信号Ａ1〜ＡDに共通する基礎構造を表現する基礎状態系列と共通の順序で同数の状態が配列されたleft-to-right型の第２マルコフモデルを利用して、Ｄ個の音響信号Ａ1〜ＡDの各々について、複数の状態の遷移を示す解析状態系列を特定する解析処理手段を具備する。【選択図】図１

Description

本発明は、音響信号を解析する技術に関する。

共通の楽曲を別個に演奏したときの演奏音を収録した複数の音響信号の間で時間軸上の対応を解析する技術が従来から提案されている。例えば非特許文献１には、所定個の状態が特定の順番で遷移するleft-to-right型のＨＭＭ（Hidden Markov Model：隠れマルコフモデル）を利用して、複数の音響信号の間の時間軸上の対応を解析する技術が開示されている。

前澤陽，奥乃博，「楽曲パート混合オーディオ同士の楽譜なしアライメント手法」，情報処理学会研究報告，Vol.2013-MUS-100，No.14，2013/9/1

ところで、１個の楽曲には、複数回にわたり反復される構造（主題）が内包され得る。以上の傾向を前提とすると、事前に設定された固定の順番で所定個の状態を配列した非特許文献１のleft-to-right型のＨＭＭは、１個の楽曲内で反復的に出現する構造のモデルとして必ずしも適切ではなく、結果的に、複数の音響信号の間の対応を高精度に解析できない可能性がある。なお、以上の説明では便宜的に楽曲の演奏音に着目したが、演奏音以外にも、例えば共通の詩を相異なる人間が朗読したときの音声を収録した複数の音響信号の間で時間軸上の対応を解析する場合も同様の問題が発生し得る。以上の事情を考慮して、本発明は、複数の音響信号の間で時間軸上の対応を高精度に解析することを目的とする。

以上の課題を解決するために、本発明に係る音響解析装置は、任意の状態間を遷移可能なエルゴード型の第１マルコフモデルから生成されて複数の音響信号に共通する基礎構造を複数の状態で表現する基礎状態系列と共通の順序で同数の状態が配列されたleft-to-right型の第２マルコフモデルを利用して、複数の音響信号の各々について、複数の状態の遷移を示す解析状態系列を特定する解析処理手段を具備する。以上の構成では、任意の状態間を遷移可能なエルゴード型の第１マルコフモデルから生成されて複数の音響信号に共通する基礎構造を表現する基礎状態系列と共通の順序で同数の状態を配列したledf-to-right型の第２マルコフモデルが複数の音響信号の各々の解析状態系列の特定に利用される。したがって、事前に固定的に設定された個数および順番で各状態を配列したleft-to-right型のＨＭＭを利用する非特許文献１の技術と比較すると、複数の音響信号の間の時間軸上の対応を高精度に解析することが可能である。

本発明の好適な態様において、第１マルコフモデルは、状態数が無限化されたマルコフモデルである。以上の態様では、第１マルコフモデルの状態数が無限化されるから、複数の音響信号の各々の特性（特徴量の複雑性）に関わらず各音響信号の時間軸上の対応を高精度に解析できるという利点がある。

本発明の好適な態様において、第２マルコフモデルは、各状態の継続長の確率分布が規定されたexplicit-duration型のマルコフモデルである。以上の態様では、各状態の継続長の確率分布が規定されたexplicit-duration型のマルコフモデルが第２マルコフモデルとして利用されるから、例えば、各音響信号における各音符の継続長が楽曲の所期の継続長（例えば楽譜上の音価）に集中するという傾向を加味して各音響信号の時間軸上の対応を高精度に解析できるという利点がある。

本発明の好適な態様において、解析処理手段は、複数の音響信号の各々について、当該音響信号の解析状態系列における相異なる状態の境界の時点を特定し、音響信号の時間軸上の波形と、当該波形のうち解析処理手段が当該音響信号について特定した境界の時点とを、複数の音響信号について共通の時間軸のもとで表示装置に表示させる表示制御手段を具備する。以上の態様では、音響信号の時間軸上の波形と当該音響信号について特定された境界の時点とが複数の音響信号について共通の時間軸のもとで表示されるから、複数の音響信号における時間軸上の対応を利用者が直観的および視覚的に把握できるという利点がある。

さらに好適な態様に係る音響解析装置は、解析処理手段が特定した各境界の時点で複数の単位区間に区分された複数の音響信号の各々から利用者が選択した単位区間を相互に連結した音響信号を生成する音響処理手段を具備する。以上の態様では、複数の音響信号の各々から利用者が選択した単位区間を時間軸上で相互に連結した多様な音響信号を生成できるという利点がある。

以上の各態様に係る音響解析装置は、音響の解析に専用されるＤＳＰ（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。本発明のプログラムは、例えば通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に例示した各態様に係る音響解析装置の動作方法（音響解析方法）としても特定される。

本発明の第１実施形態に係る音響解析装置の構成図である。解析結果画面の説明図である。解析結果画面の説明図である。時間軸対応解析の説明図である。解析処理部の動作のフローチャートである。第４実施形態に係る音響解析装置の構成図である。第４実施形態における解析結果画面の説明図である。変形例に係る解析処理部の動作のフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音響解析装置１００の構成図である。図１に例示される通り、第１実施形態の音響解析装置１００は、演算処理装置１０と記憶装置１２と表示装置１４と入力装置１６とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響解析装置１００として利用され得る。

表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１６は、音響解析装置１００に対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。表示装置１４と一体に構成されたタッチパネルを入力装置１６として利用することも可能である。

記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。

第１実施形態の記憶装置１２は、Ｄ個（Ｄは２以上の自然数）の音響信号Ａ₁〜Ａ_Dを記憶する。各音響信号Ａ_d（ｄ＝１〜Ｄ）は、特定の楽曲（以下「対象楽曲」という）を楽器で演奏した楽音等の演奏音の時間軸上の波形を表現する。なお、対象楽曲には、単一の楽曲のほか、相異なる複数の楽曲を連結した楽曲群（メドレー曲）も包含される。対象楽曲はＤ個の音響信号Ａ₁〜Ａ_Dで共通するが、当該楽曲の演奏者は音響信号Ａ_d毎に相違する。したがって、演奏音を構成する音符の個数や順序はＤ個の音響信号Ａ₁〜Ａ_Dで基本的に共通するが、各演奏者の意図（解釈や表現）を反映した相違がＤ個の音響信号Ａ₁〜Ａ_Dの間には存在する。例えば、対象楽曲の演奏速度（テンポ）は各音響信号Ａ_dで相違するから、音響信号Ａ_dの時間長や各音符の時間軸上の位置はＤ個の音響信号Ａ₁〜Ａ_Dで相違し得る。なお、以上の説明では、各音響信号Ａ_dで演奏者を相違させた場合を例示したが、共通の演奏者が別個の機会に演奏した演奏音をＤ個の音響信号Ａ₁〜Ａ_Dで表現することも可能である。また、Ｄ個の音響信号Ａ₁〜Ａ_Dを外部装置（例えば光学式記録媒体や磁気記録媒体等の記録媒体から各音響信号Ａ_dを読出す再生装置）から音響解析装置１００に供給する構成も採用され得る。

第１実施形態の音響解析装置１００は、記憶装置１２に記憶されたＤ個の音響信号Ａ₁〜Ａ_Dの間における時間軸上の対応を解析（アライメント）する信号処理装置である。演算処理装置１０は、記憶装置１２に記憶されたプログラムを実行することで、各音響信号Ａ_dの時間軸上の対応を解析および提示するための複数の機能（特徴抽出部２２，解析処理部２４，表示制御部２６）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、演算処理装置１０の機能の一部を専用の電子回路が実現する構成も採用され得る。

特徴抽出部２２は、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々の特徴量ｘ(d,t)を時間軸上のフレーム毎に順次に抽出する。記号ｔは、音響信号Ａ_dを時間軸上で区分したＴ_d個（Ｔ_dは２以上の自然数）のフレームのうち任意の１個を指示する変数（ｔ＝１〜Ｔ_d）である。前述の通り、各音響信号Ａ_dは例えば対象楽曲の演奏速度（テンポ）が相違するから、音響信号Ａ_dのフレームの総数Ｔ_d（音響信号Ａ_dの時間長）はＤ個の音響信号Ａ₁〜Ａ_Dの間で相違し得る。

任意の１個の音響信号Ａ_dから抽出される各特徴量ｘ(d,t)（ｘ(d,1)〜ｘ(d,T_d)）は、音響信号Ａ_dのうち第ｔ番目のフレームの音響的または音楽的な特性を示す指標値である。例えば音響信号Ａ_dのクロマベクトルが特徴量ｘ(d,t)として好適に利用される。クロマベクトルは、相異なる音名（例えば平均律の１２半音の各音名）に対応する複数の要素の各々が、音響信号Ａ_dのうち当該音名に対応する各音高の強度を複数のオクターブにわたり加算した数値に設定されたベクトルである。ただし、特徴量ｘ(d,t)はクロマベクトルに限定されない。

図１の解析処理部２４は、特徴抽出部２２が抽出した各特徴量ｘ(d,t)を利用した各音響信号Ａ_dの解析でＤ個の音響信号Ａ₁〜Ａ_Dの間における時間軸上の対応を特定する。具体的には、解析処理部２４は、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々について時間軸上のＩ個の時点（以下「遷移点」という）を特定する。音響信号Ａ_dの各遷移点は、音響信号Ａ_dのうち相前後する各音符の境界の時点（音符が変化する時点）である。対象楽曲を構成する音符の個数はＤ個の音響信号Ａ₁〜Ａ_Dで共通するから、遷移点の個数ＩはＤ個の音響信号Ａ₁〜Ａ_Dにわたり共通する。以上の説明から理解される通り、各音響信号Ａ_dの第ｉ番目（ｉ＝１〜Ｉ）の遷移点は、Ｄ個の音響信号Ａ₁〜Ａ_Dの間で相互に対応する時点（対象楽曲内の共通の箇所）に相当する。

表示制御部２６は、表示装置１４に画像を表示させる。第１実施形態の表示制御部２６は、解析処理部２４による解析結果を表現する図２の解析結果画面４０を表示装置１４に表示させる。解析結果画面４０は、図２に例示される通り、相異なる音響信号Ａ_d（Audio No.1〜Audio No.3）に対応するＤ個の表示領域Ｗ₁〜Ｗ_D（図２の例示ではＤ＝３）を包含する。任意の１個の表示領域Ｗ_dには、音響信号Ａ_dの時間軸（横軸）上の波形が表示される。Ｄ個の表示領域Ｗ₁〜Ｗ_Dの間で時間軸は共通する。

各表示領域Ｗ_dに表示された音響信号Ａ_dの波形は、解析処理部２４が特定した遷移点を境界として時間軸上でＫ個の単位区間Ｕ(d,1)〜Ｕ(d,K)に区分される。時間軸上で相前後する各単位区間Ｕ(d,k)（ｋ＝１〜Ｋ）は、相異なる態様（階調や色彩等の視覚的に知覚できる性状）で表示される。また、Ｄ個の音響信号Ａ₁〜Ａ_Dの間で相互に対応する各単位区間Ｕ(d,k)（Ｕ(1,k)〜Ｕ(D,k)）の表示の態様は共通する。以上の説明から理解される通り、音響信号Ａ_Dの各遷移点がＤ個の音響信号Ａ₁〜Ａ_Dについて共通の時間軸のもとで表示される。したがって、利用者は、Ｄ個の音響信号Ａ₁〜Ａ_Dにおける時間軸上の対応を直観的および視覚的に把握することが可能である。

利用者は、入力装置１６を適宜に操作することで、任意の音響信号Ａ_dのＫ個の単位区間Ｕ(d,1)〜Ｕ(d,K)のうち所望の１個（第ｋ番目）の単位区間Ｕ(d,k)を選択することが可能である。図２に例示される通り、表示制御部２６は、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々における第ｋ番目の単位区間Ｕ(d,k)（Ｕ(1,k)〜Ｕ(D,k)）を強調表示する。図２では、利用者が選択した第ｋ番目のＤ個の単位区間Ｕ(1,k)〜Ｕ(D,k)を太線により強調表示した場合が例示されている。また、表示制御部２６は、利用者が選択した第ｋ番目のＤ個の単位区間Ｕ(1,k)〜Ｕ(D,k)をＤ個の音響信号Ａ₁〜Ａ_Dにわたり相互に連結する連結画像４２を各表示領域Ｗ_dの間の領域に表示する。したがって、Ｄ個の音響信号Ａ₁〜Ａ_Dにわたる単位区間Ｕ(1,k)〜Ｕ(D,k)の対応を利用者は直観的および視覚的に把握することが可能である。

また、図３に例示される通り、利用者は、入力装置１６に対する操作で、任意の１個の音響信号Ａ_dにて相前後する単位区間Ｕ(d,k)と単位区間Ｕ(d,k+1)とを選択することが可能である。単位区間Ｕ(d,k)と単位区間Ｕ(d,k+1)とが選択された状態で入力装置１６に所定の操作が付与されると、表示制御部２６は、図３に例示される通り、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々について、利用者が選択した単位区間Ｕ(d,k)と単位区間Ｕ(d,k+1)とを時間軸上で相互に連結して１個の単位区間Ｕ(d,k)を生成する。なお、以上の説明では複数の単位区間Ｕ(d,k)の連結を例示したが、１個の単位区間Ｕ(d,k)を利用者からの指示に応じて複数個に分割することも可能である。すなわち、利用者は、解析処理部２４による解析結果の表示を適宜に修正することが可能である。

＜時間軸対応解析（アライメント）＞
図１の解析処理部２４がＤ個の音響信号Ａ₁〜Ａ_Dの間の時間軸上の対応を解析する処理（以下「時間軸対応解析」という）の具体例を以下に詳述する。図４は、時間軸対応解析の説明図である。図４に例示される通り、第１実施形態の時間軸対応解析では、第１マルコフモデルと第２マルコフモデルとが階層的に利用される。第１マルコフモデルおよび第２マルコフモデルは、特徴量ｘ(d,t)の生成過程を複数の状態で記述する確率モデルである。第１マルコフモデルは、任意の状態間の遷移が許容されるエルゴード（Ergodic）型のマルコフモデルであり、第２マルコフモデルは、複数の状態の配列に沿う単方向（左→右）の遷移のみが許容されるleft-to-right型のマルコフモデルである。

図４に例示される通り、解析処理部２４は、第１マルコフモデルから生成される基礎状態系列Ｚと共通の順序で同数（Ｎ個）の状態Ｚ(1)〜Ｚ(N)が配列された第２マルコフモデルを利用して、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々について解析状態系列Ｑ_d（Ｑ₁〜Ｑ_D）を特定する。

図４に例示される通り、第１マルコフモデルは、Ｓ個の状態Ｅ₁〜Ｅ_Sで定義される。任意の１個の状態Ｅ_s（ｓ＝１〜Ｓ）は、例えば対象楽曲の１個の構成音（単音または和音）に対応する。したがって、第１マルコフモデルの状態数Ｓは、対象楽曲の構成音の種類数の最大値に設定される。Ｄ個の音響信号Ａ₁〜Ａ_Dから抽出された特徴量ｘ(d,t)を利用した学習処理で第１マルコフモデルの各状態Ｅ_sを規定する変数が更新され、更新後の第１マルコフモデルから基礎状態系列Ｚが生成される。

基礎状態系列Ｚは、第１マルコフモデルから生成されて対象楽曲の進行（楽曲進行）を表現する状態系列であり、時系列に配列されたＮ個の状態Ｚ(1)〜Ｚ(N)で表現される（図４の例示ではＮ＝５）。すなわち、基礎状態系列Ｚは、Ｄ個の音響信号Ａ₁〜Ａ_Dに共通する時間軸上の構造（基礎構造）をＮ個の状態Ｚ(1)〜Ｚ(N)で表現する。

図４に例示される通り、各状態Ｚ(n)には、第１マルコフモデルのＳ個の状態Ｅ₁〜Ｅ_Sの何れか（対象楽曲の１個の構成音）が付与される。例えば図４では、基礎状態系列Ｚの状態Ｚ(1)に状態Ｅ₁が割当てられ、状態Ｚ(2)と状態Ｚ(3)と状態Ｚ(5)とに状態Ｅ₂が割当てられ、状態Ｚ(4)に状態Ｅ₃が割当てられた場合が例示されている。すなわち、基礎状態系列Ｚは、対象楽曲の基礎構造を表現するＮ個の状態Ｚ(1)〜Ｚ(N)の各々に対象楽曲の１個の構成音を対応付ける情報とも換言され得る。以上の説明から理解される通り、Ｎ個の状態Ｚ(1)〜Ｚ(N)で対象楽曲の進行（基礎構造）を表現するということは、対象楽曲において最大でＮ回にわたり構成音が変化すると仮定することに相当する。対象楽曲に想定される構成音の変化の回数に応じて基礎状態系列Ｚの状態数Ｎが選定されるとも換言され得る。

図４の第２マルコフモデルは、第１マルコフモデルから生成される基礎状態系列Ｚと共通の順序で同数（Ｎ個）の状態Ｚ(1)〜Ｚ(N)を配列した確率モデルである。解析処理部２４は、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々について、第２マルコフモデルを利用して基礎状態系列Ｚの各状態Ｚ(n)に対する時間的な対応を解析することで解析状態系列Ｑ_d（Ｑ₁〜Ｑ_D）を特定する。解析状態系列Ｑ_dは、音響信号Ａ_dと基礎状態系列Ｚの各状態Ｚ(n)との時間的な対応を表現する。

図４に例示される通り、任意の１個の解析状態系列Ｑ_dは、音響信号Ａ_dの相異なるフレームに対応するＴ_d個の状態Ｑ(d,1)〜Ｑ(d,T_d)の時系列である。解析状態系列Ｑ_dの各状態Ｑ(d,t)は、基礎状態系列ＺのＮ個の状態Ｚ(1)〜Ｚ(N)の何れか（対象楽曲のＳ個の状態Ｅ₁〜Ｅ_Sの何れか）に対応する。以上の説明から理解される通り、解析状態系列Ｑ_dの任意の１個の状態Ｑ(d,t)が状態Ｅ_sに対応するということは、音響信号Ａ_dの第ｔ番目のフレームが、対象楽曲のうち状態Ｅ_sに対応した構成音（単音または和音）に該当することを意味する。前述の通り、第２マルコフモデルは、単方向の状態遷移のみを許容するleft-to-right型のマルコフモデルであるから、各状態Ｚ(n)の配列の順序（状態Ｅ_sの配列の順序）はＤ個の解析状態系列Ｑ₁〜Ｑ_Dについて共通する。すなわち、対象楽曲に包含される各構成音の出現の順序がＤ個の音響信号Ａ₁〜Ａ_Dにわたり共通するという条件（状態遷移順序の同一性が保証された条件）のもとで、各音響信号Ａ_dと基礎状態系列Ｚとの時間軸上の対応が解析される。

解析処理部２４は、音響信号Ａ_dについて算定した解析状態系列Ｑ_d（状態Ｑ(d,1)〜Ｑ(d,T_d)）を参照することで、音響信号Ａ_dのＩ個の遷移点を特定する。具体的には、第１実施形態の解析処理部２４は、音響信号Ａ_dについて算定した解析状態系列Ｑ_dのうち時間的に相前後する状態Ｑ(d,t)と状態Ｑ(d,t+1)との間で状態Ｚ(n)の遷移（Ｚ(n)→Ｚ(n+1)）が発生する場合に、音響信号Ａ_dのうち第ｔ番目のフレームと第(t+1)番目のフレームとの間の時点を、対象楽曲内で音符が変化する遷移点として特定する。

以上に説明した時間軸対応解析の定式化を検討する。初期状態πと状態遷移確率τとで規定される第１マルコフモデルのもとで基礎状態系列Ｚが生成される尤度ｐ(Ｚ|π,τ)は、以下の数式(1)で表現される。なお、初期状態πの事前分布や状態遷移確率τの事前分布は、ディリクレ（Dirichlet）分布等の公知の適切な確率分布に設定される。

なお、数式(1)では、基礎状態系列Ｚの任意の１個の状態Ｚ(n)を、相異なる状態Ｅ_sに対応するＳ個の要素ｚ₁(n)〜ｚ_S(n)を含むＳ次元ベクトルとして表現した。各要素ｚ_s(n)は、one-of-Sの２値変数である。すなわち、状態Ｚ(n)が状態Ｅ_sである場合には、Ｓ個の要素ｚ₁(n)〜ｚ_S(n)のうち第ｓ番目の１個の要素ｚ_s(n)が数値１に設定され、残余の(Ｓ−１)個の要素は数値０に設定される。

他方、状態遷移確率η(d,n)で状態が遷移する第２マルコフモデルのもとで解析状態系列Ｑ_dが生成される尤度ｐ(Ｑ_d)は、以下の数式(2)で表現される。

数式(2)の記号δ( )は、括弧内の数値が相等しい場合に数値１に設定され、括弧内の数値が相違する場合に数値０に設定される関数（Kronecker Delta）である。状態遷移確率η(d,n)の事前分布は公知の適切な確率分布（例えばベータ分布）に設定される。また、数式(2)では、解析状態系列Ｑ_dの任意の１個の状態Ｑ(d,t)を、相異なる状態Ｅ_sに対応するＳ個の要素ｑ₁(d,t)〜ｑ_S(d,t)を含むＳ次元ベクトルとして表現した。各要素ｑ_s(d,t)は、前述の基礎状態系列Ｚの各要素ｚ_s(n)と同様にone-of-Sの２値変数である。すなわち、状態Ｑ(d,t)が状態Ｅ_sに該当する場合には、Ｓ個の要素ｑ₁(d,t)〜ｑ_S(d,t)のうち第ｓ番目の１個の要素ｑ_s(d,t)が数値１に設定され、残余の(Ｓ−１)個の要素は数値０に設定される。

各音響信号Ａ_dの特徴量ｘ(d,t)が生成される過程の確率モデル（以下「観測モデル」という）を想定し、音響信号Ａ_dの第ｔ番目のフレームで特徴量ｘ(d,t)が観測される尤度ｐ(ｘ(d,t)|Ｚ,Ｑ_d)を、以下の数式(3)で表現する。

第１マルコフモデルの各状態Ｅ_sには、対象楽曲の音響的または音楽的な特性に関連する変数（短時間の音響信号Ａ_dの生成過程に関連するパラメータ）θ(s)が割当てられる。具体的には、対象楽曲の構成音の音高を指定する変数θ(s)が状態Ｅ_sに割当てられる。数式(3)の記号ｐ(x(d,t)|θ(s))は、変数θ(s)で規定される状態Ｅ_sのもとで特徴量ｘ(d,t)が観測される尤度である。観測尤度ｐ(ｘ(d,t)|Ｚ,Ｑ_d)の確率分布は、例えば特徴量ｘ(d,t)と同次元の正規分布とされ、変数θ(s)は、例えば正規-ガンマ（Normal-Gamma）分布等の事前分布ｐ(θ(s)|θ0)から生成されると仮定する。

第１実施形態の解析処理部２４は、各音響信号Ａ_dの観測モデルの事後分布を特定し、解析状態系列Ｑ_dの最大事後確率（ＭＡＰ）の推定値をＤ個の音響信号Ａ₁〜Ａ_Dの各々について算定する。以上の解析の結果を利用して、解析処理部２４は、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々についてＩ個の遷移点を特定する。

図５は、第１実施形態の時間軸対応解析のうち各音響信号Ａ_dの観測モデルの事後分布を特定する処理のフローチャートである。以下の説明では、第１マルコフモデル（基礎状態系列Ｚ）と第２マルコフモデルと観測モデルとの独立性を仮定した変分ベイズ法により観測モデルの事後分布を特定する。例えば入力装置１６に対する利用者からの指示（解析開始指示）を契機として図５の処理が開始される。

図５の処理を開始すると、特徴抽出部２２は、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々について特徴量ｘ(d,t)（ｘ(d,1)〜ｘ(d,T_d)）を抽出する（ＳA1）。そして、解析処理部２４は、各種の変数を初期化する（ＳA2〜ＳA4）。具体的には、第１マルコフモデルの初期化（ＳA2）と各状態Ｅ_sに関する変数θ(s)の確率分布の初期化（ＳA3）と各音響信号Ａ_dの第２マルコフモデルの初期化（ＳA4）とが実行される。第１マルコフモデルの初期化（ＳA2）および第２マルコフモデルの初期化（ＳA4）では、例えば、前向き後向き（forward-backward）アルゴリズムに適用される変数の確保と、状態遷移行列の確率分布（Ｓ次元のＳ個のディリクレ分布）の生成および初期化と、初期状態πの確率分布（例えばＳ次元のディリクレ分布）の生成および初期化とが実行される。また、各変数θ(s)の確率分布の初期化（ＳA3）では、正規分布の共役事前分布である正規-ウィシャート（Normal-Wishart）分布の変数（超パラメータ）が設定され、当該分布に応じて代表的な正規分布が生成される。

以上に例示した初期化が完了すると、解析処理部２４は、特徴抽出部２２が各音響信号Ａ_dについて抽出（ＳA1）した特徴量ｘ(d,t)を利用して各モデルの変分事後分布を反復的に更新する（ＳA5〜ＳA8）。すなわち、特徴量ｘ(d,t)を利用した学習処理で各モデルの変分事後分布が特定される。具体的には、解析処理部２４は、第１マルコフモデルの変分事後分布の更新（ＳA6）と、各音響信号Ａ_dの第２マルコフモデルの変分事後分布の更新（ＳA7）と、観測モデルの変分事後分布の更新（ＳA8）とを以上の順番で順次に実行する。各変分事後分布の更新（ＳA6〜ＳA8）は、所定の収束条件の成立まで累積的に反復される（ＳA5：NO）。収束条件の内容は任意であるが、例えば、各変分事後分布の更新の回数が所定値に到達することが収束条件として好適に採用され得る。

第１マルコフモデルの変分事後分布の更新（ＳA6）および各音響信号Ａ_dの第２マルコフモデルの変分事後分布の更新（ＳA7）には、例えば、第１マルコフモデルと第２マルコフモデルと観測モデルとの独立性を仮定した平均場近似におけるバウム-ウェルチ（Baum-Welch）アルゴリズム（前向き後向きアルゴリズム）が好適に利用される。また、観測モデルの変分事後分布の更新（ＳA8）には、例えば、第１マルコフモデルと第２マルコフモデルと観測モデルとの独立性を仮定した平均場近似の変分ベイズ法が好適に利用される。

例えば、基礎状態系列Ｚの状態Ｚ(n)に対する状態Ｅ_sの出現確率Ｏ_s(n)と状態遷移確率Ｔ_s,s'(n)とは、例えば以下の数式(4A)および数式(4B)で表現される。なお、以下に例示する数式の記号〈〉は期待値を意味する。

音響信号Ａ_dの第ｔ番目のフレームにおける状態Ｚ(n)の出現確率Ｏ_n(d,t)と状態遷移確率Ｔ_n,n'(d)とは、例えば以下の数式(5A)および数式(5B)で表現される。

収束条件が成立した時点（ＳA5：YES）での観測モデルの最新の変分事後分布が観測モデルの事後分布として特定される。解析処理部２４は、前述の通り、以上に例示した手順で特定された観測モデルの事後分布を利用して、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々についてＩ個の遷移点を特定する。

以上に説明した通り、第１実施形態では、任意の状態間を遷移可能なエルゴード型の第１マルコフモデルから生成された基礎状態系列Ｚと共通の順序で同数（Ｎ個）の状態Ｚ(1)〜Ｚ(N)が配列されたleft-to-right型の第２マルコフモデルが各音響信号Ａ_dの解析状態系列Ｑ_dの特定に利用される。したがって、第１マルコフモデルの各状態Ｅ_sの変数（出現確率Ｏ_s(n)，状態遷移確率Ｔ_s,s'(n)）の更新には、Ｄ個の音響信号Ａ₁〜Ａ_Dにわたる特徴量ｘ(d,t)のうち当該状態Ｅ_sに対応するフレームの特徴量ｘ(d,t)が利用され得る。例えば、図４の例示のように基礎状態系列Ｚの状態Ｚ(2)と状態Ｚ(3)と状態Ｚ(5)とに対して共通の状態Ｅ₂が対応する場合を想定すると、音響信号Ａ_d（解析状態系列Ｑ_d）のうち状態Ｅ₂に対応する複数の状態Ｚ(n)（Ｚ(2)，Ｚ(3)，Ｚ(5)）のフレームの特徴量ｘ(d,t)をＤ個の音響信号Ａ₁〜Ａ_Dから抽出して、第１マルコフモデルの１個の状態Ｅ₂の変数の更新に利用することが可能である。すなわち、状態Ｚ(2)と状態Ｚ(3)と状態Ｚ(5)とが共通の状態Ｅ₂に対応するという事実を第１マルコフモデルの学習処理に反映させることが可能である。したがって、事前に固定的に設定された個数および順番で状態を配列したleft-to-right型のＨＭＭを利用する非特許文献１の技術と比較すると、同様の構造が反復的に出現する対象楽曲の複数の音響信号Ａ₁〜Ａ_Dについて特に、時間軸上の対応を高精度に解析できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態では、第１マルコフモデルの状態数Ｓを所定値に固定した。第２実施形態では、状態数Ｓが無限化されたマルコフモデルを第１マルコフモデルとして利用する。具体的には、各状態Ｅ_sをディリクレ過程としてモデル化したノンパラメトリックベイズ（Nonparametric Bayesian）マルコフモデルを第１マルコフモデルとして利用することで、第１マルコフモデルの実質的な状態数Ｓを、音響信号Ａ_dの各特徴量ｘ(d,t)の複雑性に依存する可変値とする。

第２実施形態の第１マルコフモデルでは、各状態遷移確率τ(m)の事前分布が以下の数式(6)で表現される。

数式(6)の記号ＧＥＭ(α)は、全長１の棒を１対αの比率で反復的に折り取る棒折過程を意味し、以下の数式(7)で表現される確率過程（ベータ分布）で生成される変数に相当する。

第２実施形態においても第１実施形態と同様の効果が実現される。なお、第１マルコフモデルの状態数Ｓが所定値に固定される第１実施形態では、状態数Ｓの設定値と各音響信号Ａ_dの特性（各特徴量ｘ(d,t)の複雑性）とに応じて推定精度が変動し得る。第２実施形態では、第１マルコフモデルの状態数Ｓが無限化されるから、Ｄ個の音響信号Ａ₁〜Ａ_Dの間の時間軸上の対応を音響信号Ａ_dの特性に関わらず高精度に解析できるという利点がある。

＜第３実施形態＞
各音響信号Ａ_dの各音符の継続長（１個の状態Ｚ(n)に停留する時間長）は、演奏者の意図に応じて音響信号Ａ_d毎に相違し得る。ただし、対象楽曲が共通する以上、各音響信号Ａ_dの音符の継続長の分布は、対象楽曲の楽譜上の継続長（音価）に集中するという傾向がある。以上の傾向を考慮して、第３実施形態では、各状態Ｚ(n)の継続長の確率分布を明示的に規定したexplicit-duration型のマルコフモデルを、各音響信号Ａ_dの第２マルコフモデルとして利用する。

具体的には、以下の数式(8)で表現される通り、第２マルコフモデルの各状態Ｚ(n)の継続長（停留時間）の確率分布を正規分布とした構成が好適である。

任意の１個の状態Ｚ(n)に停留する時間を最大でフレームのＬ個分と仮定し、各音響信号Ａ_dの第２マルコフモデルの状態空間を(Ｎ×Ｌ)の積空間に拡張した場合を想定すると、数式(8)の確率ｐ(l|μ(n),c)は、状態Ｚ(n,l)から状態Ｚ(n+1,l)に遷移する確率を意味する。なお、状態Ｚ(n,l)から状態Ｚ(n,l+1)に遷移する確率は１に設定され、それ以外の遷移確率は０に設定される。記号ｃは所定の定数に設定される。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、各状態Ｚ(n)の継続長の確率分布を規定するexplicit-duration型のマルコフモデルが第２マルコフモデルとして利用されるから、各音響信号Ａ_dにおける各音符の継続長が対象楽曲の所期の継続長（楽譜上の音価）に集中するという傾向を加味して各音響信号Ａ_dの時間軸上の対応を高精度に解析できるという利点がある。

＜第４実施形態＞
図６は、第４実施形態に係る音響解析装置１００の構成図である。図６に例示される通り、第４実施形態の音響解析装置１００の演算処理装置１０は、第１実施形態と同様の要素（特徴抽出部２２，解析処理部２４，表示制御部２６）に加えて音響処理部２８として機能する。音響処理部２８は、解析処理部２４による解析結果を利用して各音響信号Ａ_dを処理する。

第４実施形態の表示制御部２６は、第１実施形態と同様に、解析結果画面４０のＤ個の表示領域Ｗ₁〜Ｗ_Dの各々に音響信号Ａ_dの波形を表示し、解析処理部２４が特定した遷移点を境界として各音響信号Ａ_dの波形をＫ個の単位区間Ｕ(d,1)〜Ｕ(d,K)に区分する。すなわち、時間軸上で相互に対応するＤ個の単位区間Ｕ(1,k)〜Ｕ(D,k)のＫ組分（以下では各組を「対応区間群」という）が表示装置１４に表示される。利用者は、入力装置１６を適宜に操作することで、Ｋ個の対応区間群の各々について、当該対応区間群のＤ個の単位区間Ｕ(1,k)〜Ｕ(D,k)から任意の１個の単位区間Ｕ(d,k)を選択することが可能である。表示制御部２６は、図７に例示される通り、利用者が各対応区間群から選択したＫ個の単位区間Ｕ(d,k)の各々を強調表示するとともに、各単位区間Ｕ(d,k)を時間軸上の順番で相互に連結する連結画像４４を表示装置１４に表示させる。

音響処理部２８は、図７に例示される通り、利用者が対応区間群毎に選択した単位区間Ｕ(d,k)の音響信号Ａ_dをＫ個の対応区間群にわたり相互に連結した音響信号Ｂを生成する。すなわち、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々から利用者の所望の単位区間Ｕ(d,k)を選択的に抽出して相互に組合せた音響信号Ｂが生成される。例えば、演奏者が相違するＤ個の音響信号Ａ₁〜Ａ_Dを想定すると、区間毎に演奏者が変化する対象楽曲の演奏音の音響信号Ｂが生成される。音響処理部２８が生成した音響信号Ｂは、例えばスピーカ等の放音装置（図示略）により音波として再生される。なお、音響処理部２８が生成した音響信号Ｂを記録媒体に格納する構成や音響信号Ｂを外部装置に送信する構成も採用され得る。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態では、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々から利用者が選択した単位区間Ｕ(d,k)を相互に連結した音響信号Ｂが生成されるから、例えば相異なる演奏者による演奏を組合せた多様な音響を生成することが可能である。また、解析処理部２４は、音響信号Ａ_dのうち音符が変化する時点を遷移点として特定する（各音響信号Ａ_dが音符単位で各単位区間に区分される）から、相前後する各単位区間Ｕ(d,k)の境界で音響が自然に遷移する音響信号Ｂを生成できる（音響の不連続な変化を抑制できる）という利点もある。

＜変形例＞
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、変分ベイズ法を利用して各音響信号Ａ_dの観測モデルの事後分布を特定したが、観測モデルの事後分布の特定には公知の技術が任意に採用され得る。図８は、ギブスサンプリング（Gibbs sampling）を利用して各音響信号Ａ_dの観測モデルの事後分布を特定する処理のフローチャートである。

第１実施形態と同様に、特徴抽出部２２が各音響信号Ａ_dの特徴量ｘ(d,t)を抽出すると（ＳB1）、解析処理部２４は、第１マルコフモデルの初期化（ＳB2）と各状態Ｅ_sに関する変数θ(s)の確率分布の初期化（ＳB3）と各音響信号Ａ_dの第２マルコフモデルの初期化（ＳB4）とを実行する。第１マルコフモデルの初期化（ＳB2）および第２マルコフモデルの初期化（ＳB4）では、状態遷移行列の確率分布（Ｓ次元のＳ個のディリクレ分布）の生成および初期化と、初期状態の確率分布（例えばＳ次元のディリクレ分布）の生成および初期化とが実行され、初期化後の各確率分布を利用して状態遷移行列と初期状態と状態系列とがサンプリングされる。また、各変数θ(s)の確率分布の初期化（ＳB3）では、第１実施形態と同様に正規-ウィシャート分布の変数が設定され、当該分布を利用して正規分布の変数（平均と共分散行列）がサンプリングされる。

以上に説明した初期化が完了すると、解析処理部２４は、特徴抽出部２２が各音響信号Ａ_dについて抽出（ＳB1）した特徴量ｘ(d,t)を利用したサンプリングを反復的に実行することで観測モデルの事後分布を特定する（ＳB5〜ＳB8）。具体的には、解析処理部２４は、第１マルコフモデル以外の変数を固定した場合の第１マルコフモデルの状態系列をサンプリングし（ＳB6）、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々について、当該音響信号Ａ_d以外の音響信号Ａ_d'（ｄ'≠ｄ）の第２マルコフモデルの変数を固定した場合の音響信号Ａ_dの第２マルコフモデルの状態系列をサンプリングする（ＳB7）。そして、解析処理部２４は、以上の処理を踏まえて各音響信号Ａ_dの観測モデルから事後分布の変数をサンプリングする。所定の収束条件の成立（ＳB5：YES）まで以上の処理を累積的に反復することで、解析処理部２４は、各音響信号Ａ_dの観測モデルの事後分布を確定する。なお、演算量の削減の観点からは、前述の各形態で例示した変分ベイズ法が有利である。

（２）第４実施形態の音響処理部２８が実行する処理は、各単位区間Ｕ(d,k)の連結に限定されない。例えば、時間軸上で相互に対応する複数（Ｄ個以下）の単位区間Ｕ(d,k)の音響信号Ａ_dを、音響処理部２８が相互に合成（モーフィング）することも可能である。歌唱音声や朗読音声等の音声の音響信号Ａ_dを解析する場合には特に、各音響信号Ａ_dの音素ラベルを必要とせずに、相互に対応する音素の単位区間Ｕ(d,k)を合成できるという利点がある。

（３）第４実施形態において、利用者が選択した各単位区間Ｕ(d,k)を相互に連結する方法は適宜に変更される。例えば、利用者が選択した第１単位区間Ｕ1と第２単位区間Ｕ2とを相互に連結する場合を想定すると、第１単位区間Ｕ1と直後の所定長の補助区間とを音響信号Ａから抽出するとともに、第２単位区間Ｕ2と直前の所定長の補助区間とを音響信号Ａから抽出し、第１単位区間Ｕ1と第２単位区間Ｕ2との間で補助区間同士を相互に混合（例えばクロスフェードする）ことも可能である。また、演奏速度が音響信号Ａ_d毎に相違し得ることを考慮すると、利用者が選択した各単位区間Ｕ(d,k)について時間軸伸張（タイムストレッチ）等の調整処理を実行することで演奏速度を相互に近似または合致させてから各単位区間Ｕ(d,k)を連結する構成も好適である。以上に例示した各構成によれば、各単位区間Ｕ(d,k)の境界で音響を自然に遷移させ得るという第４実施形態の効果が補強される。

（４）前述の各形態では、対象楽曲の演奏音を収録した音響信号Ａ_dを例示したが、音響信号Ａ_dが表す音響は楽器の演奏音に限定されない。例えば、対象楽曲の歌唱音声を表す音響信号Ａ_dや詩等の作品の朗読音声を表す音響信号Ａ_dを解析することも可能である。ただし、同様の構造が時間軸上で反復的に出現する素材の複数の音響信号の解析に本発明は特に好適に利用される。なお、音響信号Ａ_dが音声を表す場合には、例えばＭＦＣＣ（Mel-Frequency Cepstral Coefficients）等が特徴量ｘ(d,t)として好適に抽出され得る。また、例えば音響信号以外の時系列データと音響信号との間で前述の各形態と同様の時間軸対応解析を実行することも可能である。音響信号と対比される時系列データとしては、対象楽曲の楽譜画像から抽出される音高を時系列に指定するデータが例示され得る。

（５）携帯電話機やスマートフォン等の端末装置と通信するサーバ装置で音響解析装置１００を実現することも可能である。例えば、音響解析装置１００は、端末装置から受信したＤ個の音響信号Ａ₁〜Ａ_Dについて前述の各形態と同様の時間軸対応解析を実行し、解析結果に応じた画像データを端末装置に送信することで解析結果画面４０を表示させる。なお、Ｄ個の音響信号Ａ₁〜Ａ_Dの各々から抽出された特徴量ｘ(d,t)が端末装置から音響解析装置１００に送信される構成（例えば端末装置が特徴抽出部２２を具備する構成）では音響解析装置１００から特徴抽出部２２が省略される。

１００……音響解析装置、１０……演算処理装置、１２……記憶装置、１４……表示装置、１６……入力装置、２２……特徴抽出部、２４……解析処理部、２６……表示制御部、２８……音響処理部。

Claims

任意の状態間を遷移可能なエルゴード型の第１マルコフモデルから生成されて複数の音響信号に共通する基礎構造を複数の状態で表現する基礎状態系列と共通の順序で同数の状態が配列されたleft-to-right型の第２マルコフモデルを利用して、前記複数の音響信号の各々について、前記複数の状態の遷移を示す解析状態系列を特定する解析処理手段
を具備する音響解析装置。
前記第１マルコフモデルは、状態数が無限化されたマルコフモデルである
請求項１の音響解析装置。
前記第２マルコフモデルは、各状態の継続長の確率分布が規定されたexplicit-duration型のマルコフモデルである
請求項１または請求項２の音響解析装置。
前記解析処理手段は、前記複数の音響信号の各々について、当該音響信号の前記解析状態系列における相異なる状態の境界の時点を特定し、
前記音響信号の時間軸上の波形と、当該波形のうち前記解析処理手段が当該音響信号について特定した境界の時点とを、前記複数の音響信号について共通の時間軸のもとで表示装置に表示させる表示制御手段
を具備する請求項１から請求項３の何れかの音響解析装置。
前記解析処理手段が特定した各境界の時点で複数の単位区間に区分された前記複数の音響信号の各々から利用者が選択した単位区間を相互に連結した音響信号を生成する音響処理手段
を具備する請求項４の音響解析装置。