JP6101599B2

JP6101599B2 - 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム

Info

Publication number: JP6101599B2
Application number: JP2013169970A
Authority: JP
Inventors: 康智大石; 弘和亀岡; 柏野　邦夫; 邦夫柏野; 大地持橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-08-19
Filing date: 2013-08-19
Publication date: 2017-03-22
Anticipated expiration: 2033-08-19
Also published as: JP2015038586A

Description

本発明は、音響信号分析装置、音量軌跡予測装置、方法、及びプログラムに係り、特に、音響信号及び楽譜データからモデルパラメータを推論する音響信号分析装置、方法、及びプログラム、並びに、楽譜データから音量軌跡を予測する音量軌跡予測装置、方法、及びプログラムに関する。

楽曲のメロディを歌った歌声の音量軌跡には、図１０に示すように、様々な動特性が見られる。これらは、発声器官の物理的制約に起因する成分（特に、細かい変動成分）や意図的表現による成分（特に、ビブラートの振動に同期して音量を振動させたり、滑らかに音量を減衰させたり、急激に音量を増加させたりする動作よって生じる成分）からなると考えられ、知覚的には、前者は人間らしさ・自然性に関係し、後者は巧拙感に関係すると考えられる。このような物理的制約もしくは意図的表現による、楽譜に書かれていない動特性を楽譜のコンテキスト（例えば、音符の音高や音長、クレッシェンドなどの演奏記号など）と対応付けて抽出できれば、歌唱者の歌い方や個性、癖を学習することにつながり、現在盛んに研究される歌声合成や歌声変換などへの応用が期待できる。例えば、ある歌声を別の歌唱者の歌い方（音量の変化パターン）に変換して合成することが可能となる。従来と違って、事前に歌唱者の歌い方が学習されるため、どんなメロディの楽譜が与えられても、その歌い方を転写できることを特長とする。

隠れマルコフモデル（ＨＭＭ）に基づく音声合成では、各フレームに付与された様々なコンテキストに基づいて、そのコンテキスト区間の音響特徴量（音量もその一つである）を、例えば５状態のＨＭＭで表現した。物理モデルに基づいて、音量軌跡の動特性を楽譜と対応付けて詳細にモデル化する研究はほとんど行われていないが、基本周波数（Ｆ０）軌跡の動特性をモデル化する試みがなされている。従来は、線形２次系システムを利用して歌声のＦ０軌跡に含まれる動特性を制御するモデルが提案された（例えば、非特許文献１）。これらの研究では、日本語の話声のＦ０パターンを表現する藤崎モデルを参考にし、２次系の伝達関数

における減衰率ζを調整することによって、図１１に示すように、指数減衰（ζ ＞１）、減衰振動（０＜ζ＜１、オーバーシュートに対応する）、臨界制動（ζ＝１）、定常振動（ζ＝０、ビブラートに対応する）からなる様々な振動現象を表現する。非特許文献１では、観測されるＦ０軌跡からモデルパラメータ（伝達関数のパラメータ）を精度よく推定する逆問題の解法が提案された。

また、非特許文献２では、ガウス過程を用いて、コンテキストから音響特徴量への回帰によって、動的特徴量や木構造のクラスタリングを用いずに、音響特徴量の動特性を直接表現している。

Yasunori Ohishi, Hirokazu Kameoka, Daichi Mochihashi, Kunio Kashino、「A Stochastic Model of Singing Voice F0 Contours for Characterizing Expressive DynamicComponents」、In Proc. International Conference on Spoken Language Processing (INTERSPEECH2012)、Sep.2012. Tomoki Koriyama, Takashi Nose, Takao Kobayashi、「Frame-level Acoustic Modeling based on Gaussian Process Regression for Statistical Nonparametric Speech Synthesis」、In Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP2013)、June.2013

しかし、ＨＭＭ音声合成における問題点の一つに、状態内で出力確率分布が一定であるというＨＭＭの制約がある。この制約のために短時間に細かく変化する音響特徴量を、固定された状態数と局所的な動的特徴量で表現することは難しい。また、ＨＭＭ音声合成では未知のコンテキストに対して頑健なモデルを構築するために木構造に基づくクラスタリングを行うが、クラスタリングにおける平均化処理のために、実際に生成される音響特徴量が過剰に平滑化されるという問題が起きる。また、非特許文献２では、ガウス過程を用いて、コンテキストから音響特徴量への回帰によって、動的特徴量や木構造のクラスタリングを用いずに、音響特徴量の動特性を直接表現するが、単一のガウス過程であるため、図１０に見られる、多様に変化する動特性は表現できないと考える。非特許文献１のＦ０生成モデルをそのまま音量軌跡に適用することも考えられるが、図１１と比較すると、図１０の音量軌跡は、もはや線形二次系からは逸脱した動特性であると考えられる。

本発明は、上記の事情を鑑みてなされたもので、音量軌跡を精度よく予測するためのモデルパラメータを得ることができる音響信号分析装置、方法、及びプログラムを提供することを目的とする。
また、音量軌跡を精度よく予測することができる音量軌跡予測装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る音響信号分析装置は、入力された歌声を示す音響信号から音量軌跡ｙ＾を抽出する音量抽出部と、入力された楽譜データから、各音符のコンテキストデータを表す入力変数ｘ＾の集合Ｘを抽出する音符コンテキスト抽出部と、前記入力変数ｘ＾の空間におけるガウス分布のパラメータθ_１ ^ｘと、前記入力変数ｘ＾の集合Ｘから音量軌跡ｙ＾を回帰するためのガウス過程におけるカーネル関数のパラメータθ_１ ^ＧＰとからなるモデルパラメータの初期値を生成するパラメータ初期値生成部と、前記音量軌跡ｙ＾、及び前記ガウス分布のパラメータθ_１ ^ｘの初期値または前回更新された前記ガウス分布のパラメータθ_１ ^ｘに基づいて、前記音量軌跡ｙ＾と、前記ガウス過程パラメータθ_１ ^ＧＰとが与えられたときの、前記音量軌跡ｙ＾を分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ_１，ｍと確率変数ｕ_{１，Ｍ＋１}との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ_１ ^ＧＰの初期値または前回更新された前記ガウス過程パラメータθ_１ ^ＧＰに基づいて、前記目的関数を前記ガウス過程パラメータθ_１ ^ＧＰに関して最大化するように前記ガウス過程パラメータθ_１ ^ＧＰを更新することを繰り返して、前記ガウス過程パラメータθ_１ ^ＧＰを推論するガウス過程パラメータ推論部と、前記入力変数ｘ＾の集合Ｘに基づいて、前記ガウス分布のパラメータθ_１ ^ｘを推論する入力変数空間パラメータ推論部と、前記音量軌跡ｙ＾、前記入力変数の集合Ｘ、前記推論された前記ガウス過程パラメータθ_１ ^ＧＰ、及び前記推論された前記ガウス分布のパラメータθ_１ ^ｘに基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返す収束判定部と、前記収束判定部により前記差分の絶対値が、閾値以下になったと判定された場合に、前記モデルパラメータを出力するパラメータ出力部と、を含んで構成されている。

本発明に係る音響信号分析方法は、音量抽出部、音符コンテキスト抽出部、パラメータ初期値生成部、ガウス過程パラメータ推論部、入力変数空間パラメータ推論部、収束判定部、及びパラメータ出力部を含む音響信号分析装置における音響信号分析方法であって、前記音量抽出部によって、入力された歌声を示す音響信号から音量軌跡ｙ＾を抽出するステップと、前記音符コンテキスト抽出部によって、入力された楽譜データから、各音符のコンテキストデータを表す入力変数ｘ＾の集合Ｘを抽出するステップと、前記パラメータ初期値生成部によって、前記入力変数ｘ＾の空間におけるガウス分布のパラメータθ_１ ^ｘと、前記入力変数ｘ＾の集合Ｘから音量軌跡ｙ＾を回帰するためのガウス過程におけるカーネル関数のパラメータθ_１ ^ＧＰとからなるモデルパラメータの初期値を生成するステップと、前記ガウス過程パラメータ推論部によって、前記音量軌跡ｙ＾、及び前記ガウス分布のパラメータθ_１ ^ｘの初期値または前回更新された前記ガウス分布のパラメータθ_１ ^ｘに基づいて、前記音量軌跡ｙ＾と、前記ガウス過程パラメータθ_１ ^ＧＰとが与えられたときの、前記音量軌跡ｙ＾を分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ_１，ｍと確率変数ｕ_{１，Ｍ＋１}との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ_１ ^ＧＰの初期値または前回更新された前記ガウス過程パラメータθ_１ ^ＧＰに基づいて、前記目的関数を前記ガウス過程パラメータθ_１ ^ＧＰに関して最大化するように前記ガウス過程パラメータθ_１ ^ＧＰを更新することを繰り返して、前記ガウス過程パラメータθ_１ ^ＧＰを推論するステップと、前記入力変数空間パラメータ推論部によって、前記入力変数ｘ＾の集合Ｘに基づいて、前記ガウス分布のパラメータθ_１ ^ｘを推論するステップと、前記収束判定部によって、前記音量軌跡ｙ＾、前記入力変数の集合Ｘ、前記推論された前記ガウス過程パラメータθ_１ ^ＧＰ、及び前記推論された前記ガウス分布のパラメータθ_１ ^ｘに基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返すステップと、前記パラメータ出力部によって、前記収束判定部により前記差分の絶対値が、閾値以下になったと判定された場合に、前記モデルパラメータを出力するステップとを含む。

本発明の音響信号分析装置及び音響信号分析方法は、インジケータ推論部を更に含み、前記パラメータ初期値生成部は、各時刻ｔについて割り当てられた、前記入力変数ｘ＾の空間におけるＲ個の状態ｒのうちの何れかを示すインジケータ変数ｚ_tの初期値を生成すると共に、前記入力変数ｘ＾の空間の前記Ｒ個の状態ｒの各々に対する前記ガウス分布のパラメータθ_ｒ ^ｘと、前記Ｒ個の状態ｒの各々に対する前記ガウス過程におけるカーネル関数のパラメータθ_ｒ ^ＧＰとからなる前記モデルパラメータの初期値を生成し、前記ガウス過程パラメータ推論部は、前記状態ｒの各々について、前記インジケータ変数ｚ_ｔに前記状態ｒが割り当てられた各時刻ｔの音量からなる前記音量軌跡ｙ＾_ｒ、及び前記ガウス分布のパラメータθ_ｒ ^ｘの初期値または前回更新された前記ガウス分布のパラメータθ_ｒ ^ｘに基づいて、前記音量軌跡ｙ＾_ｒと、前記ガウス過程パラメータθ_ｒ ^ＧＰとが与えられたときの、前記音量軌跡ｙ＾_ｒを分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ_r，ｍと確率変数ｕ_{r，Ｍ＋１}との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ_ｒ ^ＧＰの初期値または前回更新された前記ガウス過程パラメータθ_ｒ ^ＧＰに基づいて、前記目的関数を前記ガウス過程パラメータθ_ｒ ^ＧＰに関して最大化するように前記ガウス過程パラメータθ_ｒ ^ＧＰを更新することを繰り返して、前記ガウス過程パラメータθ_ｒ ^ＧＰを推論し、前記インジケータ推論部は、各時刻ｔについて、各時刻ｔのインジケータ変数ｚ_ｔ、前記音量軌跡ｙ＾、前記入力変数の集合Ｘ、各状態ｒの前記ガウス分布のパラメータθ_ｒ ^ｘに、各状態ｒの前記ガウス過程パラメータθ_ｒ ^ＧＰに基づく、前記インジケータ変数ｚ_ｔの各状態ｒが割り当てられる確率分布に従って、前記インジケータ変数ｚ_ｔを推論し、前記入力変数空間パラメータ推論部は、前記状態ｒの各々について、前記インジケータ変数ｚ_ｔに前記状態ｒが割り当てられた各時刻ｔの前記入力変数ｘ＾の集合Ｘ_ｒに基づいて、前記ガウス分布のパラメータθ_ｒ ^ｘを推論し、前記収束判定部は、前記音量軌跡ｙ＾、前記入力変数の集合Ｘ、前記推論された各時刻ｔの前記インジケータ変数ｚ_ｔ、前記推論された各状態ｒの前記ガウス過程パラメータθ_ｒ ^ＧＰ、及び前記推論された各状態ｒの前記ガウス分布のパラメータθ_ｒ ^ｘに基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返すようにすることができる。

本発明に係る音量軌跡予測装置は、上記の音響信号分析装置によって出力された前記モデルパラメータと、前記抽出された音量軌跡ｙ＾及び前記入力変数ｘ＾の集合Ｘを記憶したパラメータデータベースと、入力された予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数ｘ＾の集合Ｘを抽出する予測用音符コンテキスト抽出部と、各時刻ｔについて、前記パラメータデータベースに記憶された前記モデルパラメータ、前記音量軌跡ｙ＾、及び前記入力変数ｘ＾の集合Ｘと、前記予測用音符コンテキスト抽出部によって抽出された時刻ｔの前記入力変数ｘ＾とに基づいて算出される、時刻ｔの音量の予測分布を計算する予測分布計算部と、各時刻ｔについて、前記予測分布計算部によって計算された時刻ｔの音量の予測分布に従って、時刻ｔの音量を予測することにより、音量軌跡ｙ＾を生成する音量軌跡生成部と、を含んで構成されている。

本発明に係る音量軌跡予測方法は、上記の音響信号分析装置によって出力された前記モデルパラメータと、前記抽出された音量軌跡ｙ＾及び前記入力変数ｘ＾の集合Ｘを記憶したパラメータデータベース、予測用音符コンテキスト抽出部、予測分布計算部、及び音量軌跡生成部を含む音量軌跡予測装置における音量軌跡予測方法であって、前記予測用音符コンテキスト抽出部によって、入力された予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数ｘ＾の集合Ｘを抽出するステップと、前記予測分布計算部によって、各時刻ｔについて、前記パラメータデータベースに記憶された前記モデルパラメータ、前記音量軌跡ｙ＾、及び前記入力変数ｘ＾の集合Ｘと、前記予測用音符コンテキスト抽出部によって抽出された時刻ｔの前記入力変数ｘ＾とに基づいて算出される、時刻ｔの音量の予測分布を計算するステップと、前記音量軌跡生成部によって、各時刻ｔについて、前記予測分布計算部によって計算された時刻ｔの音量の予測分布に従って、時刻ｔの音量を予測することにより、音量軌跡ｙ＾を生成するステップと、を含む。

本発明に係る第１のプログラムは、コンピュータを、音響信号分析装置の各部として機能させるためのプログラムである。

本発明に係る第１のプログラムは、コンピュータを、音量軌跡予測装置の各部として機能させるためのプログラムである。

以上説明したように、本発明の音響信号分析装置、方法、及びプログラムによれば、音量軌跡ｙ＾_ｒ、及びガウス分布のパラメータθ_ｒ ^ｘに基づいて、音量軌跡ｙ＾_ｒと、ガウス過程パラメータθ_ｒ ^ＧＰとが与えられたときの、音量軌跡ｙ＾_ｒを分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ_r，ｍと確率変数ｕ_{r，Ｍ＋１}との組からなる完全データの自己相関の条件付き期待値を計算し、計算された完全データの自己相関の条件付き期待値を用いて表わされる、完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、目的関数をガウス過程パラメータθ_ｒ ^ＧＰに関して最大化するようにガウス過程パラメータθ_ｒ ^ＧＰを更新することを繰り返して、ガウス過程パラメータθ_ｒ ^ＧＰを推論することにより、音量軌跡を精度よく予測するためのモデルパラメータを得ることができる、という効果が得られる。

また、本発明の音量軌跡予測装置、方法、及びプログラムによれば、音響信号分析装置によって出力されたモデルパラメータに基づいて算出される、時刻ｔの音量の予測分布を計算し、計算された時刻ｔの音量の予測分布に従って、時刻ｔの音量を予測して音量軌跡ｙ＾を生成することにより、音量軌跡を精度よく予測することができる、という効果が得られる。

本発明の実施の形態の原理を説明するための説明図である。本発明の実施の形態の各パラメータのグラフィカルモデルを示す図である。第１の実施の形態に係る音響信号分析装置の構成の一例を示す概略図である。第１の実施の形態に係る音量軌跡予測装置の構成の一例を示す概略図である。第１の実施の形態に係る音響信号分析装置におけるモデルパラメータ推定処理ルーチンの内容を示すフローチャートである。第１の実施の形態に係る音量軌跡予測装置における予測処理ルーチンの内容を示すフローチャートである。第２の実施の形態に係る音響信号分析装置の構成の一例を示す概略図である。本実施の形態を用いた実験結果を示す第１の図である。本実施の形態を用いた実験結果を示す第２の図である。従来技術の概要を説明するための第１の説明図である。従来技術の概要を説明するための第２の説明図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜概要＞
本発明の実施の形態は、伴奏付きで歌った歌声とそのメロディの楽譜が同期して得られた下で、入力変数となる、楽譜に含まれる様々なコンテキスト（音符内の時刻や音符の音高や音長など）から、出力変数となる歌声の音量を回帰するための、入力変数空間をクラス（状態）に分類するためのガウス分布のパラメータ（以下、入力変数空間パラメータと称する。）、および、各入力変数がどのクラス（状態）に割り当てられるかを示すインジケータ変数、および、クラス（状態）ごとに入力変数から出力変数を回帰するためのガウス過程パラメータを抽出する。

本実施の形態では、カラオケのように、伴奏付きで歌った歌声とそのメロディの楽譜が与えられた下で、楽譜に含まれる様々なコンテキストから歌声の音量軌跡への回帰問題を考える。上記図１０に示すように、メロディの楽譜（ＭＩＤＩのノートナンバーに基づく音高とInteronset intervalに基づく音長からなる階段状軌跡）と音量軌跡が同期して得られたとする。回帰問題の入力変数は、楽譜における音符の音高や音長などのコンテキストを集めたベクトルである。一方、出力変数は歌声音響信号を短時間ごとに周波数分析して得られる音量値である。

上記図１０を見ると、音量軌跡には様々な動特性が含まれる。音量が急激に上昇する区間もあれば、上下に振動する区間、緩慢に下降する区間などが観測される。本発明に係る実施の形態では、歌唱者はこのような動特性を生成する物理的な系をいくつか持っており、時々刻々とその系を遷移させながら音量を生成すると想定する。このような系の遷移を混合ガウス過程で表現することで、音符コンテキストから音量軌跡への回帰を考える。この回帰問題を解くことで（モデルパラメータを推定することで）、未知の楽譜が与えられた時に、その歌唱者が描くであろう音量軌跡を予測することが可能となる。

＜原理＞
次に、音量軌跡を予測するためのモデルパラメータを推定する原理について説明する。

（１．混合ガウス過程に基づく音量軌跡の生成過程モデル）
本実施の形態では、カラオケのように、伴奏付きで歌った歌声とそのメロディの楽譜が与えられた下で、楽譜に含まれる様々なコンテキストから歌声の音量軌跡への回帰問題を考える。上記図１０に示すように、メロディの楽譜（ＭＩＤＩのノートナンバーに基づく音高とInteronset intervalに基づく音長からなる階段状軌跡）と音量軌跡が同期して得られたとする。回帰問題の入力変数ｘ_ｔ＾はメロディの楽譜から、例えば下記のように構成される。なお、記号に付された「＾」は、当該記号が行列または多次元配列またはベクトルであることを表わしている。

ｘ_ｔ＾＝[当該音符の発音開始時刻からの時間、当該音符の音高、当該音符の音長]^Ｔ
・・・（２）

ここで、ｔはサンプリング周期である。例えば、１０ｍｓとする。もちろん、当該音符の発音停止時刻からの時間や、当該音符の前後の音符の音高や音長、クレッシェンド、デクレッシェンドのような演奏記号の有無など、様々なコンテキストを入力変数ｘ_ｔ＾に加えることも可能である。一方、出力変数ｙ_ｔである音量軌跡は下記の式を用いて計算される。

ここで、フレーム長は３２ｍｓ、フレームシフト長は１０ｍｓである。ハニング窓を用いて、歌声音響信号を短時間フーリエ変換して得られる振幅スペクトログラムを、｜Ｙ＾｜とする。ＦＦＴポイント数に相当するＷを５１２とした。

上記図１０を見ると、音量軌跡には様々な動特性が含まれる。音量が急激に上昇する区間もあれば、上下に振動する区間、緩慢に下降する区間などが観測される。本実施の形態では、歌唱者はこのような動特性を生成する物理的な系（状態）をいくつか持っており、時々刻々とその系を遷移させながら音量を生成するとみなす。このような系の遷移を考慮しながら、音符コンテキストから音量軌跡を生成するために、混合ガウス過程（参考文献１（E. Meeds and S.Osindero、「An alternative infinite mixture of Gaussian process experts」、in NIPS2006.）を参照）を利用する。

まずは、ガウス過程について説明する。ガウス過程は回帰分析やクラス分類などの教師あり学習に広く使用されているモデルであり、モデルの複雑さに対する柔軟性と過学習に対する頑健性を兼ね備えたノンパラメトリックベイズモデルとして知られている。入力変数ｘ＾に対する出力変数ｙがガウス過程に従うとき、出力変数全体からなるベクトルｙ＾＝［ｙ_１, . . . , ｙ_Ｔ］^Ｔの確率密度関数は次の多次元ガウス分布で表される。

ここで、ＧＰはガウス過程を指し、Ｋ＾はＫ_ｉ，ｊ＝ｋ（ｘ_ｉ＾，ｘ_ｊ＾）を要素に持つグラム行列であり、ｋ（ｘ_ｉ＾，ｘ_ｊ＾）は２変数間の相関を表すカーネル関数である。また、η^２は出力変数に含まれる観測ノイズの分散パラメータ、Ｉ＾は単位行列を表す。ガウス過程による回帰分析では未知の入力変数ｘ_＊＾に対し、出力変数ｙ_＊の分布を予測できる。既に与えられている入力変数集合Ｘと新たな入力変数ｘ_＊＾の相関を表すグラムベクトルｋ_＊＾を用いると、ｙ＾とｙ_＊の同時分布は、

となる。ゆえに未知の出力変数ｙ_＊の予測分布は以下で与えられる。

ここで、出力変数ｙ_＊には観測ノイズを考慮しない。
ガウス過程による回帰分析のためにはカーネル関数の設計が必要である。カーネル関数に求められる条件はグラム行列が正定値対称行列となることであり、出力信号の定常性を仮定した下で、Squared exponential（ＳＥ）カーネル関数やRational Quadraticカーネル関数などを利用することが一般的である。しかしながら、上記図１０より、音量軌跡は必ずしも定常であるとは言えず、先にも述べたとおり、いくつかの物理的な系（状態）を互いに遷移しながら、音量を生成するとみなせる。このような理由から、混合ガウス過程を利用することとした。

図１に示すように、混合ガウス過程では入力変数空間がいくつかの状態で構成される。状態ごとに異なるカーネル関数からなるガウス過程にしたがって、音量軌跡が生成される。これらの状態が様々な音量軌跡を生成するための物理的な系とみなされる。最終的には、これらの状態の混合モデルとして、音量軌跡が表現される。式で書くと、

となる。ここで、Ｒは状態の総数である。ｚ_ｔは潜在変数であり、時刻ｔにおいて入力変数が割り当てられる状態のインデックスを表すため、インジケータ変数とも言える。Θはモデルパラメータであり、Ωはハイパーパラメータを表す。式（７）では、入力変数集合に対するあらゆる状態割り当てＺ（Ｔ^Ｒ個の組合せ）に関して総和を計算する。ただし、ガウス過程は個々の出力変数が互いに独立であるわけでなく、時間的な依存関係があるため、この計算が困難になる。そこで、潜在変数ｚ_ｔを周辺化することなく、直接、変数として扱う。混合ガウス過程に基づく音量軌跡の生成過程の流れは、下記の（１）〜（５）で表される。またグラフィカルモデルを図２に示す。

（１）ディリクレ−多項分布モデルを用いて、Ｔ個の入力変数をＲ個の状態のいずれかに割り当てる。入力変数の割り当ては集合{ｚ_ｔ}^Ｔ _ｔ＝１によって表現される。

（２）状態ｒに割り当てられたインジケータ変数集合{ｚ_ｔ:ｚ_ｔ＝ｒ}が与えられた下で、入力変数空間における状態ｒの密度分布のパラメータθ_ｒ ^ｘ＝{μ_ｒ＾、Σ_ｒ＾}を生成する。ここでは、密度分布として、全共分散行列をもつガウス分布を想定する。

（３）分布のパラメータθ_ｒ ^ｘが与えられた下で、状態ｒに属する各々の入力変数集合Ｘ_ｒ≡{ｘ_ｔ＾:ｚ_ｔ＝ｒ}が生成される。

（4）状態ｒごとに、ガウス過程におけるカーネル関数のパラメータθ_ｒ ^ＧＰ（以下、ガウス過程パラメータと称する）が生成される。

（5）最終的に、状態ごとに、入力変数集合Ｘ_ｒとガウス過程パラメータθ_ｒ ^ＧＰを使って、ガウス過程のグラム行列が計算され、出力変数ベクトルｙ_ｒ＾≡ {ｙ_ｔ:ｚ_ｔ＝ｒ}が生成される。

このとき、完全同時分布は

式（８）における個々の分布を下記のように定義する。

ここで、αはディリクレ−多項分布モデルのハイパーパラメータ、Ｔ_ｒは集合Ｘ_ｒの要素数、Ｉ_ｒ＾はＴ_ｒ×Ｔ_ｒの単位行列、Ｗはウィシャート分布を表す。η^２ _ｒは出力変数の観測ノイズを表現するための分散パラメータである。また、π＾は多項分布のパラメータ、ｍ_０＾、β_０、Ｗ_０＾、及びν_０はハイパーパラメータである。

グラム行列Ｋ_ｒ＾は集合Ｘ_ｒにおける入力変数とガウス過程パラメータθ_ｒ ^ＧＰを用いて計算される。なお、グラム行列Ｋ_ｒ＾は、上記（４）式のグラム行列Ｋ＾を混合ガウス過程に適用させるために拡張させたものである。本実施の形態では、単位の異なる様々な音符コンテキスト（音符内の時刻であったり、音符の音高や音長であったり）を扱うため、カーネル関数の工夫が必要である。つまり、上記参考文献のＳＥカーネルをそのまま流用することができない。

参考文献２（亀岡弘和, 大石康智, 持橋大地, ルルー・ジョナトン、「マルチカーネル線形予測モデルによる音声分析」、Mar. 2010、日本音響学会2010年春季研究発表会講演論文集2-Q-24、p.499-502）を参考に、マルチカーネル学習の考え方に基づき、複数のカーネルの線形結合によって与えられるカーネル関数

を導入し、カーネル関数全体の強度ｗ^２ _ｒと各カーネルの優勢度ψ_ｒ，ｍを推定すべき未知パラメータとみなす。ただし、

とする。Ｍは線形結合するカーネル関数の総数である。さらに、カーネル関数ｋ_ｒ，ｍ（ｘ_ｉ＾，ｘ_ｊ＾）を、位置の類似度を表す位置カーネルｋ^（ｐ） _ｒ，ｍ（ｘ_ｉ ^（ｐ）＾，ｘ_ｊ ^（ｐ）＾）と音符の類似度を表す音符コンテキストカーネルｋ^（ｃ） _ｒ，ｍ（ｘ_ｉ ^（ｃ）＾，ｘ_ｊ ^（ｃ）＾）を掛けあわせたものとする。

すなわち、入力変数ベクトルｘ_ｉ＾をｘ_ｉ＾＝[ｘ_ｉ ^（ｐ）Ｔ＾，ｘ_ｊ ^（ｃ）Ｔ＾]^Ｔのような二つのグループに分けて、音符内位置および音符のコンテキストを同時に考慮してカーネル関数を計算する。位置カーネルにはdiagonal squared exponential カーネルを利用する。

音符コンテキストカーネルにはfull squared exponential カーネルを利用する。ここで、Ｄはｘ_ｉ ^（ｃ）＾の次元数である。また、ｌ^（ｐ） _ｍは、カーネル関数に関するハイパーパラメータである。

上記より、推定すべき未知のモデルパラメータは、Θ＝{θ_１ ^ｘ, . . . , θ_Ｒ ^ｘ, θ_１ ^ＧＰ, . . . ,θ_Ｒ ^ＧＰ} と整理される。また、ｌ^（ｃ） _ｍ、ｄは、カーネル関数に関するハイパーパラメータである。

ここで、θ_ｒ ^ｘ＝{μ_ｒ＾，Σ_ｒ＾}、θ_ｒ ^ＧＰ＝{ｗ^２ _ｒ，ψ_ｒ，１，．．．，ψ_ｒ，Ｍ，η^２ _ｒ} である。一方、ハイパーパラメータはΩ＝{α，ｍ_０＾，Ｗ_０＾，β_０，ν_０，ｌ^（ｐ） _１，．．．，ｌ^（ｐ） _Ｍ，ｌ^（ｃ） _１，１，．．．，ｌ^（ｃ） _Ｍ，Ｄ}となる。

式（６）と同様に、混合ガウス過程において、未知の入力変数ｘ_＊＾に対する出力変数ｙ_＊の予測分布を導出する。式（７）を参考に下記のように考える。

ここで、ｐ（ｚ_＊＝ｒ）とｐ（ｘ_＊＾｜ｚ_＊＝ｒ，θ_ｒ ^ｘ）は

から計算され、ｃ_ｒ＝ｐ（ｚ_＊＝ｒ）ｐ（ｘ_＊＾｜ｚ_＊＝ｒ，θ_ｒ ^ｘ）とおく。一方、ｐ（ｙ_＊｜ｙ_ｒ＾，Ｘ_ｒ，ｘ_＊＾，ｚ_＊＝ｒ，θ_ｒ ^ＧＰ)は、

という分布となる。上記式（１９）を独立な確率分布から生成される確率変数の線形和とみなし、

とする。

（２．パラメータの推論）
次に、パラメータを推論する原理について説明する。
Ｇｉｂｂｓサンプリングを用いて、パラメータを推論する。

（２．１ Σ_ｒ＾の推論）

次の（２３）式に示す事後分布にしたがって、Σ_ｒ＾をサンプリングする。

（２．２ μ_ｒ＾の推論）

上記（２３）式でサンプリングされたΣ_ｒ＾を用いて、次の（２４）式に示す事後分布にしたがって、μ_ｒ＾をサンプリングする。

２．３ｚ_ｔの推論
ｚ_ｔの事後分布は、

と書ける。ここで、ｚ_＼ｔ＾＝{ｚ_１，．．．，ｚ_ｔ−１，ｚ_ｔ＋１，．．．，ｚ_Ｔ} とする。また、ｙ_ｒ，＼ｔ＾＝{ｙ_ｉ：ｉ≠ｔ，ｚ_ｉ＝ｒ}，Ｘ_ｒ，＼ｔ＝{ｘ_ｉ＾：ｉ≠ｔ, ｚ_ｉ＝ｒ}とすると、第一項の条件付き確率は、

となる。ここで、Ｋ_ｒ，＼ｔ＾は集合Ｘ_ｒ，＼ｔにおける入力変数を使って計算されるグラム行列である。ｋ_ｒ，＼ｔ＾はＸ_ｒ，＼ｔにおける入力変数とｘ_ｔ＾の相関を表すグラムベクトルである。第二項は、

となる。Ｔ_ｒ，＼ｔは集合Ｘ_ｒ，＼ｔの要素数を表す。すべての状態ｒに対して、この事後確率を計算し、すべての状態ｒに対する事後確率に基づく事後分布に従って、ｚ_ｔの割り当てを推論する。

（２．４ ψ_ｒ＾、ｗ^２ _ｒ、η^２ _ｒの推論）

ψ_ｒ＾、ｗ^２ _ｒ、η^２ _ｒは、ＥＭアルゴリズムを用いることで目的関数の増加を保証する更新式を導くことができる。まず、状態ｒの出力変数ベクトルｙ_ｒ＾をＭ＋１個の独立な確率変数

の和に分解し、これらを完全データと扱う。よって、完全データｕ_ｒ＾＝（ｕ^Ｔ _ｒ，１＾，．．．，ｕ^Ｔ _{ｒ，Ｍ＋１}＾）^Ｔに対する対数尤度関数は、

で与えられる。ただし、＝^ｃは定数項以外の等号を表す。上式に対し、ｙ_ｒ＾、θ_ｒ ^ＧＰ＝θ_ｒ ^ＧＰ’が与えられたときの条件付き期待値をとると、Ｑ関数は

を得る。ここで、Ｈ_ｒ＾≡[Ｉ_ｒ＾，．．．，Ｉ_ｒ＾] とおくと、不完全データｙ_ｒ＾と完全データｕ_ｒ＾との間には

なる関係式が成り立つことから、Ｅ[ｕ_ｒ＾ｕ_ｒ ^Ｔ＾｜ｙ_ｒ＾；θ_ｒ ^ＧＰ]は、

と具体的に与えられる。この各対角ブロックをＲ_ｒ，１＾，．．．，Ｒ_{ｒ，Ｍ＋１}＾と置くと、Ｑ関数は

となる。よって、パラメータの更新式は、

となる。実際は、パラメータの値が収束するまで、上記式（３３）、（３５）、（３６）、（３７）の計算を繰り返す。処理の流れを整理すると、以下の（１）〜（４）の処理で表される。

（１）入力変数空間パラメータθ_１ ^ｘ，．．．，θ_Ｒ ^ｘとインジケータ変数ｚ_１，．．．，ｚ_Ｔが与えられた下で、上記式（３３）、（３５）、（３６）の計算をあらかじめ決められた回数だけ、順番に繰り返して、すべての状態（クラス１，．．．，Ｒ）のθ_１ ^ＧＰ，．．．，θ_Ｒ ^ＧＰを推論する。

（２）入力変数空間パラメータθ_１ ^ｘ，．．．，θ_Ｒ ^ｘとガウス過程パラメータθ_１ ^ＧＰ，．．．，θ_Ｒ ^ＧＰが与えられた下で、上記式（２５）から、ギブスサンプリングによって、すべての時刻のｚ_１，．．．，ｚ_Ｔを推論する。

（３）インジケータ変数ｚ_１，．．．，ｚ_Ｔが与えられた下で、上記式（２３）、（２４）から、ギブスサンプリングによって、すべての状態のθ_１ ^ｘ，．．．，θ_Ｒ ^ｘを推論する。

（４）推論された入力変数空間パラメータθ_１ ^ｘ，．．．，θ_Ｒ ^ｘとインジケータ変数ｚ_１，．．．，ｚ_Ｔとガウス過程パラメータθ_１ ^ＧＰ，．．．，θ_Ｒ ^ＧＰを利用して、上記式（８）の同時分布の値を計算する。そして、一ステップ前の値との誤差が、所定の閾値以下であれば、収束したと判定するものである。この誤差は例えばε＝１．０×１０^−５である。収束していれば、推論されたパラメータθ_１ ^ｘ, . . . , θ_Ｒ ^ｘ, θ_１ ^ＧＰ, . . . , θ_Ｒ ^ＧＰとインジケータ変数集合{ｚ_ｔ}^Ｔ _ｔ＝１をすべて出力する。一方、収束しない場合は、ガウス過程パラメータの推論の処理に戻る。

以上の処理は第１の実施の形態に記載する内容でもある。また、入力変数空間をいくつかの状態（クラス）に分けることなく、パラメータを推論することも可能である。その場合は上記の（２）の処理を省略して以下の（１）〜（３）の処理を行うことになる。入力変数空間をいくつかの状態（クラス）に分けることなく、パラメータを推論する構成は、第２の実施の形態で記載する。

（１）入力変数空間パラメータθ_１ ^ｘが与えられた下で、上記式（３３）、（３５）、（３６）の計算をあらかじめ決められた回数だけ、順番に繰り返して、状態1（いくつかの状態に分けることを考えないので状態１だけとなる）のθ_１ ^ＧＰを推論する。

（２）上記式（２３）、（２４）から、ギブスサンプリングによって、θ_１ ^ｘを推論する。

（３）推論された入力変数空間パラメータθ_１ ^ｘとガウス過程パラメータθ_１ ^ＧＰを利用して、式（８）の同時分布の値を計算する。そして、一ステップ前の値との誤差が、所定の閾値以下であれば、収束したと判定する。この誤差は例えばε＝１．０×１０^−５である。収束していれば、推論されたパラメータθ_１ ^ｘ、θ_１ ^ＧＰをすべて出力する。一方、収束しない場合は、ガウス過程パラメータの推論の処理に戻る。

［第１の実施の形態］
＜音響信号分析装置のシステム構成＞
本発明の第１の実施の形態に係る音響信号分析装置１００は、ＣＰＵと、ＲＡＭと、後述するモデルパラメータ推定処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図３に示すように、音響信号分析装置１００は、解析用入力部１と、解析用演算部２と、パラメータ出力部３と、パラメータデータベース４と、を含んだ構成で表すことができる。

解析用入力部１は、歌声を示す音響信号と当該音響信号に対応する楽譜データとを含んで構成される学習用データを受け付ける。

解析用演算部２は、解析用入力部１により受け付けた学習用データに基づいて、モデルパラメータを推論する。また、解析用演算部２は、学習データベース２０と、音量抽出部２２と、音符コンテキスト抽出部２４と、パラメータ初期値生成部２６と、モデルパラメータ推論部２８と、収束判定部３６と、を備えている。

学習データベース２０には、解析用入力部１により受け付けた学習用データが格納される。

音量抽出部２２は、学習データベース２０に格納された歌声を示す音響信号から、音量軌跡ｙ＾を抽出する。具体的には、音量抽出部２２は、上記式（３）を用いて、歌声を示す音響信号から音量軌跡ｙ_１，．．．，ｙ_Ｔを作成する。例えば、フレーム長は３２ｍｓ、フレームシフト長は１０ｍｓとし、ハニング窓を用いて、歌声を示す音響信号の振幅スペクトログラムを計算する。ＦＦＴポイント数に相当するＷは５１２とした。

音符コンテキスト抽出部２４は、学習データベース２０に格納された楽譜データから、各音符のコンテキストデータを表す入力変数ｘ＾の集合Ｘを抽出する。具体的には、音符コンテキスト抽出部２４は、上記式（２）のように、楽譜データの楽譜を表す階段状信号から、音符コンテキストを抽出する。上記式（２）に限らず、当該音符の発音停止時刻からの時間や、当該音符の前後の音符の音高や音長、クレッシェンドやデクレッシェンドのような演奏記号の有無など、様々なコンテキストを入力変数に加えることも可能である。ただし、本実施の形態では上記式（２）を入力変数として以降説明する（Ｄ＝２となる）。サンプリング周期は１０ｍｓとした。

パラメータ初期値生成部２６は、各時刻ｔについて割り当てられた、入力変数ｘ＾の空間におけるＲ個の状態ｒのうちの何れかを示すインジケータ変数ｚ_tの初期値を生成すると共に、入力変数ｘ＾の空間のＲ個の状態ｒの各々に対する入力変数空間パラメータθ_ｒ ^ｘと、Ｒ個の状態ｒの各々に対するガウス過程パラメータθ_ｒ ^ＧＰとを含んで構成されるモデルパラメータの初期値を生成する。具体的には、パラメータ初期値生成部２６は、インジケータ変数ｚ_１，．．．，ｚ_ＴとモデルパラメータΘ（Θ＝{θ^ｘ _１, . . . , θ_Ｒ ^ｘ, θ_１ ^ＧＰ, . . . ,θ_Ｒ ^ＧＰ}）の初期値を生成する。また、パラメータ初期値生成部２６は、ハイパーパラメータΩ（Ω＝{α，ｍ_０＾，Ｗ_０＾，β_０，ν_０，ｌ^（ｐ） _１，．．．，ｌ^（ｐ） _Ｍ，ｌ^（ｃ） _１，１，．．．，ｌ^（ｃ） _Ｍ，Ｄ}）と、関連するパラメータとについて、固定値を設定する。

各パラメータの生成及び設定方法として、例えば、Ｒ＝５０に設定し、{ｘ_ｔ＾}^Ｔ _ｔ＝１に対して、ｋ−ｍｅａｎｓクラスタリングを行った割り当て結果をインジケータ変数の初期値とする。そして、ｋ−ｍｅａｎｓクラスタリングによって、各状態に割り当てられた入力変数ｘ＾を用いて計算される平均と共分散行列をθ_ｒ ^ｘの初期値とする。また、Ｍ＝３０とし、ｗ^２ _ｒ＝１００、ψ_ｒ，１＝１／Ｍ，．．．，ψ_ｒ，Ｍ＝１／Ｍ、η^２ _ｒ＝１（ｒ＝１，．．．，Ｒ）を初期値とする。ここで、本実施の形態では、η^２ _ｒについては以後更新は行わず、固定値とする。一方、ハイパーパラメータΩにおいて、α＝１、β_０＝０．１、ν_０＝Ｄ＋１とする。ｍ_０＾は入力変数全体{ｘ_ｔ＾}^Ｔ _ｔ＝１の平均とする。Ｗ_０＾は{ｘ_ｔ＾}^Ｔ _ｔ＝１から計算される共分散行列の逆行列をν_０で割った行列を設定する。次に、カーネル関数のハイパーパラメータに関して、ｌ^（ｐ） _１：１０＝ｌ^（ｐ） _{１１：２０}＝ｌ^（ｐ） _{２１：３０}＝０．００５：０．００５：０．０５、ｌ^（ｃ） _{１：１０，１}＝１、ｌ^（ｃ） _{１１：２０，１}＝２、ｌ^（ｃ） _{２１：３０，１}＝３、ｌ^（ｃ） _{１：１０，２}＝０．１、ｌ^（ｃ） _{１１：２０，２}＝０．２、ｌ^（ｃ） _{２１：３０，２}＝０．３と設定する。

モデルパラメータ推論部２８は、モデルパラメータを推論する。また、モデルパラメータ推論部２８は、ガウス過程パラメータ推論部３０と、インジケータ変数推論部３２と、入力変数空間パラメータ推論部３４とを備えている。

ガウス過程パラメータ推論部３０は、状態ｒの各々について、インジケータ変数ｚ_ｔに状態ｒが割り当てられた各時刻ｔの音量を含んで構成される音量軌跡ｙ＾_ｒ、及び入力変数空間パラメータθ_ｒ ^ｘの初期値または入力変数空間パラメータ推論部３４によって前回更新された入力変数空間パラメータθ_ｒ ^ｘに基づいて、音量軌跡ｙ＾_ｒとガウス過程パラメータθ_ｒ ^ＧＰとが与えられたときの、音量軌跡ｙ＾_ｒを分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ_r，ｍと確率変数ｕ_{r，Ｍ＋１}との組を含んで構成される完全データの自己相関の条件付き期待値を計算する。そして、ガウス過程パラメータ推論部３０は、計算された完全データの自己相関の条件付き期待値を用いて表わされる、完全データの対数尤度関数の期待値を表わす関数を、目的関数とする。そして、状態ｒの各々について、ガウス過程パラメータ推論部３０は、ガウス過程パラメータθ_ｒ ^ＧＰの初期値またはガウス過程パラメータ推論部３０によって前回更新されたガウス過程パラメータθ_ｒ ^ＧＰに基づいて、目的関数をガウス過程パラメータθ_ｒ ^ＧＰに関して最大化するようにガウス過程パラメータθ_ｒ ^ＧＰを更新する。上記の完全データの自己相関の条件付き期待値の計算、及びガウス過程パラメータθ_ｒ ^ＧＰの更新を繰り返して、ガウス過程パラメータθ_ｒ ^ＧＰを推論する。具体的には、ガウス過程パラメータ推論部３０は、状態ｒの各々について、上記式（３３）、（３５）、（３６）の計算を複数回、順番に繰り返して、すべての状態ｒのθ_ｒ ^ＧＰを推論する。繰り返し回数としては、例えば１００回程度繰り返す。

インジケータ変数推論部３２は、各時刻ｔについて、各時刻ｔのインジケータ変数ｚ_ｔ、音量軌跡ｙ＾、入力変数の集合Ｘ、各状態ｒの入力変数空間パラメータθ_ｒ ^ｘ、及び各状態ｒのガウス過程パラメータθ_ｒ ^ＧＰに基づいて、インジケータ変数ｚ_ｔに各状態ｒが割り当てられる事後分布を計算し、計算された事後分布に従って、インジケータ変数ｚ_ｔを推論する。すなわち、インジケータ変数推論部３２は、ギブスサンプリングによって、上記式（２５）から、すべての時刻のｚ_ｔを推論する。なお、事後分布は確率分布の一例である。

入力変数空間パラメータ推論部３４は、状態ｒの各々について、インジケータ変数ｚ_ｔに状態ｒが割り当てられた各時刻ｔの入力変数ｘ＾の集合Ｘ_ｒに基づいて、入力変数空間パラメータθ_ｒ ^ｘを推論する。すなわち、入力変数空間パラメータ推論部３４は、ギブスサンプリングによって、上記式（２３）、（２４）から、すべての状態ｒのθ_ｒ ^ｘを推論する。

収束判定部３６は、音量抽出部２２によって抽出された音量軌跡ｙ＾、学習データベース２０に格納された入力変数ｘ＾の集合Ｘ、インジケータ変数推論部３２によって推論された各時刻ｔのインジケータ変数ｚ_ｔ、ガウス過程パラメータ推論部３０によって推論された各状態ｒのガウス過程パラメータθ_ｒ ^ＧＰ、及び入力変数空間パラメータ推論部３４によって推論された各状態ｒの入力変数空間パラメータθ_ｒ ^ｘに基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、ガウス過程パラメータ推論部３０による推論、インジケータ変数推論部３２による推論、及び入力変数空間パラメータ推論部３４による推論を繰り返す。具体的には、収束判定部３６は、上記式（８）の同時分布の値を計算する。一ステップ前の値との誤差が、所定の閾値以下であれば、収束したと判定する。本実施の形態ではこの誤差を実験的にε＝１．０×１０^−５とした。収束していればパラメータ出力部３は、学習データ{ｘ_ｔ，ｙ_ｔ}^Ｔ _ｔ＝１，インジケータ変数集合{ｚ_ｔ}^Ｔ _ｔ＝１，モデルパラメータ集合Θとパイパーパラメータ集合Ωをすべて出力する。一方、収束しない場合は、ガウス過程パラメータ推論部３０の処理に戻る。

なお、収束したか否かを判定する方法としては、同時分布の値を用いる方法以外に、モデルパラメータ各々の値を更新前と更新後とで比較しても良いし、予め定めた繰り返し回数に到達したか否かで判定を行っても良い。本実施の形態ではモデルパラメータ各々の値を更新前と更新後とで比較する場合、この誤差がε＝１．０×１０^−５であれば良好な結果であることを実験的に確認した。また、予め定めた繰り返し回数に到達したか否かで判定をする場合、１００回の繰り返し回数が必要であることも実験的に確認している。

パラメータ出力部３は、収束判定部３６により差分の絶対値が、閾値以下になったと判定された場合に、パラメータ出力部３によって出力されたモデルパラメータΘと、パラメータ初期値生成部２６で設定されたハイパーパラメータΩと、学習データベース２０に格納された学習用データの、音量軌跡ｙ＾及び入力変数ｘ＾の集合Ｘと、をパラメータデータベース４に格納する。

＜音量軌跡予測装置のシステム構成＞
図４は、本発明の第１の実施の形態に係る音量軌跡予測装置２００を示すブロック図である。この音量軌跡予測装置２００は、ＣＰＵと、ＲＡＭと、後述する予測処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

音量軌跡予測装置２００では、新規のメロディの楽譜（予測対象の楽譜データ）が入力されると、予測対象の楽譜データに対応する音量軌跡を予測して生成する。

本実施の形態に係る音量軌跡予測装置２００は、図４に示すように、入力部５と、パラメータデータベース６と、演算部７と、出力部８とを備えている。

入力部５は、予測対象の楽譜データを受け付ける。

パラメータデータベース６には、上記の音響信号分析装置１００のパラメータデータベース４と同じ、モデルパラメータと、学習用データの、音量軌跡ｙ＾及び入力変数ｘ＾の集合Ｘと、ハイパーパラメータΩとが格納される。

演算部７は、パラメータデータベース６に記憶されたモデルパラメータと、学習用データの、音量軌跡ｙ＾及び入力変数ｘ＾の集合Ｘと、ハイパーパラメータΩとに基づいて、入力部５により受け付けた予測対象の楽譜データから、楽譜データに対応する歌声を示す音響信号の音量軌跡を予測する。演算部７は、予測用音符コンテキスト抽出部７０と、予測分布計算部７２と、音量軌跡生成部７４とを備えている。

予測用音符コンテキスト抽出部７０は、音符コンテキスト抽出部２４と同様に、入力部５により受け付けた予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数~ｘ_ｔ＾の集合~Ｘを抽出する。

予測分布計算部７２は、各時刻ｔについて、パラメータデータベース６に記憶されたモデルパラメータΘ、ハイパーパラメータΩ、音量軌跡ｙ＾、及び入力変数ｘ＾の集合Ｘと、予測用音符コンテキスト抽出部７０によって抽出された時刻ｔの入力変数ｘ_＊＾とに基づいて、時刻ｔの音量の予測分布を計算する。具体的には、予測分布計算部７２は、パラメータデータベース６に格納された学習データ｛ｘ_ｔ＾，ｙ_ｔ｝^Ｔ _ｔ＝１、インジケータ変数集合｛ｚ_ｔ｝^Ｔ _ｔ＝１、モデルパラメータΘ、及びハイパーパラメータΩを用い、各時刻の~ｘ_ｔ＾をｘ_＊として、上記式（２２）から、予測分布の平均と分散を計算する。

音量軌跡生成部７４は、各時刻ｔについて、予測分布計算部７２によって計算された時刻ｔの音量の予測分布に従って、時刻ｔの音量を予測することにより、音量軌跡~ｙ_ｔを生成する。具体的には、音量軌跡生成部７４では、各時刻の予測分布から音量~ｙ_ｔをサンプリングして、音量軌跡を生成し、出力する。なお、別の生成方法として、予測分布の平均値そのものを~ｙ_ｔとしてもよい。

出力部８は、音量軌跡生成部７４によって生成された音量軌跡を出力する。

＜音響信号分析装置の作用＞
次に、本実施の形態に係る音響信号分析装置１００の作用について説明する。まず、歌声を示す音響信号と当該音響信号に対応する楽譜データとを含んで構成される学習用データが、解析用入力部１により音響信号分析装置１００に入力されると、学習データベース２０に格納され、図５に示すモデルパラメータ推定処理ルーチンが実行される。

まず、ステップＳ１００において、音量抽出部２２によって、上記式（３）に従って、学習データベース２０に格納された歌声を示す音響信号から、音量軌跡ｙ＾を抽出する。

次に、ステップＳ１０２において、音符コンテキスト抽出部２４によって、上記式（２）に従って、学習データベース２０に格納された楽譜データから、各音符のコンテキストデータを表す入力変数ｘ＾の集合Ｘを抽出する。

ステップＳ１０４において、パラメータ初期値生成部２６によって、各時刻ｔについてのインジケータ変数ｚ_tの初期値を生成すると共に、状態ｒの各々に対する入力変数空間パラメータθ_ｒ ^ｘと、状態ｒの各々に対するガウス過程パラメータθ_ｒ ^ＧＰとを含んで構成されるモデルパラメータの初期値を生成する。

ステップＳ１０６において、ガウス過程パラメータ推論部３０によって、状態ｒの各々について、状態ｒに関する音量軌跡ｙ＾_ｒ、及び上記ステップＳ１０４で生成された入力変数空間パラメータθ_ｒ ^ｘの初期値または後述するステップＳ１１０で前回更新された入力変数空間パラメータθ_ｒ ^ｘに基づいて、上記（３３）式に従って、完全データの自己相関の条件付き期待値を計算する。そして、状態ｒの各々について、ガウス過程パラメータ推論部３０によって、計算された完全データの自己相関の条件付き期待値と、上記ステップＳ１０４で生成されたガウス過程パラメータθ_ｒ ^ＧＰの初期値または本ステップＳ１０６で前回更新されたガウス過程パラメータθ_ｒ ^ＧＰとに基づいて、上記式（３５）、及び（３６）に従って、ガウス過程パラメータθ_ｒ ^ＧＰを更新する。状態ｒの各々について、上記の完全データの自己相関の条件付き期待値の計算、及びガウス過程パラメータθ_ｒ ^ＧＰの更新を繰り返して、ガウス過程パラメータθ_ｒ ^ＧＰを推論する。

ステップＳ１０８において、インジケータ変数推論部３２によって、各時刻ｔについて、上記ステップＳ１０４で初期値として生成された、又は本ステップＳ１０８で前回更新された各時刻ｔのインジケータ変数ｚ_ｔ、上記ステップＳ１００で抽出された、音量軌跡ｙ＾、及び入力変数の集合Ｘ、上記ステップＳ１０４で初期値として生成された又は後述するステップＳ１１０で前回更新された各状態ｒの入力変数空間パラメータθ_ｒ ^ｘ、並びに上記ステップＳ１０６で推論された各状態ｒのガウス過程パラメータθ_ｒ ^ＧＰに基づいて、インジケータ変数ｚ_ｔの各状態ｒが割り当てられる事後分布を、上記式（２５）に従って算出し、算出した事後分布に従って、インジケータ変数ｚ_ｔを推論する。

ステップＳ１１０において、入力変数空間パラメータ推論部３４によって、状態ｒの各々について、上記ステップＳ１０８で推論されたインジケータ変数ｚ_ｔに基づいて得られる、状態ｒに関する入力変数ｘ＾の集合Ｘ_ｒに基づいて、上記式（２３）、及び（２４）に従って、入力変数空間パラメータθ_ｒ ^ｘを推論する。

ステップＳ１１２において、収束判定部３６によって、上記ステップＳ１００で抽出された音量軌跡ｙ＾と、上記ステップＳ１０２で抽出された入力変数ｘ＾の集合Ｘと、上記ステップＳ１０６で推論されたガウス過程パラメータθ_ｒ ^ＧＰと、上記ステップＳ１０８で推論されたインジケータ変数ｚ_ｔと、上記ステップ１１０で推論された入力変数空間パラメータθ_ｒ ^ｘとに基づいて、上記式（８）の同時分布の値を計算し、今回の本ステップで計算された同時分布の値と、前回の本ステップで計算された同時分布の値との誤差が、所定の閾値以下であれば、収束したと判定する。収束したと判定された場合には、ステップＳ１１４へ進む。一方、収束していないと判定された場合には、ステップＳ１０６へ戻り、上記ステップＳ１０６〜Ｓ１１０の処理を繰り返す。

ステップＳ１１４において、パラメータ出力部３によって、上記ステップＳ１０６及び上記ステップＳ１１０で最終的に更新されたモデルパラメータΘと、パラメータ初期値生成部２６で設定されたハイパーパラメータΩと、学習データベース２０に格納された学習用データの、音量軌跡ｙ＾及び入力変数ｘ＾の集合Ｘとをパラメータデータベース４へ格納して、モデルパラメータ推定処理ルーチンを終了する。

＜音量軌跡予測装置の作用＞
次に、本実施の形態に係る音量軌跡予測装置２００の作用について説明する。まず、音響信号分析装置１００のパラメータデータベース４に格納されているモデルパラメータΘ、ハイパーパラメータΩ、並びに学習用データの、音量軌跡ｙ＾及び入力変数ｘ＾の集合Ｘが、音量軌跡予測装置２００に入力されると、入力部５によって、パラメータデータベース６へ格納される。そして、予測対象の楽譜データが音量軌跡予測装置２００に入力されると、音量軌跡予測装置２００によって、図６に示す予測処理ルーチンが実行される。

まず、ステップＳ２００において、予測用音符コンテキスト抽出部７０によって、入力部５により受け付けた予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数~ｘ_ｔ＾の集合~Ｘを抽出する。

次に、ステップＳ２０２において、パラメータデータベース４に格納されているモデルパラメータΘ、ハイパーパラメータΩ及び学習用データの、音量軌跡ｙ＾及び入力変数ｘ＾の集合Ｘを読み込む。

次に、ステップＳ２０４において、予測分布計算部７２によって、上記式（２２）に従って、各時刻ｔについて、パラメータデータベース６に記憶されたモデルパラメータΘ、音量軌跡ｙ＾、及び入力変数ｘ＾の集合Ｘと、上記ステップＳ２００で抽出された時刻ｔの入力変数~ｘ_ｔ＾とに基づいて、時刻ｔの音量の予測分布を計算する。

ステップＳ２０６において、音量軌跡生成部７４によって、各時刻ｔについて、上記ステップＳ２０４で計算された時刻ｔの音量の予測分布に従って、時刻ｔの音量を予測することにより、音量軌跡~ｙ_ｔを生成する。

ステップＳ２０８において、上記ステップＳ２０６で生成された音量軌跡を結果として出力して、予測処理ルーチンを終了する。

以上説明したように、第１の実施の形態の音響信号分析装置１００によれば、状態ｒの各々について、インジケータ変数ｚ_ｔに状態ｒが割り当てられた各時刻ｔの音量を含んで構成される音量軌跡ｙ＾_ｒ、及び入力変数空間パラメータθ_ｒ ^ｘに基づいて、音量軌跡ｙ＾_ｒと、ガウス過程パラメータθ_ｒ ^ＧＰとが与えられたときの、音量軌跡ｙ＾_ｒを分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ_r，ｍと確率変数ｕ_{r，Ｍ＋１}との組からなる完全データの自己相関の条件付き期待値を計算し、計算された完全データの自己相関の条件付き期待値を用いて表わされる、完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、目的関数をガウス過程パラメータθ_ｒ ^ＧＰに関して最大化するようにガウス過程パラメータθ_ｒ ^ＧＰを更新することを繰り返して、ガウス過程パラメータθ_ｒ ^ＧＰを推論することにより、音量軌跡を精度よく予測するためのモデルパラメータを得ることができる。

また、歌声を示す音響信号の音量軌跡とその楽譜データが与えられた下で、入力変数空間をいくつかの状態にクラスタリングするための入力変数空間パラメータ｛θ_１ ^ｘ, . . . , θ_Ｒ ^ｘ｝をサンプリングにより決定し、各時刻の入力変数と出力変数の組み合わせ｛ｘ_ｔ＾, ｙ_ｔ｝^Ｔ _ｔ＝１がどの状態に属するかを表すインジケータ変数｛ｚ_ｔ｝^Ｔ _ｔ＝１をサンプリングにより決定し、状態ごとに、そこに属する入力変数の集合Ｘ_ｒから音量軌跡ｙ_ｒ＾を回帰するためのガウス過程パラメータ｛θ_１ ^ＧＰ, . . . , θ_Ｒ ^ＧＰ｝をＥＭアルゴリズムにより推定することを、予め定められた収束条件を満たすまで繰り返し行い、これらのパラメータを出力することにより、歌声の音量軌跡から、そこに含まれる音量の動特性（ダイナミクス）を精度よく推定することができる。

また、第１の実施の形態の音量軌跡予測装置２００によれば、音響信号分析装置によって出力されたモデルパラメータに基づいて算出される、時刻ｔの音量の予測分布を計算し、計算された時刻ｔの音量の予測分布に従って、時刻ｔの音量を予測して音量軌跡ｙ＾を生成することにより、音量軌跡を精度よく予測することができる。

また、学習されたモデルパラメータと予測対象の楽譜データが与えられたとき、学習用データに含まれる音量の動特性を反映するような、新たな音量軌跡を、精度よく予測することができる。

〔第２の実施の形態〕
＜音響信号分析装置のシステム構成＞
次に、第２の実施の形態に係る音響信号分析装置３００について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第２の実施の形態では、入力変数空間をいくつかの状態に分けることなくモデルパラメータを推論する点が、第１の実施の形態と異なっている。すなわち、入力変数空間は１つの状態であるとみなし、状態の数Ｒが１となる。したがって、第２の実施の形態は、インジケータ変数推論部３２を省略した構成となる。

図７に示すように、第２の実施の形態に係る音響信号分析装置３００のモデルパラメータ推論部２８２は、第１の実施の形態と比較して、インジケータ変数推論部３２を備えていない。

第２の実施の形態に係る音響信号分析装置３００のパラメータ初期値生成部２６２は、入力変数空間パラメータθ_１ ^ｘと、入力変数ｘ＾の集合Ｘから音量軌跡ｙ＾を回帰するためのガウス過程におけるカーネル関数のパラメータθ_１ ^ＧＰとを含んで構成されるモデルパラメータの初期値を生成する。

ガウス過程パラメータ推論部３０２は、音量軌跡ｙ＾、及び入力変数空間パラメータθ_１ ^ｘの初期値または後述する入力変数空間パラメータ推論部３４２によって前回更新された入力変数空間パラメータθ_１ ^ｘに基づいて、音量軌跡ｙ＾と、ガウス過程パラメータθ_１ ^ＧＰとが与えられたときの、音量軌跡ｙ＾を分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ_１，ｍと確率変数ｕ_{１，Ｍ＋１}との組を含んで構成される完全データの自己相関の条件付き期待値を計算する。そして、計算された完全データの自己相関の条件付き期待値を用いて表わされる、完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、ガウス過程パラメータθ_１ ^ＧＰの初期値またはガウス過程パラメータ推論部３０２によって前回更新されたガウス過程パラメータθ_１ ^ＧＰに基づいて、目的関数をガウス過程パラメータθ_１ ^ＧＰに関して最大化するようにガウス過程パラメータθ_１ ^ＧＰを更新することを繰り返して、ガウス過程パラメータθ_１ ^ＧＰを推論する。

入力変数空間パラメータ推論部３４２は、入力変数ｘ＾の集合Ｘに基づいて、入力変数空間パラメータθ_１ ^ｘを推論する。

なお、第２の実施の形態に係る音響信号分析装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、第２の実施の形態の音響信号分析装置３００によれば、音量軌跡ｙ＾と、ガウス過程パラメータθ_１ ^ＧＰとが与えられたときの、音量軌跡ｙ＾を分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ_１，ｍと確率変数ｕ_{１，Ｍ＋１}との組からなる完全データの自己相関の条件付き期待値を計算し、計算された完全データの自己相関の条件付き期待値を用いて表わされる、完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、目的関数をガウス過程パラメータθ_１ ^ＧＰに関して最大化するようにガウス過程パラメータθ_１ ^ＧＰを更新することを繰り返して、ガウス過程パラメータθ_１ ^ＧＰを推論することにより、音量軌跡を精度よく予測するためのモデルパラメータを得ることができる。

＜実験結果＞
次に、本発明の実施の形態による音響信号分析装置を用いた実験結果を以下に説明する。ここでは、上記の実施の形態を実装して、新規のメロディの楽譜が与えられた時に、その音量軌跡を予測生成した結果を評価する。

Ｊ‐ｐｏｐに分類される合計４曲のサビの部分を歌った歌声（総時間３３．９秒）を学習用データとして使った。この学習用データの音量軌跡とそれに同期する楽譜を使って、パラメータデータベース４に推定されたパラメータを格納する。図８は、学習データにおける２曲の楽譜を用いて、上記図４の音量軌跡予測装置２００によって、音量軌跡を予測生成した結果である。これは、学習データの楽譜を入力するため、クローズドの評価であるが、パラメータの推定性能を定性的に確かめるために行った。実線は学習データにおける２曲の各々の音量軌跡を示し、鎖線はその楽譜を入力として、各時刻の音量軌跡の予測分布を計算し、その平均値の軌跡を図示した結果である。おおよそではあるが、鎖線が実線に近い値を予測できていることがわかる。図９は、学習に用いていない２曲の出だしのメロディの楽譜を入力とし、パラメータデータベース４に格納されたパラメータを使って、上記図４の音量軌跡予測装置２００によって処理を行なった結果である。ハイパーパラメータの調整がまだ充分でないため、学習データに出現しない音符に対して、その音量を予測することが難しいが、鎖線の全体的な軌跡は実線の音量軌跡に近いため、今後に期待できる結果が得られたと考える。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、パラメータデータベース４、６及び学習データベース２０は、外部に設けられ、音響信号分析装置及び音量軌跡予測装置とネットワークで接続されていてもよい。

また、上記実施の形態では、音響信号分析装置と音量軌跡予測装置とを別々の装置として構成する場合を例に説明したが、響信号分析装置と音量軌跡予測装置とを１つの装置として構成してもよい。

上述の音響信号分析装置及び音量軌跡予測装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１解析用入力部
２解析用演算部
３パラメータ出力部
４、６パラメータデータベース
５入力部
７演算部
８出力部
２０学習データベース
２２音量抽出部
２４音符コンテキスト抽出部
２６パラメータ初期値生成部
２８モデルパラメータ推論部
３０ガウス過程パラメータ推論部
３２インジケータ変数推論部
３４入力変数空間パラメータ推論部
３６収束判定部
７０予測用音符コンテキスト抽出部
７２予測分布計算部
７４音量軌跡生成部
１００、３００音響信号分析装置
２００音量軌跡予測装置
２６２パラメータ初期値生成部
２８２モデルパラメータ推論部
３０２ガウス過程パラメータ推論部
３４２入力変数空間パラメータ推論部

Claims

入力された歌声を示す音響信号から音量軌跡ｙ＾を抽出する音量抽出部と、
入力された楽譜データから、各音符のコンテキストデータを表す入力変数ｘ＾の集合Ｘを抽出する音符コンテキスト抽出部と、
前記入力変数ｘ＾の空間におけるガウス分布のパラメータθ_１ ^ｘと、前記入力変数ｘ＾の集合Ｘから音量軌跡ｙ＾を回帰するためのガウス過程におけるカーネル関数のパラメータを表すガウス過程パラメータθ _１ ^ＧＰであり、かつ前記音量軌跡ｙ＾を分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ _１，ｍの分布を表すパラメータである、カーネル関数の強度ｗ _１ ^２及びｍ番目のカーネル関数の優勢度ψ _１，ｍと、確率変数ｕ _{１，Ｍ＋１} の分布を表すパラメータである、観測ノイズの分散パラメータη _１ ^２とを含む前記ガウス過程パラメータθ _１ ^ＧＰとからなるモデルパラメータの初期値を生成するパラメータ初期値生成部と、
前記音量軌跡ｙ＾、及び前記ガウス分布のパラメータθ_１ ^ｘの初期値または前回更新された前記ガウス分布のパラメータθ_１ ^ｘに基づいて、前記音量軌跡ｙ＾と、前記ガウス過程パラメータθ_１ ^ＧＰとが与えられたときの、前記音量軌跡ｙ＾を分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ_１，ｍと確率変数ｕ_{１，Ｍ＋１}との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ_１ ^ＧＰの初期値または前回更新された前記ガウス過程パラメータθ_１ ^ＧＰに基づいて、前記目的関数を前記ガウス過程パラメータθ_１ ^ＧＰに関して最大化するように前記ガウス過程パラメータθ_１ ^ＧＰを更新することを繰り返して、前記ガウス過程パラメータθ_１ ^ＧＰを推論するガウス過程パラメータ推論部と、
前記入力変数ｘ＾の集合Ｘに基づいて、前記ガウス分布のパラメータθ_１ ^ｘを推論する入力変数空間パラメータ推論部と、
前記音量軌跡ｙ＾、前記入力変数の集合Ｘ、前記推論された前記ガウス過程パラメータθ_１ ^ＧＰ、及び前記推論された前記ガウス分布のパラメータθ_１ ^ｘに基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返す収束判定部と、
前記収束判定部により前記差分の絶対値が、閾値以下になったと判定された場合に、前記モデルパラメータを出力するパラメータ出力部と、
音響信号分析装置。
インジケータ推論部を更に含み、
前記パラメータ初期値生成部は、各時刻ｔについて割り当てられた、前記入力変数ｘ＾の空間におけるＲ個の状態ｒのうちの何れかを示すインジケータ変数ｚ_tの初期値を生成すると共に、前記入力変数ｘ＾の空間の前記Ｒ個の状態ｒの各々に対する前記ガウス分布のパラメータθ_ｒ ^ｘと、前記Ｒ個の状態ｒの各々に対する前記ガウス過程におけるカーネル関数のパラメータを表すガウス過程パラメータθ _ｒ ^ＧＰであり、かつ前記音量軌跡ｙ＾を分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ _ｒ，ｍの分布を表すパラメータである、カーネル関数の強度ｗ _ｒ ^２及びｍ番目のカーネル関数の優勢度ψ _ｒ，ｍと、確率変数ｕ _{ｒ，Ｍ＋１} の分布を表すパラメータである、観測ノイズの分散パラメータη _ｒ ^２とを含む前記ガウス過程パラメータθ _ｒ ^ＧＰとからなる前記モデルパラメータの初期値を生成し、
前記ガウス過程パラメータ推論部は、
前記状態ｒの各々について、
前記インジケータ変数ｚ_ｔに前記状態ｒが割り当てられた各時刻ｔの音量からなる前記音量軌跡ｙ＾_ｒ、及び前記ガウス分布のパラメータθ_ｒ ^ｘの初期値または前回更新された前記ガウス分布のパラメータθ_ｒ ^ｘに基づいて、前記音量軌跡ｙ＾_ｒと、前記ガウス過程パラメータθ_ｒ ^ＧＰとが与えられたときの、前記音量軌跡ｙ＾_ｒを分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ_r，ｍと確率変数ｕ_{r，Ｍ＋１}との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ_ｒ ^ＧＰの初期値または前回更新された前記ガウス過程パラメータθ_ｒ ^ＧＰに基づいて、前記目的関数を前記ガウス過程パラメータθ_ｒ ^ＧＰに関して最大化するように前記ガウス過程パラメータθ_ｒ ^ＧＰを更新することを繰り返して、前記ガウス過程パラメータθ_ｒ ^ＧＰを推論し、
前記インジケータ推論部は、各時刻ｔについて、各時刻ｔのインジケータ変数ｚ_ｔ、前記音量軌跡ｙ＾、前記入力変数の集合Ｘ、各状態ｒの前記ガウス分布のパラメータθ_ｒ ^ｘに、各状態ｒの前記ガウス過程パラメータθ_ｒ ^ＧＰに基づく、前記インジケータ変数ｚ_ｔの各状態ｒが割り当てられる確率分布に従って、前記インジケータ変数ｚ_ｔを推論し、
前記入力変数空間パラメータ推論部は、
前記状態ｒの各々について、前記インジケータ変数ｚ_ｔに前記状態ｒが割り当てられた各時刻ｔの前記入力変数ｘ＾の集合Ｘ_ｒに基づいて、前記ガウス分布のパラメータθ_ｒ ^ｘを推論し、
前記収束判定部は、前記音量軌跡ｙ＾、前記入力変数の集合Ｘ、前記推論された各時刻ｔの前記インジケータ変数ｚ_ｔ、前記推論された各状態ｒの前記ガウス過程パラメータθ_ｒ ^ＧＰ、及び前記推論された各状態ｒの前記ガウス分布のパラメータθ_ｒ ^ｘに基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返す請求項１記載の音響信号分析装置。
請求項１又は２記載の音響信号分析装置と、
前記音響信号分析装置によって出力された前記モデルパラメータと、前記抽出された音量軌跡ｙ＾及び前記入力変数ｘ＾の集合Ｘを記憶したパラメータデータベースと、
入力された予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数ｘ＾の集合Ｘを抽出する予測用音符コンテキスト抽出部と、
各時刻ｔについて、前記パラメータデータベースに記憶された前記モデルパラメータ、前記音量軌跡ｙ＾、及び前記入力変数ｘ＾の集合Ｘと、前記予測用音符コンテキスト抽出部によって抽出された時刻ｔの前記入力変数ｘ＾とに基づいて算出される、時刻ｔの音量の予測分布を計算する予測分布計算部と、
各時刻ｔについて、前記予測分布計算部によって計算された時刻ｔの音量の予測分布に従って、時刻ｔの音量を予測することにより、音量軌跡ｙ＾を生成する音量軌跡生成部と、
を含む音量軌跡予測装置。
音量抽出部、音符コンテキスト抽出部、パラメータ初期値生成部、ガウス過程パラメータ推論部、入力変数空間パラメータ推論部、収束判定部、及びパラメータ出力部を含む音響信号分析装置における音響信号分析方法であって、
前記音量抽出部によって、入力された歌声を示す音響信号から音量軌跡ｙ＾を抽出するステップと、
前記音符コンテキスト抽出部によって、入力された楽譜データから、各音符のコンテキストデータを表す入力変数ｘ＾の集合Ｘを抽出するステップと、
前記パラメータ初期値生成部によって、前記入力変数ｘ＾の空間におけるガウス分布のパラメータθ_１ ^ｘと、前記入力変数ｘ＾の集合Ｘから音量軌跡ｙ＾を回帰するためのガウス過程におけるカーネル関数のパラメータを表すガウス過程パラメータθ _１ ^ＧＰであり、かつ前記音量軌跡ｙ＾を分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ _１，ｍの分布を表すパラメータである、カーネル関数の強度ｗ _１ ^２及びｍ番目のカーネル関数の優勢度ψ _１，ｍと、確率変数ｕ _{１，Ｍ＋１} の分布を表すパラメータである、観測ノイズの分散パラメータη _１ ^２とを含む前記ガウス過程パラメータθ _１ ^ＧＰとからなるモデルパラメータの初期値を生成するステップと、
前記ガウス過程パラメータ推論部によって、前記音量軌跡ｙ＾、及び前記ガウス分布のパラメータθ_１ ^ｘの初期値または前回更新された前記ガウス分布のパラメータθ_１ ^ｘに基づいて、前記音量軌跡ｙ＾と、前記ガウス過程パラメータθ_１ ^ＧＰとが与えられたときの、前記音量軌跡ｙ＾を分解したＭ個のカーネル関数に対するＭ個の確率変数ｕ_１，ｍと確率変数ｕ_{１，Ｍ＋１}との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ_１ ^ＧＰの初期値または前回更新された前記ガウス過程パラメータθ_１ ^ＧＰに基づいて、前記目的関数を前記ガウス過程パラメータθ_１ ^ＧＰに関して最大化するように前記ガウス過程パラメータθ_１ ^ＧＰを更新することを繰り返して、前記ガウス過程パラメータθ_１ ^ＧＰを推論するステップと、
前記入力変数空間パラメータ推論部によって、前記入力変数ｘ＾の集合Ｘに基づいて、前記ガウス分布のパラメータθ_１ ^ｘを推論するステップと、
前記収束判定部によって、前記音量軌跡ｙ＾、前記入力変数の集合Ｘ、前記推論された前記ガウス過程パラメータθ_１ ^ＧＰ、及び前記推論された前記ガウス分布のパラメータθ_１ ^ｘに基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返すステップと、
前記パラメータ出力部によって、前記収束判定部により前記差分の絶対値が、閾値以下になったと判定された場合に、前記モデルパラメータを出力するステップと、
を含む音響信号分析方法。
請求項４に記載の音響信号分析方法の各ステップを含み、
前記音響信号分析方法によって出力された前記モデルパラメータと、前記抽出された音量軌跡ｙ＾及び前記入力変数ｘ＾の集合Ｘを記憶したパラメータデータベース、予測用音符コンテキスト抽出部、予測分布計算部、及び音量軌跡生成部を含む音量軌跡予測装置における音量軌跡予測方法であって、
前記予測用音符コンテキスト抽出部によって、入力された予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数ｘ＾の集合Ｘを抽出するステップと、
前記予測分布計算部によって、各時刻ｔについて、前記パラメータデータベースに記憶された前記モデルパラメータ、前記音量軌跡ｙ＾、及び前記入力変数ｘ＾の集合Ｘと、前記予測用音符コンテキスト抽出部によって抽出された時刻ｔの前記入力変数ｘ＾とに基づいて算出される、時刻ｔの音量の予測分布を計算するステップと、
前記音量軌跡生成部によって、各時刻ｔについて、前記予測分布計算部によって計算された時刻ｔの音量の予測分布に従って、時刻ｔの音量を予測することにより、音量軌跡ｙ＾を生成するステップと、
を含む音量軌跡予測方法。
コンピュータを、請求項１又は２に記載の音響信号分析装置の各部として機能させるためのプログラム。
コンピュータを、請求項３に記載の音量軌跡予測装置の各部として機能させるためのプログラム。