JP6101599B2 - 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム - Google Patents

音響信号分析装置、音量軌跡予測装置、方法、及びプログラム Download PDF

Info

Publication number
JP6101599B2
JP6101599B2 JP2013169970A JP2013169970A JP6101599B2 JP 6101599 B2 JP6101599 B2 JP 6101599B2 JP 2013169970 A JP2013169970 A JP 2013169970A JP 2013169970 A JP2013169970 A JP 2013169970A JP 6101599 B2 JP6101599 B2 JP 6101599B2
Authority
JP
Japan
Prior art keywords
parameter
volume
gaussian process
distribution
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013169970A
Other languages
English (en)
Other versions
JP2015038586A (ja
Inventor
康智 大石
康智 大石
弘和 亀岡
弘和 亀岡
柏野 邦夫
邦夫 柏野
大地 持橋
大地 持橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013169970A priority Critical patent/JP6101599B2/ja
Publication of JP2015038586A publication Critical patent/JP2015038586A/ja
Application granted granted Critical
Publication of JP6101599B2 publication Critical patent/JP6101599B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

本発明は、音響信号分析装置、音量軌跡予測装置、方法、及びプログラムに係り、特に、音響信号及び楽譜データからモデルパラメータを推論する音響信号分析装置、方法、及びプログラム、並びに、楽譜データから音量軌跡を予測する音量軌跡予測装置、方法、及びプログラムに関する。
楽曲のメロディを歌った歌声の音量軌跡には、図10に示すように、様々な動特性が見られる。これらは、発声器官の物理的制約に起因する成分(特に、細かい変動成分)や意図的表現による成分(特に、ビブラートの振動に同期して音量を振動させたり、滑らかに音量を減衰させたり、急激に音量を増加させたりする動作よって生じる成分)からなると考えられ、知覚的には、前者は人間らしさ・自然性に関係し、後者は巧拙感に関係すると考えられる。このような物理的制約もしくは意図的表現による、楽譜に書かれていない動特性を楽譜のコンテキスト(例えば、音符の音高や音長、クレッシェンドなどの演奏記号など)と対応付けて抽出できれば、歌唱者の歌い方や個性、癖を学習することにつながり、現在盛んに研究される歌声合成や歌声変換などへの応用が期待できる。例えば、ある歌声を別の歌唱者の歌い方(音量の変化パターン)に変換して合成することが可能となる。従来と違って、事前に歌唱者の歌い方が学習されるため、どんなメロディの楽譜が与えられても、その歌い方を転写できることを特長とする。
隠れマルコフモデル(HMM)に基づく音声合成では、各フレームに付与された様々なコンテキストに基づいて、そのコンテキスト区間の音響特徴量(音量もその一つである)を、例えば5状態のHMMで表現した。物理モデルに基づいて、音量軌跡の動特性を楽譜と対応付けて詳細にモデル化する研究はほとんど行われていないが、基本周波数(F0)軌跡の動特性をモデル化する試みがなされている。従来は、線形2次系システムを利用して歌声のF0軌跡に含まれる動特性を制御するモデルが提案された(例えば、非特許文献1)。これらの研究では、日本語の話声のF0パターンを表現する藤崎モデルを参考にし、2次系の伝達関数
における減衰率ζを調整することによって、図11に示すように、指数減衰(ζ >1)、減衰振動(0<ζ<1、オーバーシュートに対応する)、臨界制動(ζ=1)、定常振動(ζ=0、ビブラートに対応する)からなる様々な振動現象を表現する。非特許文献1では、観測されるF0軌跡からモデルパラメータ(伝達関数のパラメータ)を精度よく推定する逆問題の解法が提案された。
また、非特許文献2では、ガウス過程を用いて、コンテキストから音響特徴量への回帰によって、動的特徴量や木構造のクラスタリングを用いずに、音響特徴量の動特性を直接表現している。
Yasunori Ohishi, Hirokazu Kameoka, Daichi Mochihashi, Kunio Kashino、「A Stochastic Model of Singing Voice F0 Contours for Characterizing Expressive DynamicComponents」、In Proc. International Conference on Spoken Language Processing (INTERSPEECH2012)、Sep.2012. Tomoki Koriyama, Takashi Nose, Takao Kobayashi、「Frame-level Acoustic Modeling based on Gaussian Process Regression for Statistical Nonparametric Speech Synthesis」、In Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP2013)、June.2013
しかし、HMM音声合成における問題点の一つに、状態内で出力確率分布が一定であるというHMMの制約がある。この制約のために短時間に細かく変化する音響特徴量を、固定された状態数と局所的な動的特徴量で表現することは難しい。また、HMM音声合成では未知のコンテキストに対して頑健なモデルを構築するために木構造に基づくクラスタリングを行うが、クラスタリングにおける平均化処理のために、実際に生成される音響特徴量が過剰に平滑化されるという問題が起きる。また、非特許文献2では、ガウス過程を用いて、コンテキストから音響特徴量への回帰によって、動的特徴量や木構造のクラスタリングを用いずに、音響特徴量の動特性を直接表現するが、単一のガウス過程であるため、図10に見られる、多様に変化する動特性は表現できないと考える。非特許文献1のF0生成モデルをそのまま音量軌跡に適用することも考えられるが、図11と比較すると、図10の音量軌跡は、もはや線形二次系からは逸脱した動特性であると考えられる。
本発明は、上記の事情を鑑みてなされたもので、音量軌跡を精度よく予測するためのモデルパラメータを得ることができる音響信号分析装置、方法、及びプログラムを提供することを目的とする。
また、音量軌跡を精度よく予測することができる音量軌跡予測装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る音響信号分析装置は、入力された歌声を示す音響信号から音量軌跡y^を抽出する音量抽出部と、入力された楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出する音符コンテキスト抽出部と、前記入力変数x^の空間におけるガウス分布のパラメータθ と、前記入力変数x^の集合Xから音量軌跡y^を回帰するためのガウス過程におけるカーネル関数のパラメータθ GPとからなるモデルパラメータの初期値を生成するパラメータ初期値生成部と、前記音量軌跡y^、及び前記ガウス分布のパラメータθ の初期値または前回更新された前記ガウス分布のパラメータθ に基づいて、前記音量軌跡y^と、前記ガウス過程パラメータθ GPとが与えられたときの、前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u1,mと確率変数u1,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ GPの初期値または前回更新された前記ガウス過程パラメータθ GPに基づいて、前記目的関数を前記ガウス過程パラメータθ GPに関して最大化するように前記ガウス過程パラメータθ GPを更新することを繰り返して、前記ガウス過程パラメータθ GPを推論するガウス過程パラメータ推論部と、前記入力変数x^の集合Xに基づいて、前記ガウス分布のパラメータθ を推論する入力変数空間パラメータ推論部と、前記音量軌跡y^、前記入力変数の集合X、前記推論された前記ガウス過程パラメータθ GP、及び前記推論された前記ガウス分布のパラメータθ に基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返す収束判定部と、前記収束判定部により前記差分の絶対値が、閾値以下になったと判定された場合に、前記モデルパラメータを出力するパラメータ出力部と、を含んで構成されている。
本発明に係る音響信号分析方法は、音量抽出部、音符コンテキスト抽出部、パラメータ初期値生成部、ガウス過程パラメータ推論部、入力変数空間パラメータ推論部、収束判定部、及びパラメータ出力部を含む音響信号分析装置における音響信号分析方法であって、前記音量抽出部によって、入力された歌声を示す音響信号から音量軌跡y^を抽出するステップと、前記音符コンテキスト抽出部によって、入力された楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出するステップと、前記パラメータ初期値生成部によって、前記入力変数x^の空間におけるガウス分布のパラメータθ と、前記入力変数x^の集合Xから音量軌跡y^を回帰するためのガウス過程におけるカーネル関数のパラメータθ GPとからなるモデルパラメータの初期値を生成するステップと、前記ガウス過程パラメータ推論部によって、前記音量軌跡y^、及び前記ガウス分布のパラメータθ の初期値または前回更新された前記ガウス分布のパラメータθ に基づいて、前記音量軌跡y^と、前記ガウス過程パラメータθ GPとが与えられたときの、前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u1,mと確率変数u1,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ GPの初期値または前回更新された前記ガウス過程パラメータθ GPに基づいて、前記目的関数を前記ガウス過程パラメータθ GPに関して最大化するように前記ガウス過程パラメータθ GPを更新することを繰り返して、前記ガウス過程パラメータθ GPを推論するステップと、前記入力変数空間パラメータ推論部によって、前記入力変数x^の集合Xに基づいて、前記ガウス分布のパラメータθ を推論するステップと、前記収束判定部によって、前記音量軌跡y^、前記入力変数の集合X、前記推論された前記ガウス過程パラメータθ GP、及び前記推論された前記ガウス分布のパラメータθ に基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返すステップと、前記パラメータ出力部によって、前記収束判定部により前記差分の絶対値が、閾値以下になったと判定された場合に、前記モデルパラメータを出力するステップとを含む。
本発明の音響信号分析装置及び音響信号分析方法は、インジケータ推論部を更に含み、前記パラメータ初期値生成部は、各時刻tについて割り当てられた、前記入力変数x^の空間におけるR個の状態rのうちの何れかを示すインジケータ変数ztの初期値を生成すると共に、前記入力変数x^の空間の前記R個の状態rの各々に対する前記ガウス分布のパラメータθ と、前記R個の状態rの各々に対する前記ガウス過程におけるカーネル関数のパラメータθ GPとからなる前記モデルパラメータの初期値を生成し、前記ガウス過程パラメータ推論部は、前記状態rの各々について、前記インジケータ変数zに前記状態rが割り当てられた各時刻tの音量からなる前記音量軌跡y^、及び前記ガウス分布のパラメータθ の初期値または前回更新された前記ガウス分布のパラメータθ に基づいて、前記音量軌跡y^と、前記ガウス過程パラメータθ GPとが与えられたときの、前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数ur,mと確率変数ur,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ GPの初期値または前回更新された前記ガウス過程パラメータθ GPに基づいて、前記目的関数を前記ガウス過程パラメータθ GPに関して最大化するように前記ガウス過程パラメータθ GPを更新することを繰り返して、前記ガウス過程パラメータθ GPを推論し、前記インジケータ推論部は、各時刻tについて、各時刻tのインジケータ変数z、前記音量軌跡y^、前記入力変数の集合X、各状態rの前記ガウス分布のパラメータθ に、各状態rの前記ガウス過程パラメータθ GPに基づく、前記インジケータ変数zの各状態rが割り当てられる確率分布に従って、前記インジケータ変数zを推論し、前記入力変数空間パラメータ推論部は、前記状態rの各々について、前記インジケータ変数zに前記状態rが割り当てられた各時刻tの前記入力変数x^の集合Xに基づいて、前記ガウス分布のパラメータθ を推論し、前記収束判定部は、前記音量軌跡y^、前記入力変数の集合X、前記推論された各時刻tの前記インジケータ変数z、前記推論された各状態rの前記ガウス過程パラメータθ GP、及び前記推論された各状態rの前記ガウス分布のパラメータθ に基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返すようにすることができる。
本発明に係る音量軌跡予測装置は、上記の音響信号分析装置によって出力された前記モデルパラメータと、前記抽出された音量軌跡y^及び前記入力変数x^の集合Xを記憶したパラメータデータベースと、入力された予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出する予測用音符コンテキスト抽出部と、各時刻tについて、前記パラメータデータベースに記憶された前記モデルパラメータ、前記音量軌跡y^、及び前記入力変数x^の集合Xと、前記予測用音符コンテキスト抽出部によって抽出された時刻tの前記入力変数x^とに基づいて算出される、時刻tの音量の予測分布を計算する予測分布計算部と、各時刻tについて、前記予測分布計算部によって計算された時刻tの音量の予測分布に従って、時刻tの音量を予測することにより、音量軌跡y^を生成する音量軌跡生成部と、を含んで構成されている。
本発明に係る音量軌跡予測方法は、上記の音響信号分析装置によって出力された前記モデルパラメータと、前記抽出された音量軌跡y^及び前記入力変数x^の集合Xを記憶したパラメータデータベース、予測用音符コンテキスト抽出部、予測分布計算部、及び音量軌跡生成部を含む音量軌跡予測装置における音量軌跡予測方法であって、前記予測用音符コンテキスト抽出部によって、入力された予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出するステップと、前記予測分布計算部によって、各時刻tについて、前記パラメータデータベースに記憶された前記モデルパラメータ、前記音量軌跡y^、及び前記入力変数x^の集合Xと、前記予測用音符コンテキスト抽出部によって抽出された時刻tの前記入力変数x^とに基づいて算出される、時刻tの音量の予測分布を計算するステップと、前記音量軌跡生成部によって、各時刻tについて、前記予測分布計算部によって計算された時刻tの音量の予測分布に従って、時刻tの音量を予測することにより、音量軌跡y^を生成するステップと、を含む。
本発明に係る第1のプログラムは、コンピュータを、音響信号分析装置の各部として機能させるためのプログラムである。
本発明に係る第1のプログラムは、コンピュータを、音量軌跡予測装置の各部として機能させるためのプログラムである。
以上説明したように、本発明の音響信号分析装置、方法、及びプログラムによれば、音量軌跡y^、及びガウス分布のパラメータθ に基づいて、音量軌跡y^と、ガウス過程パラメータθ GPとが与えられたときの、音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数ur,mと確率変数ur,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された完全データの自己相関の条件付き期待値を用いて表わされる、完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、目的関数をガウス過程パラメータθ GPに関して最大化するようにガウス過程パラメータθ GPを更新することを繰り返して、ガウス過程パラメータθ GPを推論することにより、音量軌跡を精度よく予測するためのモデルパラメータを得ることができる、という効果が得られる。
また、本発明の音量軌跡予測装置、方法、及びプログラムによれば、音響信号分析装置によって出力されたモデルパラメータに基づいて算出される、時刻tの音量の予測分布を計算し、計算された時刻tの音量の予測分布に従って、時刻tの音量を予測して音量軌跡y^を生成することにより、音量軌跡を精度よく予測することができる、という効果が得られる。
本発明の実施の形態の原理を説明するための説明図である。 本発明の実施の形態の各パラメータのグラフィカルモデルを示す図である。 第1の実施の形態に係る音響信号分析装置の構成の一例を示す概略図である。 第1の実施の形態に係る音量軌跡予測装置の構成の一例を示す概略図である。 第1の実施の形態に係る音響信号分析装置におけるモデルパラメータ推定処理ルーチンの内容を示すフローチャートである。 第1の実施の形態に係る音量軌跡予測装置における予測処理ルーチンの内容を示すフローチャートである。 第2の実施の形態に係る音響信号分析装置の構成の一例を示す概略図である。 本実施の形態を用いた実験結果を示す第1の図である。 本実施の形態を用いた実験結果を示す第2の図である。 従来技術の概要を説明するための第1の説明図である。 従来技術の概要を説明するための第2の説明図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<概要>
本発明の実施の形態は、伴奏付きで歌った歌声とそのメロディの楽譜が同期して得られた下で、入力変数となる、楽譜に含まれる様々なコンテキスト(音符内の時刻や音符の音高や音長など)から、出力変数となる歌声の音量を回帰するための、入力変数空間をクラス(状態)に分類するためのガウス分布のパラメータ(以下、入力変数空間パラメータと称する。)、および、各入力変数がどのクラス(状態)に割り当てられるかを示すインジケータ変数、および、クラス(状態)ごとに入力変数から出力変数を回帰するためのガウス過程パラメータを抽出する。
本実施の形態では、カラオケのように、伴奏付きで歌った歌声とそのメロディの楽譜が与えられた下で、楽譜に含まれる様々なコンテキストから歌声の音量軌跡への回帰問題を考える。上記図10に示すように、メロディの楽譜(MIDIのノートナンバーに基づく音高とInteronset intervalに基づく音長からなる階段状軌跡)と音量軌跡が同期して得られたとする。回帰問題の入力変数は、楽譜における音符の音高や音長などのコンテキストを集めたベクトルである。一方、出力変数は歌声音響信号を短時間ごとに周波数分析して得られる音量値である。
上記図10を見ると、音量軌跡には様々な動特性が含まれる。音量が急激に上昇する区間もあれば、上下に振動する区間、緩慢に下降する区間などが観測される。本発明に係る実施の形態では、歌唱者はこのような動特性を生成する物理的な系をいくつか持っており、時々刻々とその系を遷移させながら音量を生成すると想定する。このような系の遷移を混合ガウス過程で表現することで、音符コンテキストから音量軌跡への回帰を考える。この回帰問題を解くことで(モデルパラメータを推定することで)、未知の楽譜が与えられた時に、その歌唱者が描くであろう音量軌跡を予測することが可能となる。
<原理>
次に、音量軌跡を予測するためのモデルパラメータを推定する原理について説明する。
(1.混合ガウス過程に基づく音量軌跡の生成過程モデル)
本実施の形態では、カラオケのように、伴奏付きで歌った歌声とそのメロディの楽譜が与えられた下で、楽譜に含まれる様々なコンテキストから歌声の音量軌跡への回帰問題を考える。上記図10に示すように、メロディの楽譜(MIDIのノートナンバーに基づく音高とInteronset intervalに基づく音長からなる階段状軌跡)と音量軌跡が同期して得られたとする。回帰問題の入力変数x^はメロディの楽譜から、例えば下記のように構成される。なお、記号に付された「^」は、当該記号が行列または多次元配列またはベクトルであることを表わしている。
^=[当該音符の発音開始時刻からの時間、 当該音符の音高、 当該音符の音長]
・・・(2)
ここで、tはサンプリング周期である。例えば、10msとする。もちろん、当該音符の発音停止時刻からの時間や、当該音符の前後の音符の音高や音長、クレッシェンド、デクレッシェンドのような演奏記号の有無など、様々なコンテキストを入力変数x^に加えることも可能である。一方、出力変数yである音量軌跡は下記の式を用いて計算される。
ここで、フレーム長は32ms、フレームシフト長は10msである。ハニング窓を用いて、歌声音響信号を短時間フーリエ変換して得られる振幅スペクトログラムを、|Y^|とする。FFTポイント数に相当するWを512とした。
上記図10を見ると、音量軌跡には様々な動特性が含まれる。音量が急激に上昇する区間もあれば、上下に振動する区間、緩慢に下降する区間などが観測される。本実施の形態では、歌唱者はこのような動特性を生成する物理的な系(状態)をいくつか持っており、時々刻々とその系を遷移させながら音量を生成するとみなす。このような系の遷移を考慮しながら、音符コンテキストから音量軌跡を生成するために、混合ガウス過程(参考文献1(E. Meeds and S.Osindero、「An alternative infinite mixture of Gaussian process experts」、in NIPS2006.)を参照)を利用する。
まずは、ガウス過程について説明する。ガウス過程は回帰分析やクラス分類などの教師あり学習に広く使用されているモデルであり、モデルの複雑さに対する柔軟性と過学習に対する頑健性を兼ね備えたノンパラメトリックベイズモデルとして知られている。入力変数x^に対する出力変数yがガウス過程に従うとき、出力変数全体からなるベクトルy^=[y, . . . , yの確率密度関数は次の多次元ガウス分布で表される。
ここで、GPはガウス過程を指し、K^はKi,j=k(x^,x^)を要素に持つグラム行列であり、k(x^,x^)は2変数間の相関を表すカーネル関数である。また、ηは出力変数に含まれる観測ノイズの分散パラメータ、I^は単位行列を表す。ガウス過程による回帰分析では未知の入力変数x^に対し、出力変数yの分布を予測できる。既に与えられている入力変数集合Xと新たな入力変数x^の相関を表すグラムベクトルk^を用いると、y^とyの同時分布は、
となる。ゆえに未知の出力変数yの予測分布は以下で与えられる。
ここで、出力変数yには観測ノイズを考慮しない。
ガウス過程による回帰分析のためにはカーネル関数の設計が必要である。カーネル関数に求められる条件はグラム行列が正定値対称行列となることであり、出力信号の定常性を仮定した下で、Squared exponential(SE)カーネル関数やRational Quadraticカーネル関数などを利用することが一般的である。しかしながら、上記図10より、音量軌跡は必ずしも定常であるとは言えず、先にも述べたとおり、いくつかの物理的な系(状態)を互いに遷移しながら、音量を生成するとみなせる。このような理由から、混合ガウス過程を利用することとした。
図1に示すように、混合ガウス過程では入力変数空間がいくつかの状態で構成される。状態ごとに異なるカーネル関数からなるガウス過程にしたがって、音量軌跡が生成される。これらの状態が様々な音量軌跡を生成するための物理的な系とみなされる。最終的には、これらの状態の混合モデルとして、音量軌跡が表現される。式で書くと、
となる。ここで、Rは状態の総数である。zは潜在変数であり、時刻tにおいて入力変数が割り当てられる状態のインデックスを表すため、インジケータ変数とも言える。Θはモデルパラメータであり、Ωはハイパーパラメータを表す。式(7)では、入力変数集合に対するあらゆる状態割り当てZ(T個の組合せ)に関して総和を計算する。ただし、ガウス過程は個々の出力変数が互いに独立であるわけでなく、時間的な依存関係があるため、この計算が困難になる。そこで、潜在変数zを周辺化することなく、直接、変数として扱う。混合ガウス過程に基づく音量軌跡の生成過程の流れは、下記の(1)〜(5)で表される。またグラフィカルモデルを図2に示す。
(1)ディリクレ−多項分布モデルを用いて、T個の入力変数をR個の状態のいずれかに割り当てる。入力変数の割り当ては集合{z} t=1によって表現される。
(2)状態rに割り当てられたインジケータ変数集合{z:z=r}が与えられた下で、入力変数空間における状態rの密度分布のパラメータθ ={μ^、Σ^}を生成する。ここでは、密度分布として、全共分散行列をもつガウス分布を想定する。
(3)分布のパラメータθ が与えられた下で、状態rに属する各々の入力変数集合X≡{x^:z=r}が生成される。
(4) 状態rごとに、ガウス過程におけるカーネル関数のパラメータθ GP(以下、ガウス過程パラメータと称する)が生成される。
(5) 最終的に、状態ごとに、入力変数集合Xとガウス過程パラメータθ GPを使って、ガウス過程のグラム行列が計算され、出力変数ベクトルy^≡ {y:z=r}が生成される。
このとき、完全同時分布は
式(8)における個々の分布を下記のように定義する。
ここで、αはディリクレ−多項分布モデルのハイパーパラメータ、Tは集合Xの要素数、I^はT×Tの単位行列、Wはウィシャート分布を表す。η は出力変数の観測ノイズを表現するための分散パラメータである。また、π^は多項分布のパラメータ、m^、β、W^、及びνはハイパーパラメータである。
グラム行列K^は集合Xにおける入力変数とガウス過程パラメータθ GPを用いて計算される。なお、グラム行列K^は、上記(4)式のグラム行列K^を混合ガウス過程に適用させるために拡張させたものである。本実施の形態では、単位の異なる様々な音符コンテキスト(音符内の時刻であったり、音符の音高や音長であったり)を扱うため、カーネル関数の工夫が必要である。つまり、上記参考文献のSEカーネルをそのまま流用することができない。
参考文献2(亀岡弘和, 大石康智, 持橋大地, ルルー・ジョナトン、「 マルチカーネル線形予測モデルによる音声分析」、Mar. 2010、日本音響学会2010年春季研究発表会講演論文集2-Q-24、p.499-502)を参考に、マルチカーネル学習の考え方に基づき、複数のカーネルの線形結合によって与えられるカーネル関数
を導入し、カーネル関数全体の強度w と各カーネルの優勢度ψr,mを推定すべき未知パラメータとみなす。ただし、
とする。Mは線形結合するカーネル関数の総数である。さらに、カーネル関数kr,m(x^,x^)を、位置の類似度を表す位置カーネルk(p) r,m(x (p)^,x (p)^)と音符の類似度を表す音符コンテキストカーネルk(c) r,m(x (c)^,x (c)^)を掛けあわせたものとする。
すなわち、入力変数ベクトルx^をx^=[x (p)T^,x (c)T^]のような二つのグループに分けて、音符内位置および音符のコンテキストを同時に考慮してカーネル関数を計算する。位置カーネルにはdiagonal squared exponential カーネルを利用する。
音符コンテキストカーネルにはfull squared exponential カーネルを利用する。ここで、Dはx (c)^の次元数である。また、l(p) は、カーネル関数に関するハイパーパラメータである。
上記より、推定すべき未知のモデルパラメータは、Θ={θ , . . . , θ , θ GP, . . . ,θ GP} と整理される。また、l(c) m、dは、カーネル関数に関するハイパーパラメータである。
ここで、θ ={μ^,Σ^}、θ GP={w ,ψr,1,...,ψr,M,η } である。一方、ハイパーパラメータはΩ={α,m^,W^,β,ν,l(p) ,...,l(p) ,l(c) 1,1,...,l(c) M,D}となる。
式(6)と同様に、混合ガウス過程において、未知の入力変数x^に対する出力変数yの予測分布を導出する。式(7)を参考に下記のように考える。
ここで、p(z=r)とp(x^|z=r,θ )は
から計算され、c=p(z=r)p(x^|z=r,θ )とおく。一方、p(y|y^,X,x^,z=r,θ GP)は、
という分布となる。上記式(19)を独立な確率分布から生成される確率変数の線形和とみなし、
とする。
(2. パラメータの推論)
次に、パラメータを推論する原理について説明する。
Gibbsサンプリングを用いて、パラメータを推論する。
(2.1 Σ^の推論)
次の(23)式に示す事後分布にしたがって、Σ^をサンプリングする。
(2.2 μ^の推論)
上記(23)式でサンプリングされたΣ^を用いて、次の(24)式に示す事後分布にしたがって、μ^をサンプリングする。
2.3 zの推論
の事後分布は、
と書ける。ここで、z\t^={z,...,zt−1,zt+1,...,z} とする。また、yr,\t^={y:i≠t,z=r},Xr,\t={x^:i≠t, z=r}とすると、第一項の条件付き確率は、
となる。ここで、Kr,\t^は集合Xr,\tにおける入力変数を使って計算されるグラム行列である。kr,\t^はXr,\tにおける入力変数とx^の相関を表すグラムベクトルである。第二項は、
となる。Tr,\tは集合Xr,\tの要素数を表す。すべての状態rに対して、この事後確率を計算し、すべての状態rに対する事後確率に基づく事後分布に従って、zの割り当てを推論する。
(2.4 ψ^、w 、η の推論)
ψ^、w 、η は、EMアルゴリズムを用いることで目的関数の増加を保証する更新式を導くことができる。まず、状態rの出力変数ベクトルy^をM+1個の独立な確率変数
の和に分解し、これらを完全データと扱う。よって、完全データu^=(u r,1^,...,u r,M+1^)に対する対数尤度関数は、
で与えられる。ただし、=は定数項以外の等号を表す。上式に対し、y^、θ GP=θ GP’が与えられたときの条件付き期待値をとると、Q関数は
を得る。ここで、H^≡[I^,...,I^] とおくと、不完全データy^と完全データu^との間には
なる関係式が成り立つことから、E[u^u ^|y^;θ GP]は、
と具体的に与えられる。この各対角ブロックをRr,1^,...,Rr,M+1^と置くと、Q関数は
となる。よって、パラメータの更新式は、
となる。実際は、パラメータの値が収束するまで、上記式(33)、(35)、(36)、(37)の計算を繰り返す。処理の流れを整理すると、以下の(1)〜(4)の処理で表される。
(1)入力変数空間パラメータθ ,...,θ とインジケータ変数z,...,zが与えられた下で、上記式(33)、(35)、(36)の計算をあらかじめ決められた回数だけ、順番に繰り返して、すべての状態(クラス1,...,R)のθ GP,...,θ GPを推論する。
(2)入力変数空間パラメータθ ,...,θ とガウス過程パラメータθ GP,...,θ GPが与えられた下で、上記式(25)から、ギブスサンプリングによって、すべての時刻のz,...,zを推論する。
(3)インジケータ変数z,...,zが与えられた下で、上記式(23)、(24)から、ギブスサンプリングによって、すべての状態のθ ,...,θ を推論する。
(4)推論された入力変数空間パラメータθ ,...,θ とインジケータ変数z,...,zとガウス過程パラメータθ GP,...,θ GPを利用して、上記式(8)の同時分布の値を計算する。そして、一ステップ前の値との誤差が、所定の閾値以下であれば、収束したと判定するものである。この誤差は例えばε=1.0×10−5である。収束していれば、推論されたパラメータθ , . . . , θ , θ GP, . . . , θ GPとインジケータ変数集合{z} t=1をすべて出力する。一方、収束しない場合は、ガウス過程パラメータの推論の処理に戻る。
以上の処理は第1の実施の形態に記載する内容でもある。また、入力変数空間をいくつかの状態(クラス)に分けることなく、パラメータを推論することも可能である。その場合は上記の(2)の処理を省略して以下の(1)〜(3)の処理を行うことになる。入力変数空間をいくつかの状態(クラス)に分けることなく、パラメータを推論する構成は、第2の実施の形態で記載する。
(1)入力変数空間パラメータθ が与えられた下で、上記式(33)、(35)、(36)の計算をあらかじめ決められた回数だけ、順番に繰り返して、状態1(いくつかの状態に分けることを考えないので状態1だけとなる)のθ GPを推論する。
(2)上記式(23)、(24)から、ギブスサンプリングによって、θ を推論する。
(3)推論された入力変数空間パラメータθ とガウス過程パラメータθ GPを利用して、式(8)の同時分布の値を計算する。そして、一ステップ前の値との誤差が、所定の閾値以下であれば、収束したと判定する。この誤差は例えばε=1.0×10−5である。収束していれば、推論されたパラメータθ 、θ GPをすべて出力する。一方、収束しない場合は、ガウス過程パラメータの推論の処理に戻る。
[第1の実施の形態]
<音響信号分析装置のシステム構成>
本発明の第1の実施の形態に係る音響信号分析装置100は、CPUと、RAMと、後述するモデルパラメータ推定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図3に示すように、音響信号分析装置100は、解析用入力部1と、解析用演算部2と、パラメータ出力部3と、パラメータデータベース4と、を含んだ構成で表すことができる。
解析用入力部1は、歌声を示す音響信号と当該音響信号に対応する楽譜データとを含んで構成される学習用データを受け付ける。
解析用演算部2は、解析用入力部1により受け付けた学習用データに基づいて、モデルパラメータを推論する。また、解析用演算部2は、学習データベース20と、音量抽出部22と、音符コンテキスト抽出部24と、パラメータ初期値生成部26と、モデルパラメータ推論部28と、収束判定部36と、を備えている。
学習データベース20には、解析用入力部1により受け付けた学習用データが格納される。
音量抽出部22は、学習データベース20に格納された歌声を示す音響信号から、音量軌跡y^を抽出する。具体的には、音量抽出部22は、上記式(3)を用いて、歌声を示す音響信号から音量軌跡y,...,yを作成する。例えば、フレーム長は32ms、フレームシフト長は10msとし、ハニング窓を用いて、歌声を示す音響信号の振幅スペクトログラムを計算する。FFTポイント数に相当するWは512とした。
音符コンテキスト抽出部24は、学習データベース20に格納された楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出する。具体的には、音符コンテキスト抽出部24は、上記式(2)のように、楽譜データの楽譜を表す階段状信号から、音符コンテキストを抽出する。上記式(2)に限らず、当該音符の発音停止時刻からの時間や、当該音符の前後の音符の音高や音長、クレッシェンドやデクレッシェンドのような演奏記号の有無など、様々なコンテキストを入力変数に加えることも可能である。ただし、本実施の形態では上記式(2)を入力変数として以降説明する(D=2となる)。サンプリング周期は10msとした。
パラメータ初期値生成部26は、各時刻tについて割り当てられた、入力変数x^の空間におけるR個の状態rのうちの何れかを示すインジケータ変数ztの初期値を生成すると共に、入力変数x^の空間のR個の状態rの各々に対する入力変数空間パラメータθ と、R個の状態rの各々に対するガウス過程パラメータθ GPとを含んで構成されるモデルパラメータの初期値を生成する。具体的には、パラメータ初期値生成部26は、インジケータ変数z,...,zとモデルパラメータΘ(Θ={θ , . . . , θ , θ GP, . . . ,θ GP})の初期値を生成する。また、パラメータ初期値生成部26は、ハイパーパラメータΩ(Ω={α,m^,W^,β,ν,l(p) ,...,l(p) ,l(c) 1,1,...,l(c) M,D})と、関連するパラメータとについて、固定値を設定する。
各パラメータの生成及び設定方法として、例えば、R=50に設定し、{x^} t=1に対して、k−meansクラスタリングを行った割り当て結果をインジケータ変数の初期値とする。そして、k−meansクラスタリングによって、各状態に割り当てられた入力変数x^を用いて計算される平均と共分散行列をθ の初期値とする。また、M=30とし、w =100、ψr,1=1/M,...,ψr,M=1/M、η =1(r=1,...,R)を初期値とする。ここで、本実施の形態では、η については以後更新は行わず、固定値とする。一方、ハイパーパラメータΩにおいて、α=1、β=0.1、ν=D+1とする。m^は入力変数全体{x^} t=1の平均とする。W^は{x^} t=1から計算される共分散行列の逆行列をνで割った行列を設定する。次に、カーネル関数のハイパーパラメータに関して、l(p) 1:10=l(p) 11:20=l(p) 21:30=0.005:0.005:0.05、l(c) 1:10,1=1、l(c) 11:20,1=2、l(c) 21:30,1=3、l(c) 1:10,2=0.1、l(c) 11:20,2=0.2、l(c) 21:30,2=0.3と設定する。
モデルパラメータ推論部28は、モデルパラメータを推論する。また、モデルパラメータ推論部28は、ガウス過程パラメータ推論部30と、インジケータ変数推論部32と、入力変数空間パラメータ推論部34とを備えている。
ガウス過程パラメータ推論部30は、状態rの各々について、インジケータ変数zに状態rが割り当てられた各時刻tの音量を含んで構成される音量軌跡y^、及び入力変数空間パラメータθ の初期値または入力変数空間パラメータ推論部34によって前回更新された入力変数空間パラメータθ に基づいて、音量軌跡y^とガウス過程パラメータθ GPとが与えられたときの、音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数ur,mと確率変数ur,M+1との組を含んで構成される完全データの自己相関の条件付き期待値を計算する。そして、ガウス過程パラメータ推論部30は、計算された完全データの自己相関の条件付き期待値を用いて表わされる、完全データの対数尤度関数の期待値を表わす関数を、目的関数とする。そして、状態rの各々について、ガウス過程パラメータ推論部30は、ガウス過程パラメータθ GPの初期値またはガウス過程パラメータ推論部30によって前回更新されたガウス過程パラメータθ GPに基づいて、目的関数をガウス過程パラメータθ GPに関して最大化するようにガウス過程パラメータθ GPを更新する。上記の完全データの自己相関の条件付き期待値の計算、及びガウス過程パラメータθ GPの更新を繰り返して、ガウス過程パラメータθ GPを推論する。具体的には、ガウス過程パラメータ推論部30は、状態rの各々について、上記式(33)、(35)、(36)の計算を複数回、順番に繰り返して、すべての状態rのθ GPを推論する。繰り返し回数としては、例えば100回程度繰り返す。
インジケータ変数推論部32は、各時刻tについて、各時刻tのインジケータ変数z、音量軌跡y^、入力変数の集合X、各状態rの入力変数空間パラメータθ 、及び各状態rのガウス過程パラメータθ GPに基づいて、インジケータ変数zに各状態rが割り当てられる事後分布を計算し、計算された事後分布に従って、インジケータ変数zを推論する。すなわち、インジケータ変数推論部32は、ギブスサンプリングによって、上記式(25)から、すべての時刻のzを推論する。なお、事後分布は確率分布の一例である。
入力変数空間パラメータ推論部34は、状態rの各々について、インジケータ変数zに状態rが割り当てられた各時刻tの入力変数x^の集合Xに基づいて、入力変数空間パラメータθ を推論する。すなわち、入力変数空間パラメータ推論部34は、ギブスサンプリングによって、上記式(23)、(24)から、すべての状態rのθ を推論する。
収束判定部36は、音量抽出部22によって抽出された音量軌跡y^、学習データベース20に格納された入力変数x^の集合X、インジケータ変数推論部32によって推論された各時刻tのインジケータ変数z、ガウス過程パラメータ推論部30によって推論された各状態rのガウス過程パラメータθ GP、及び入力変数空間パラメータ推論部34によって推論された各状態rの入力変数空間パラメータθ に基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、ガウス過程パラメータ推論部30による推論、インジケータ変数推論部32による推論、及び入力変数空間パラメータ推論部34による推論を繰り返す。具体的には、収束判定部36は、上記式(8)の同時分布の値を計算する。一ステップ前の値との誤差が、所定の閾値以下であれば、収束したと判定する。本実施の形態ではこの誤差を実験的にε=1.0×10−5とした。収束していればパラメータ出力部3は、学習データ{x,y} t=1,インジケータ変数集合{z} t=1,モデルパラメータ集合Θとパイパーパラメータ集合Ωをすべて出力する。一方、収束しない場合は、ガウス過程パラメータ推論部30の処理に戻る。
なお、収束したか否かを判定する方法としては、同時分布の値を用いる方法以外に、モデルパラメータ各々の値を更新前と更新後とで比較しても良いし、予め定めた繰り返し回数に到達したか否かで判定を行っても良い。本実施の形態ではモデルパラメータ各々の値を更新前と更新後とで比較する場合、この誤差がε=1.0×10−5であれば良好な結果であることを実験的に確認した。また、予め定めた繰り返し回数に到達したか否かで判定をする場合、100回の繰り返し回数が必要であることも実験的に確認している。
パラメータ出力部3は、収束判定部36により差分の絶対値が、閾値以下になったと判定された場合に、パラメータ出力部3によって出力されたモデルパラメータΘと、パラメータ初期値生成部26で設定されたハイパーパラメータΩと、学習データベース20に格納された学習用データの、音量軌跡y^及び入力変数x^の集合Xと、をパラメータデータベース4に格納する。
<音量軌跡予測装置のシステム構成>
図4は、本発明の第1の実施の形態に係る音量軌跡予測装置200を示すブロック図である。この音量軌跡予測装置200は、CPUと、RAMと、後述する予測処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
音量軌跡予測装置200では、新規のメロディの楽譜(予測対象の楽譜データ)が入力されると、予測対象の楽譜データに対応する音量軌跡を予測して生成する。
本実施の形態に係る音量軌跡予測装置200は、図4に示すように、入力部5と、パラメータデータベース6と、演算部7と、出力部8とを備えている。
入力部5は、予測対象の楽譜データを受け付ける。
パラメータデータベース6には、上記の音響信号分析装置100のパラメータデータベース4と同じ、モデルパラメータと、学習用データの、音量軌跡y^及び入力変数x^の集合Xと、ハイパーパラメータΩとが格納される。
演算部7は、パラメータデータベース6に記憶されたモデルパラメータと、学習用データの、音量軌跡y^及び入力変数x^の集合Xと、ハイパーパラメータΩとに基づいて、入力部5により受け付けた予測対象の楽譜データから、楽譜データに対応する歌声を示す音響信号の音量軌跡を予測する。演算部7は、予測用音符コンテキスト抽出部70と、予測分布計算部72と、音量軌跡生成部74とを備えている。
予測用音符コンテキスト抽出部70は、音符コンテキスト抽出部24と同様に、入力部5により受け付けた予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数~x^の集合~Xを抽出する。
予測分布計算部72は、各時刻tについて、パラメータデータベース6に記憶されたモデルパラメータΘ、ハイパーパラメータΩ、音量軌跡y^、及び入力変数x^の集合Xと、予測用音符コンテキスト抽出部70によって抽出された時刻tの入力変数x^とに基づいて、時刻tの音量の予測分布を計算する。具体的には、予測分布計算部72は、パラメータデータベース6に格納された学習データ{x^,y t=1、インジケータ変数集合{z t=1、モデルパラメータΘ、及びハイパーパラメータΩを用い、各時刻の~x^をxとして、上記式(22)から、予測分布の平均と分散を計算する。
音量軌跡生成部74は、各時刻tについて、予測分布計算部72によって計算された時刻tの音量の予測分布に従って、時刻tの音量を予測することにより、音量軌跡~yを生成する。具体的には、音量軌跡生成部74では、各時刻の予測分布から音量~yをサンプリングして、音量軌跡を生成し、出力する。なお、別の生成方法として、予測分布の平均値そのものを~yとしてもよい。
出力部8は、音量軌跡生成部74によって生成された音量軌跡を出力する。
<音響信号分析装置の作用>
次に、本実施の形態に係る音響信号分析装置100の作用について説明する。まず、歌声を示す音響信号と当該音響信号に対応する楽譜データとを含んで構成される学習用データが、解析用入力部1により音響信号分析装置100に入力されると、学習データベース20に格納され、図5に示すモデルパラメータ推定処理ルーチンが実行される。
まず、ステップS100において、音量抽出部22によって、上記式(3)に従って、学習データベース20に格納された歌声を示す音響信号から、音量軌跡y^を抽出する。
次に、ステップS102において、音符コンテキスト抽出部24によって、上記式(2)に従って、学習データベース20に格納された楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出する。
ステップS104において、パラメータ初期値生成部26によって、各時刻tについてのインジケータ変数ztの初期値を生成すると共に、状態rの各々に対する入力変数空間パラメータθ と、状態rの各々に対するガウス過程パラメータθ GPとを含んで構成されるモデルパラメータの初期値を生成する。
ステップS106において、ガウス過程パラメータ推論部30によって、状態rの各々について、状態rに関する音量軌跡y^、及び上記ステップS104で生成された入力変数空間パラメータθ の初期値または後述するステップS110で前回更新された入力変数空間パラメータθ に基づいて、上記(33)式に従って、完全データの自己相関の条件付き期待値を計算する。そして、状態rの各々について、ガウス過程パラメータ推論部30によって、計算された完全データの自己相関の条件付き期待値と、上記ステップS104で生成されたガウス過程パラメータθ GPの初期値または本ステップS106で前回更新されたガウス過程パラメータθ GPとに基づいて、上記式(35)、及び(36)に従って、ガウス過程パラメータθ GPを更新する。状態rの各々について、上記の完全データの自己相関の条件付き期待値の計算、及びガウス過程パラメータθ GPの更新を繰り返して、ガウス過程パラメータθ GPを推論する。
ステップS108において、インジケータ変数推論部32によって、各時刻tについて、上記ステップS104で初期値として生成された、又は本ステップS108で前回更新された各時刻tのインジケータ変数z、上記ステップS100で抽出された、音量軌跡y^、及び入力変数の集合X、上記ステップS104で初期値として生成された又は後述するステップS110で前回更新された各状態rの入力変数空間パラメータθ 、並びに上記ステップS106で推論された各状態rのガウス過程パラメータθ GPに基づいて、インジケータ変数zの各状態rが割り当てられる事後分布を、上記式(25)に従って算出し、算出した事後分布に従って、インジケータ変数zを推論する。
ステップS110において、入力変数空間パラメータ推論部34によって、状態rの各々について、上記ステップS108で推論されたインジケータ変数zに基づいて得られる、状態rに関する入力変数x^の集合Xに基づいて、上記式(23)、及び(24)に従って、入力変数空間パラメータθ を推論する。
ステップS112において、収束判定部36によって、上記ステップS100で抽出された音量軌跡y^と、上記ステップS102で抽出された入力変数x^の集合Xと、上記ステップS106で推論されたガウス過程パラメータθ GPと、上記ステップS108で推論されたインジケータ変数zと、上記ステップ110で推論された入力変数空間パラメータθ とに基づいて、上記式(8)の同時分布の値を計算し、今回の本ステップで計算された同時分布の値と、前回の本ステップで計算された同時分布の値との誤差が、所定の閾値以下であれば、収束したと判定する。収束したと判定された場合には、ステップS114へ進む。一方、収束していないと判定された場合には、ステップS106へ戻り、上記ステップS106〜S110の処理を繰り返す。
ステップS114において、パラメータ出力部3によって、上記ステップS106及び上記ステップS110で最終的に更新されたモデルパラメータΘと、パラメータ初期値生成部26で設定されたハイパーパラメータΩと、学習データベース20に格納された学習用データの、音量軌跡y^及び入力変数x^の集合Xとをパラメータデータベース4へ格納して、モデルパラメータ推定処理ルーチンを終了する。
<音量軌跡予測装置の作用>
次に、本実施の形態に係る音量軌跡予測装置200の作用について説明する。まず、音響信号分析装置100のパラメータデータベース4に格納されているモデルパラメータΘ、ハイパーパラメータΩ、並びに学習用データの、音量軌跡y^及び入力変数x^の集合Xが、音量軌跡予測装置200に入力されると、入力部5によって、パラメータデータベース6へ格納される。そして、予測対象の楽譜データが音量軌跡予測装置200に入力されると、音量軌跡予測装置200によって、図6に示す予測処理ルーチンが実行される。
まず、ステップS200において、予測用音符コンテキスト抽出部70によって、入力部5により受け付けた予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数~x^の集合~Xを抽出する。
次に、ステップS202において、パラメータデータベース4に格納されているモデルパラメータΘ、ハイパーパラメータΩ及び学習用データの、音量軌跡y^及び入力変数x^の集合Xを読み込む。
次に、ステップS204において、予測分布計算部72によって、上記式(22)に従って、各時刻tについて、パラメータデータベース6に記憶されたモデルパラメータΘ、音量軌跡y^、及び入力変数x^の集合Xと、上記ステップS200で抽出された時刻tの入力変数~x^とに基づいて、時刻tの音量の予測分布を計算する。
ステップS206において、音量軌跡生成部74によって、各時刻tについて、上記ステップS204で計算された時刻tの音量の予測分布に従って、時刻tの音量を予測することにより、音量軌跡~yを生成する。
ステップS208において、上記ステップS206で生成された音量軌跡を結果として出力して、予測処理ルーチンを終了する。
以上説明したように、第1の実施の形態の音響信号分析装置100によれば、状態rの各々について、インジケータ変数zに状態rが割り当てられた各時刻tの音量を含んで構成される音量軌跡y^、及び入力変数空間パラメータθ に基づいて、音量軌跡y^と、ガウス過程パラメータθ GPとが与えられたときの、音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数ur,mと確率変数ur,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された完全データの自己相関の条件付き期待値を用いて表わされる、完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、目的関数をガウス過程パラメータθ GPに関して最大化するようにガウス過程パラメータθ GPを更新することを繰り返して、ガウス過程パラメータθ GPを推論することにより、音量軌跡を精度よく予測するためのモデルパラメータを得ることができる。
また、歌声を示す音響信号の音量軌跡とその楽譜データが与えられた下で、入力変数空間をいくつかの状態にクラスタリングするための入力変数空間パラメータ{θ , . . . , θ }をサンプリングにより決定し、各時刻の入力変数と出力変数の組み合わせ{x^, y t=1がどの状態に属するかを表すインジケータ変数{z t=1をサンプリングにより決定し、状態ごとに、そこに属する入力変数の集合Xから音量軌跡y^を回帰するためのガウス過程パラメータ{θ GP, . . . , θ GP}をEMアルゴリズムにより推定することを、予め定められた収束条件を満たすまで繰り返し行い、これらのパラメータを出力することにより、歌声の音量軌跡から、そこに含まれる音量の動特性(ダイナミクス)を精度よく推定することができる。
また、第1の実施の形態の音量軌跡予測装置200によれば、音響信号分析装置によって出力されたモデルパラメータに基づいて算出される、時刻tの音量の予測分布を計算し、計算された時刻tの音量の予測分布に従って、時刻tの音量を予測して音量軌跡y^を生成することにより、音量軌跡を精度よく予測することができる。
また、学習されたモデルパラメータと予測対象の楽譜データが与えられたとき、学習用データに含まれる音量の動特性を反映するような、新たな音量軌跡を、精度よく予測することができる。
〔第2の実施の形態〕
<音響信号分析装置のシステム構成>
次に、第2の実施の形態に係る音響信号分析装置300について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、入力変数空間をいくつかの状態に分けることなくモデルパラメータを推論する点が、第1の実施の形態と異なっている。すなわち、入力変数空間は1つの状態であるとみなし、状態の数Rが1となる。したがって、第2の実施の形態は、インジケータ変数推論部32を省略した構成となる。
図7に示すように、第2の実施の形態に係る音響信号分析装置300のモデルパラメータ推論部282は、第1の実施の形態と比較して、インジケータ変数推論部32を備えていない。
第2の実施の形態に係る音響信号分析装置300のパラメータ初期値生成部262は、入力変数空間パラメータθ と、入力変数x^の集合Xから音量軌跡y^を回帰するためのガウス過程におけるカーネル関数のパラメータθ GPとを含んで構成されるモデルパラメータの初期値を生成する。
ガウス過程パラメータ推論部302は、音量軌跡y^、及び入力変数空間パラメータθ の初期値または後述する入力変数空間パラメータ推論部342によって前回更新された入力変数空間パラメータθ に基づいて、音量軌跡y^と、ガウス過程パラメータθ GPとが与えられたときの、音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u1,mと確率変数u1,M+1との組を含んで構成される完全データの自己相関の条件付き期待値を計算する。そして、計算された完全データの自己相関の条件付き期待値を用いて表わされる、完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、ガウス過程パラメータθ GPの初期値またはガウス過程パラメータ推論部302によって前回更新されたガウス過程パラメータθ GPに基づいて、目的関数をガウス過程パラメータθ GPに関して最大化するようにガウス過程パラメータθ GPを更新することを繰り返して、ガウス過程パラメータθ GPを推論する。
入力変数空間パラメータ推論部342は、入力変数x^の集合Xに基づいて、入力変数空間パラメータθ を推論する。
なお、第2の実施の形態に係る音響信号分析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、第2の実施の形態の音響信号分析装置300によれば、音量軌跡y^と、ガウス過程パラメータθ GPとが与えられたときの、音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u1,mと確率変数u1,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された完全データの自己相関の条件付き期待値を用いて表わされる、完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、目的関数をガウス過程パラメータθ GPに関して最大化するようにガウス過程パラメータθ GPを更新することを繰り返して、ガウス過程パラメータθ GPを推論することにより、音量軌跡を精度よく予測するためのモデルパラメータを得ることができる。
<実験結果>
次に、本発明の実施の形態による音響信号分析装置を用いた実験結果を以下に説明する。ここでは、上記の実施の形態を実装して、新規のメロディの楽譜が与えられた時に、その音量軌跡を予測生成した結果を評価する。
J‐popに分類される合計4曲のサビの部分を歌った歌声(総時間33.9秒)を学習用データとして使った。この学習用データの音量軌跡とそれに同期する楽譜を使って、パラメータデータベース4に推定されたパラメータを格納する。図8は、学習データにおける2曲の楽譜を用いて、上記図4の音量軌跡予測装置200によって、音量軌跡を予測生成した結果である。これは、学習データの楽譜を入力するため、クローズドの評価であるが、パラメータの推定性能を定性的に確かめるために行った。実線は学習データにおける2曲の各々の音量軌跡を示し、鎖線はその楽譜を入力として、各時刻の音量軌跡の予測分布を計算し、その平均値の軌跡を図示した結果である。おおよそではあるが、鎖線が実線に近い値を予測できていることがわかる。図9は、学習に用いていない2曲の出だしのメロディの楽譜を入力とし、パラメータデータベース4に格納されたパラメータを使って、上記図4の音量軌跡予測装置200によって処理を行なった結果である。ハイパーパラメータの調整がまだ充分でないため、学習データに出現しない音符に対して、その音量を予測することが難しいが、鎖線の全体的な軌跡は実線の音量軌跡に近いため、今後に期待できる結果が得られたと考える。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、パラメータデータベース4、6及び学習データベース20は、外部に設けられ、音響信号分析装置及び音量軌跡予測装置とネットワークで接続されていてもよい。
また、上記実施の形態では、音響信号分析装置と音量軌跡予測装置とを別々の装置として構成する場合を例に説明したが、響信号分析装置と音量軌跡予測装置とを1つの装置として構成してもよい。
上述の音響信号分析装置及び音量軌跡予測装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 解析用入力部
2 解析用演算部
3 パラメータ出力部
4、6 パラメータデータベース
5 入力部
7 演算部
8 出力部
20 学習データベース
22 音量抽出部
24 音符コンテキスト抽出部
26 パラメータ初期値生成部
28 モデルパラメータ推論部
30 ガウス過程パラメータ推論部
32 インジケータ変数推論部
34 入力変数空間パラメータ推論部
36 収束判定部
70 予測用音符コンテキスト抽出部
72 予測分布計算部
74 音量軌跡生成部
100、300 音響信号分析装置
200 音量軌跡予測装置
262 パラメータ初期値生成部
282 モデルパラメータ推論部
302 ガウス過程パラメータ推論部
342 入力変数空間パラメータ推論部

Claims (7)

  1. 入力された歌声を示す音響信号から音量軌跡y^を抽出する音量抽出部と、
    入力された楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出する音符コンテキスト抽出部と、
    前記入力変数x^の空間におけるガウス分布のパラメータθ と、前記入力変数x^の集合Xから音量軌跡y^を回帰するためのガウス過程におけるカーネル関数のパラメータを表すガウス過程パラメータθ GP であり、かつ前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u 1,m の分布を表すパラメータである、カーネル関数の強度w 及びm番目のカーネル関数の優勢度ψ 1,m と、確率変数u 1,M+1 の分布を表すパラメータである、観測ノイズの分散パラメータη とを含む前記ガウス過程パラメータθ GP とからなるモデルパラメータの初期値を生成するパラメータ初期値生成部と、
    前記音量軌跡y^、及び前記ガウス分布のパラメータθ の初期値または前回更新された前記ガウス分布のパラメータθ に基づいて、前記音量軌跡y^と、前記ガウス過程パラメータθ GPとが与えられたときの、前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u1,mと確率変数u1,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ GPの初期値または前回更新された前記ガウス過程パラメータθ GPに基づいて、前記目的関数を前記ガウス過程パラメータθ GPに関して最大化するように前記ガウス過程パラメータθ GPを更新することを繰り返して、前記ガウス過程パラメータθ GPを推論するガウス過程パラメータ推論部と、
    前記入力変数x^の集合Xに基づいて、前記ガウス分布のパラメータθ を推論する入力変数空間パラメータ推論部と、
    前記音量軌跡y^、前記入力変数の集合X、前記推論された前記ガウス過程パラメータθ GP、及び前記推論された前記ガウス分布のパラメータθ に基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返す収束判定部と、
    前記収束判定部により前記差分の絶対値が、閾値以下になったと判定された場合に、前記モデルパラメータを出力するパラメータ出力部と、
    音響信号分析装置。
  2. インジケータ推論部を更に含み、
    前記パラメータ初期値生成部は、各時刻tについて割り当てられた、前記入力変数x^の空間におけるR個の状態rのうちの何れかを示すインジケータ変数ztの初期値を生成すると共に、前記入力変数x^の空間の前記R個の状態rの各々に対する前記ガウス分布のパラメータθ と、前記R個の状態rの各々に対する前記ガウス過程におけるカーネル関数のパラメータを表すガウス過程パラメータθ GP であり、かつ前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u r,m の分布を表すパラメータである、カーネル関数の強度w 及びm番目のカーネル関数の優勢度ψ r,m と、確率変数u r,M+1 の分布を表すパラメータである、観測ノイズの分散パラメータη とを含む前記ガウス過程パラメータθ GP とからなる前記モデルパラメータの初期値を生成し、
    前記ガウス過程パラメータ推論部は、
    前記状態rの各々について、
    前記インジケータ変数zに前記状態rが割り当てられた各時刻tの音量からなる前記音量軌跡y^、及び前記ガウス分布のパラメータθ の初期値または前回更新された前記ガウス分布のパラメータθ に基づいて、前記音量軌跡y^と、前記ガウス過程パラメータθ GPとが与えられたときの、前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数ur,mと確率変数ur,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ GPの初期値または前回更新された前記ガウス過程パラメータθ GPに基づいて、前記目的関数を前記ガウス過程パラメータθ GPに関して最大化するように前記ガウス過程パラメータθ GPを更新することを繰り返して、前記ガウス過程パラメータθ GPを推論し、
    前記インジケータ推論部は、各時刻tについて、各時刻tのインジケータ変数z、前記音量軌跡y^、前記入力変数の集合X、各状態rの前記ガウス分布のパラメータθ に、各状態rの前記ガウス過程パラメータθ GPに基づく、前記インジケータ変数zの各状態rが割り当てられる確率分布に従って、前記インジケータ変数zを推論し、
    前記入力変数空間パラメータ推論部は、
    前記状態rの各々について、前記インジケータ変数zに前記状態rが割り当てられた各時刻tの前記入力変数x^の集合Xに基づいて、前記ガウス分布のパラメータθ を推論し、
    前記収束判定部は、前記音量軌跡y^、前記入力変数の集合X、前記推論された各時刻tの前記インジケータ変数z、前記推論された各状態rの前記ガウス過程パラメータθ GP、及び前記推論された各状態rの前記ガウス分布のパラメータθ に基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返す請求項1記載の音響信号分析装置。
  3. 請求項1又は2記載の音響信号分析装置と、
    前記音響信号分析装置によって出力された前記モデルパラメータと、前記抽出された音量軌跡y^及び前記入力変数x^の集合Xを記憶したパラメータデータベースと、
    入力された予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出する予測用音符コンテキスト抽出部と、
    各時刻tについて、前記パラメータデータベースに記憶された前記モデルパラメータ、前記音量軌跡y^、及び前記入力変数x^の集合Xと、前記予測用音符コンテキスト抽出部によって抽出された時刻tの前記入力変数x^とに基づいて算出される、時刻tの音量の予測分布を計算する予測分布計算部と、
    各時刻tについて、前記予測分布計算部によって計算された時刻tの音量の予測分布に従って、時刻tの音量を予測することにより、音量軌跡y^を生成する音量軌跡生成部と、
    を含む音量軌跡予測装置。
  4. 音量抽出部、音符コンテキスト抽出部、パラメータ初期値生成部、ガウス過程パラメータ推論部、入力変数空間パラメータ推論部、収束判定部、及びパラメータ出力部を含む音響信号分析装置における音響信号分析方法であって、
    前記音量抽出部によって、入力された歌声を示す音響信号から音量軌跡y^を抽出するステップと、
    前記音符コンテキスト抽出部によって、入力された楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出するステップと、
    前記パラメータ初期値生成部によって、前記入力変数x^の空間におけるガウス分布のパラメータθ と、前記入力変数x^の集合Xから音量軌跡y^を回帰するためのガウス過程におけるカーネル関数のパラメータを表すガウス過程パラメータθ GP であり、かつ前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u 1,m の分布を表すパラメータである、カーネル関数の強度w 及びm番目のカーネル関数の優勢度ψ 1,m と、確率変数u 1,M+1 の分布を表すパラメータである、観測ノイズの分散パラメータη とを含む前記ガウス過程パラメータθ GP とからなるモデルパラメータの初期値を生成するステップと、
    前記ガウス過程パラメータ推論部によって、前記音量軌跡y^、及び前記ガウス分布のパラメータθ の初期値または前回更新された前記ガウス分布のパラメータθ に基づいて、前記音量軌跡y^と、前記ガウス過程パラメータθ GPとが与えられたときの、前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u1,mと確率変数u1,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ GPの初期値または前回更新された前記ガウス過程パラメータθ GPに基づいて、前記目的関数を前記ガウス過程パラメータθ GPに関して最大化するように前記ガウス過程パラメータθ GPを更新することを繰り返して、前記ガウス過程パラメータθ GPを推論するステップと、
    前記入力変数空間パラメータ推論部によって、前記入力変数x^の集合Xに基づいて、前記ガウス分布のパラメータθ を推論するステップと、
    前記収束判定部によって、前記音量軌跡y^、前記入力変数の集合X、前記推論された前記ガウス過程パラメータθ GP、及び前記推論された前記ガウス分布のパラメータθ に基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返すステップと、
    前記パラメータ出力部によって、前記収束判定部により前記差分の絶対値が、閾値以下になったと判定された場合に、前記モデルパラメータを出力するステップと、
    を含む音響信号分析方法。
  5. 請求項4に記載の音響信号分析方法の各ステップを含み、
    前記音響信号分析方法によって出力された前記モデルパラメータと、前記抽出された音量軌跡y^及び前記入力変数x^の集合Xを記憶したパラメータデータベース、予測用音符コンテキスト抽出部、予測分布計算部、及び音量軌跡生成部を含む音量軌跡予測装置における音量軌跡予測方法であって、
    前記予測用音符コンテキスト抽出部によって、入力された予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出するステップと、
    前記予測分布計算部によって、各時刻tについて、前記パラメータデータベースに記憶された前記モデルパラメータ、前記音量軌跡y^、及び前記入力変数x^の集合Xと、前記予測用音符コンテキスト抽出部によって抽出された時刻tの前記入力変数x^とに基づいて算出される、時刻tの音量の予測分布を計算するステップと、
    前記音量軌跡生成部によって、各時刻tについて、前記予測分布計算部によって計算された時刻tの音量の予測分布に従って、時刻tの音量を予測することにより、音量軌跡y^を生成するステップと、
    を含む音量軌跡予測方法。
  6. コンピュータを、請求項1又は2に記載の音響信号分析装置の各部として機能させるためのプログラム。
  7. コンピュータを、請求項3に記載の音量軌跡予測装置の各部として機能させるためのプログラム。
JP2013169970A 2013-08-19 2013-08-19 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム Active JP6101599B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013169970A JP6101599B2 (ja) 2013-08-19 2013-08-19 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013169970A JP6101599B2 (ja) 2013-08-19 2013-08-19 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015038586A JP2015038586A (ja) 2015-02-26
JP6101599B2 true JP6101599B2 (ja) 2017-03-22

Family

ID=52631674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013169970A Active JP6101599B2 (ja) 2013-08-19 2013-08-19 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6101599B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6498141B2 (ja) * 2016-03-16 2019-04-10 日本電信電話株式会社 音響信号解析装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2015038586A (ja) 2015-02-26

Similar Documents

Publication Publication Date Title
Sigtia et al. An end-to-end neural network for polyphonic piano music transcription
Ycart et al. A study on LSTM networks for polyphonic music sequence modelling
JP7448053B2 (ja) 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム
Harrison et al. An energy-based generative sequence model for testing sensory theories of Western harmony
Nakamura et al. Statistical piano reduction controlling performance difficulty
Gabrielli et al. Introducing deep machine learning for parameter estimation in physical modelling
JP4796460B2 (ja) 音声認識装置及び音声認識プログラム
JP6271748B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP6101599B2 (ja) 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム
Wada et al. Sequential generation of singing f0 contours from musical note sequences based on wavenet
Ohishi et al. Mixture of Gaussian process experts for predicting sung melodic contour with expressive dynamic fluctuations
JP5771575B2 (ja) 音響信号分析方法、装置、及びプログラム
Ojima et al. A Hierarchical Bayesian Model of Chords, Pitches, and Spectrograms for Multipitch Analysis.
Gupta et al. Towards controllable audio texture morphing
Wilkinson et al. Latent force models for sound: Learning modal synthesis parameters and excitation functions from audio recordings
Gabrielli et al. A multi-stage algorithm for acoustic physical model parameters estimation
JP2012027196A (ja) 信号分析装置、方法、及びプログラム
JP6468519B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
JP7243147B2 (ja) コード推定方法、コード推定装置およびプログラム
Burlet Guitar tablature transcription using a deep belief network
JP2015045755A (ja) 音声合成モデル学習装置、方法、及びプログラム
JP5771582B2 (ja) 音響信号分析装置、方法、及びプログラム
Gowrishankar et al. Raga classification using enhanced spatial bound whale optimization algorithm
Brink Dissection of a generative network for music composition
JP5318042B2 (ja) 信号解析装置、信号解析方法及び信号解析プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170227

R150 Certificate of patent or registration of utility model

Ref document number: 6101599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150