JP6101599B2 - 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム - Google Patents
音響信号分析装置、音量軌跡予測装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6101599B2 JP6101599B2 JP2013169970A JP2013169970A JP6101599B2 JP 6101599 B2 JP6101599 B2 JP 6101599B2 JP 2013169970 A JP2013169970 A JP 2013169970A JP 2013169970 A JP2013169970 A JP 2013169970A JP 6101599 B2 JP6101599 B2 JP 6101599B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- volume
- gaussian process
- distribution
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Auxiliary Devices For Music (AREA)
Description
また、音量軌跡を精度よく予測することができる音量軌跡予測装置、方法、及びプログラムを提供することを目的とする。
本発明の実施の形態は、伴奏付きで歌った歌声とそのメロディの楽譜が同期して得られた下で、入力変数となる、楽譜に含まれる様々なコンテキスト(音符内の時刻や音符の音高や音長など)から、出力変数となる歌声の音量を回帰するための、入力変数空間をクラス(状態)に分類するためのガウス分布のパラメータ(以下、入力変数空間パラメータと称する。)、および、各入力変数がどのクラス(状態)に割り当てられるかを示すインジケータ変数、および、クラス(状態)ごとに入力変数から出力変数を回帰するためのガウス過程パラメータを抽出する。
次に、音量軌跡を予測するためのモデルパラメータを推定する原理について説明する。
本実施の形態では、カラオケのように、伴奏付きで歌った歌声とそのメロディの楽譜が与えられた下で、楽譜に含まれる様々なコンテキストから歌声の音量軌跡への回帰問題を考える。上記図10に示すように、メロディの楽譜(MIDIのノートナンバーに基づく音高とInteronset intervalに基づく音長からなる階段状軌跡)と音量軌跡が同期して得られたとする。回帰問題の入力変数xt^はメロディの楽譜から、例えば下記のように構成される。なお、記号に付された「^」は、当該記号が行列または多次元配列またはベクトルであることを表わしている。
・・・(2)
ガウス過程による回帰分析のためにはカーネル関数の設計が必要である。カーネル関数に求められる条件はグラム行列が正定値対称行列となることであり、出力信号の定常性を仮定した下で、Squared exponential(SE)カーネル関数やRational Quadraticカーネル関数などを利用することが一般的である。しかしながら、上記図10より、音量軌跡は必ずしも定常であるとは言えず、先にも述べたとおり、いくつかの物理的な系(状態)を互いに遷移しながら、音量を生成するとみなせる。このような理由から、混合ガウス過程を利用することとした。
次に、パラメータを推論する原理について説明する。
Gibbsサンプリングを用いて、パラメータを推論する。
ztの事後分布は、
<音響信号分析装置のシステム構成>
本発明の第1の実施の形態に係る音響信号分析装置100は、CPUと、RAMと、後述するモデルパラメータ推定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図3に示すように、音響信号分析装置100は、解析用入力部1と、解析用演算部2と、パラメータ出力部3と、パラメータデータベース4と、を含んだ構成で表すことができる。
図4は、本発明の第1の実施の形態に係る音量軌跡予測装置200を示すブロック図である。この音量軌跡予測装置200は、CPUと、RAMと、後述する予測処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
次に、本実施の形態に係る音響信号分析装置100の作用について説明する。まず、歌声を示す音響信号と当該音響信号に対応する楽譜データとを含んで構成される学習用データが、解析用入力部1により音響信号分析装置100に入力されると、学習データベース20に格納され、図5に示すモデルパラメータ推定処理ルーチンが実行される。
次に、本実施の形態に係る音量軌跡予測装置200の作用について説明する。まず、音響信号分析装置100のパラメータデータベース4に格納されているモデルパラメータΘ、ハイパーパラメータΩ、並びに学習用データの、音量軌跡y^及び入力変数x^の集合Xが、音量軌跡予測装置200に入力されると、入力部5によって、パラメータデータベース6へ格納される。そして、予測対象の楽譜データが音量軌跡予測装置200に入力されると、音量軌跡予測装置200によって、図6に示す予測処理ルーチンが実行される。
<音響信号分析装置のシステム構成>
次に、第2の実施の形態に係る音響信号分析装置300について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
次に、本発明の実施の形態による音響信号分析装置を用いた実験結果を以下に説明する。ここでは、上記の実施の形態を実装して、新規のメロディの楽譜が与えられた時に、その音量軌跡を予測生成した結果を評価する。
2 解析用演算部
3 パラメータ出力部
4、6 パラメータデータベース
5 入力部
7 演算部
8 出力部
20 学習データベース
22 音量抽出部
24 音符コンテキスト抽出部
26 パラメータ初期値生成部
28 モデルパラメータ推論部
30 ガウス過程パラメータ推論部
32 インジケータ変数推論部
34 入力変数空間パラメータ推論部
36 収束判定部
70 予測用音符コンテキスト抽出部
72 予測分布計算部
74 音量軌跡生成部
100、300 音響信号分析装置
200 音量軌跡予測装置
262 パラメータ初期値生成部
282 モデルパラメータ推論部
302 ガウス過程パラメータ推論部
342 入力変数空間パラメータ推論部
Claims (7)
- 入力された歌声を示す音響信号から音量軌跡y^を抽出する音量抽出部と、
入力された楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出する音符コンテキスト抽出部と、
前記入力変数x^の空間におけるガウス分布のパラメータθ1 xと、前記入力変数x^の集合Xから音量軌跡y^を回帰するためのガウス過程におけるカーネル関数のパラメータを表すガウス過程パラメータθ 1 GP であり、かつ前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u 1,m の分布を表すパラメータである、カーネル関数の強度w 1 2 及びm番目のカーネル関数の優勢度ψ 1,m と、確率変数u 1,M+1 の分布を表すパラメータである、観測ノイズの分散パラメータη 1 2 とを含む前記ガウス過程パラメータθ 1 GP とからなるモデルパラメータの初期値を生成するパラメータ初期値生成部と、
前記音量軌跡y^、及び前記ガウス分布のパラメータθ1 xの初期値または前回更新された前記ガウス分布のパラメータθ1 xに基づいて、前記音量軌跡y^と、前記ガウス過程パラメータθ1 GPとが与えられたときの、前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u1,mと確率変数u1,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ1 GPの初期値または前回更新された前記ガウス過程パラメータθ1 GPに基づいて、前記目的関数を前記ガウス過程パラメータθ1 GPに関して最大化するように前記ガウス過程パラメータθ1 GPを更新することを繰り返して、前記ガウス過程パラメータθ1 GPを推論するガウス過程パラメータ推論部と、
前記入力変数x^の集合Xに基づいて、前記ガウス分布のパラメータθ1 xを推論する入力変数空間パラメータ推論部と、
前記音量軌跡y^、前記入力変数の集合X、前記推論された前記ガウス過程パラメータθ1 GP、及び前記推論された前記ガウス分布のパラメータθ1 xに基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返す収束判定部と、
前記収束判定部により前記差分の絶対値が、閾値以下になったと判定された場合に、前記モデルパラメータを出力するパラメータ出力部と、
音響信号分析装置。 - インジケータ推論部を更に含み、
前記パラメータ初期値生成部は、各時刻tについて割り当てられた、前記入力変数x^の空間におけるR個の状態rのうちの何れかを示すインジケータ変数ztの初期値を生成すると共に、前記入力変数x^の空間の前記R個の状態rの各々に対する前記ガウス分布のパラメータθr xと、前記R個の状態rの各々に対する前記ガウス過程におけるカーネル関数のパラメータを表すガウス過程パラメータθ r GP であり、かつ前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u r,m の分布を表すパラメータである、カーネル関数の強度w r 2 及びm番目のカーネル関数の優勢度ψ r,m と、確率変数u r,M+1 の分布を表すパラメータである、観測ノイズの分散パラメータη r 2 とを含む前記ガウス過程パラメータθ r GP とからなる前記モデルパラメータの初期値を生成し、
前記ガウス過程パラメータ推論部は、
前記状態rの各々について、
前記インジケータ変数ztに前記状態rが割り当てられた各時刻tの音量からなる前記音量軌跡y^r、及び前記ガウス分布のパラメータθr xの初期値または前回更新された前記ガウス分布のパラメータθr xに基づいて、前記音量軌跡y^rと、前記ガウス過程パラメータθr GPとが与えられたときの、前記音量軌跡y^rを分解したM個のカーネル関数に対するM個の確率変数ur,mと確率変数ur,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθr GPの初期値または前回更新された前記ガウス過程パラメータθr GPに基づいて、前記目的関数を前記ガウス過程パラメータθr GPに関して最大化するように前記ガウス過程パラメータθr GPを更新することを繰り返して、前記ガウス過程パラメータθr GPを推論し、
前記インジケータ推論部は、各時刻tについて、各時刻tのインジケータ変数zt、前記音量軌跡y^、前記入力変数の集合X、各状態rの前記ガウス分布のパラメータθr xに、各状態rの前記ガウス過程パラメータθr GPに基づく、前記インジケータ変数ztの各状態rが割り当てられる確率分布に従って、前記インジケータ変数ztを推論し、
前記入力変数空間パラメータ推論部は、
前記状態rの各々について、前記インジケータ変数ztに前記状態rが割り当てられた各時刻tの前記入力変数x^の集合Xrに基づいて、前記ガウス分布のパラメータθr xを推論し、
前記収束判定部は、前記音量軌跡y^、前記入力変数の集合X、前記推論された各時刻tの前記インジケータ変数zt、前記推論された各状態rの前記ガウス過程パラメータθr GP、及び前記推論された各状態rの前記ガウス分布のパラメータθr xに基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返す請求項1記載の音響信号分析装置。 - 請求項1又は2記載の音響信号分析装置と、
前記音響信号分析装置によって出力された前記モデルパラメータと、前記抽出された音量軌跡y^及び前記入力変数x^の集合Xを記憶したパラメータデータベースと、
入力された予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出する予測用音符コンテキスト抽出部と、
各時刻tについて、前記パラメータデータベースに記憶された前記モデルパラメータ、前記音量軌跡y^、及び前記入力変数x^の集合Xと、前記予測用音符コンテキスト抽出部によって抽出された時刻tの前記入力変数x^とに基づいて算出される、時刻tの音量の予測分布を計算する予測分布計算部と、
各時刻tについて、前記予測分布計算部によって計算された時刻tの音量の予測分布に従って、時刻tの音量を予測することにより、音量軌跡y^を生成する音量軌跡生成部と、
を含む音量軌跡予測装置。 - 音量抽出部、音符コンテキスト抽出部、パラメータ初期値生成部、ガウス過程パラメータ推論部、入力変数空間パラメータ推論部、収束判定部、及びパラメータ出力部を含む音響信号分析装置における音響信号分析方法であって、
前記音量抽出部によって、入力された歌声を示す音響信号から音量軌跡y^を抽出するステップと、
前記音符コンテキスト抽出部によって、入力された楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出するステップと、
前記パラメータ初期値生成部によって、前記入力変数x^の空間におけるガウス分布のパラメータθ1 xと、前記入力変数x^の集合Xから音量軌跡y^を回帰するためのガウス過程におけるカーネル関数のパラメータを表すガウス過程パラメータθ 1 GP であり、かつ前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u 1,m の分布を表すパラメータである、カーネル関数の強度w 1 2 及びm番目のカーネル関数の優勢度ψ 1,m と、確率変数u 1,M+1 の分布を表すパラメータである、観測ノイズの分散パラメータη 1 2 とを含む前記ガウス過程パラメータθ 1 GP とからなるモデルパラメータの初期値を生成するステップと、
前記ガウス過程パラメータ推論部によって、前記音量軌跡y^、及び前記ガウス分布のパラメータθ1 xの初期値または前回更新された前記ガウス分布のパラメータθ1 xに基づいて、前記音量軌跡y^と、前記ガウス過程パラメータθ1 GPとが与えられたときの、前記音量軌跡y^を分解したM個のカーネル関数に対するM個の確率変数u1,mと確率変数u1,M+1との組からなる完全データの自己相関の条件付き期待値を計算し、計算された前記完全データの自己相関の条件付き期待値を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記ガウス過程パラメータθ1 GPの初期値または前回更新された前記ガウス過程パラメータθ1 GPに基づいて、前記目的関数を前記ガウス過程パラメータθ1 GPに関して最大化するように前記ガウス過程パラメータθ1 GPを更新することを繰り返して、前記ガウス過程パラメータθ1 GPを推論するステップと、
前記入力変数空間パラメータ推論部によって、前記入力変数x^の集合Xに基づいて、前記ガウス分布のパラメータθ1 xを推論するステップと、
前記収束判定部によって、前記音量軌跡y^、前記入力変数の集合X、前記推論された前記ガウス過程パラメータθ1 GP、及び前記推論された前記ガウス分布のパラメータθ1 xに基づく完全同時分布の値を算出し、前回算出した値との差分の絶対値が、閾値以下になったと判定されるまで、前記ガウス過程パラメータ推論部による推論及び前記入力変数空間パラメータ推論部による推論を繰り返すステップと、
前記パラメータ出力部によって、前記収束判定部により前記差分の絶対値が、閾値以下になったと判定された場合に、前記モデルパラメータを出力するステップと、
を含む音響信号分析方法。 - 請求項4に記載の音響信号分析方法の各ステップを含み、
前記音響信号分析方法によって出力された前記モデルパラメータと、前記抽出された音量軌跡y^及び前記入力変数x^の集合Xを記憶したパラメータデータベース、予測用音符コンテキスト抽出部、予測分布計算部、及び音量軌跡生成部を含む音量軌跡予測装置における音量軌跡予測方法であって、
前記予測用音符コンテキスト抽出部によって、入力された予測対象の楽譜データから、各音符のコンテキストデータを表す入力変数x^の集合Xを抽出するステップと、
前記予測分布計算部によって、各時刻tについて、前記パラメータデータベースに記憶された前記モデルパラメータ、前記音量軌跡y^、及び前記入力変数x^の集合Xと、前記予測用音符コンテキスト抽出部によって抽出された時刻tの前記入力変数x^とに基づいて算出される、時刻tの音量の予測分布を計算するステップと、
前記音量軌跡生成部によって、各時刻tについて、前記予測分布計算部によって計算された時刻tの音量の予測分布に従って、時刻tの音量を予測することにより、音量軌跡y^を生成するステップと、
を含む音量軌跡予測方法。 - コンピュータを、請求項1又は2に記載の音響信号分析装置の各部として機能させるためのプログラム。
- コンピュータを、請求項3に記載の音量軌跡予測装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013169970A JP6101599B2 (ja) | 2013-08-19 | 2013-08-19 | 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013169970A JP6101599B2 (ja) | 2013-08-19 | 2013-08-19 | 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015038586A JP2015038586A (ja) | 2015-02-26 |
JP6101599B2 true JP6101599B2 (ja) | 2017-03-22 |
Family
ID=52631674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013169970A Active JP6101599B2 (ja) | 2013-08-19 | 2013-08-19 | 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6101599B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6498141B2 (ja) * | 2016-03-16 | 2019-04-10 | 日本電信電話株式会社 | 音響信号解析装置、方法、及びプログラム |
-
2013
- 2013-08-19 JP JP2013169970A patent/JP6101599B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015038586A (ja) | 2015-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sigtia et al. | An end-to-end neural network for polyphonic piano music transcription | |
Ycart et al. | A study on LSTM networks for polyphonic music sequence modelling | |
JP7448053B2 (ja) | 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム | |
Harrison et al. | An energy-based generative sequence model for testing sensory theories of Western harmony | |
Nakamura et al. | Statistical piano reduction controlling performance difficulty | |
Gabrielli et al. | Introducing deep machine learning for parameter estimation in physical modelling | |
JP4796460B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP6271748B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP6101599B2 (ja) | 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム | |
Wada et al. | Sequential generation of singing f0 contours from musical note sequences based on wavenet | |
Ohishi et al. | Mixture of Gaussian process experts for predicting sung melodic contour with expressive dynamic fluctuations | |
JP5771575B2 (ja) | 音響信号分析方法、装置、及びプログラム | |
Ojima et al. | A Hierarchical Bayesian Model of Chords, Pitches, and Spectrograms for Multipitch Analysis. | |
Gupta et al. | Towards controllable audio texture morphing | |
Wilkinson et al. | Latent force models for sound: Learning modal synthesis parameters and excitation functions from audio recordings | |
Gabrielli et al. | A multi-stage algorithm for acoustic physical model parameters estimation | |
JP2012027196A (ja) | 信号分析装置、方法、及びプログラム | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
JP7243147B2 (ja) | コード推定方法、コード推定装置およびプログラム | |
Burlet | Guitar tablature transcription using a deep belief network | |
JP2015045755A (ja) | 音声合成モデル学習装置、方法、及びプログラム | |
JP5771582B2 (ja) | 音響信号分析装置、方法、及びプログラム | |
Gowrishankar et al. | Raga classification using enhanced spatial bound whale optimization algorithm | |
Brink | Dissection of a generative network for music composition | |
JP5318042B2 (ja) | 信号解析装置、信号解析方法及び信号解析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150626 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160705 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6101599 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |