JP5626793B2 - 基本周波数モデルパラメータ推定装置、方法、及びプログラム - Google Patents

基本周波数モデルパラメータ推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP5626793B2
JP5626793B2 JP2011043706A JP2011043706A JP5626793B2 JP 5626793 B2 JP5626793 B2 JP 5626793B2 JP 2011043706 A JP2011043706 A JP 2011043706A JP 2011043706 A JP2011043706 A JP 2011043706A JP 5626793 B2 JP5626793 B2 JP 5626793B2
Authority
JP
Japan
Prior art keywords
time series
fundamental frequency
acoustic signal
order differential
target value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011043706A
Other languages
English (en)
Other versions
JP2012181320A (ja
Inventor
康智 大石
康智 大石
弘和 亀岡
弘和 亀岡
永野 秀尚
秀尚 永野
柏野 邦夫
邦夫 柏野
一哉 武田
一哉 武田
達也 加古
達也 加古
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
Nippon Telegraph and Telephone Corp
Tokai National Higher Education and Research System NUC
Original Assignee
Nagoya University NUC
Nippon Telegraph and Telephone Corp
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya University NUC, Nippon Telegraph and Telephone Corp, Tokai National Higher Education and Research System NUC filed Critical Nagoya University NUC
Priority to JP2011043706A priority Critical patent/JP5626793B2/ja
Publication of JP2012181320A publication Critical patent/JP2012181320A/ja
Application granted granted Critical
Publication of JP5626793B2 publication Critical patent/JP5626793B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

本発明は、基本周波数モデルパラメータ推定装置、方法、及びプログラムに係り、特に、音響信号から、基本周波数生成系のフィルタ特性のパラメータを推定する基本周波数モデルパラメータ推定装置、方法、及びプログラムに関する。
従来、歌声情報処理に関する多くの研究では、これまで歌唱者が単独で歌った独唱を研究対象とした。その中でも、独唱の歌声の基本周波数(F0)系列に着目した様々な研究が現在盛んに行われている(例えば、非特許文献1)。これは、歌声の基本周波数系列には、歌唱者が歌おうとする音高目標値系列と歌唱力・歌唱スタイル・個人性・感情に基づく様々な動的変動成分(オーバーシュートやビブラートなど)とが複雑に重ね合わされており、これらを特徴抽出できれば、ハミング検索、鼻歌採譜、類似歌声検索、歌唱力自動評価、及び歌声合成のような様々な応用が期待されるためである。従来研究では、この基本周波数系列の生成過程は、バネ質量モデル(2階の線形微分方程式)に基づいて、以下の(1)式のように表現されている。
ここで、U(t)は、歌唱者が歌おうとする音高目標値系列(楽譜に記載される歌唱旋律)のFに相当する。F0(t)とU(t)はどちらも時間tの関数である。上記(1)式は、U(t)が外力(駆動源)となって、歌唱者のF0が生成されるモデルとして見ることができる。mはバネ質量モデルでいう質量、λは減衰定数、kはバネ定数に相当する。
また、上記(1)式のU(t)とm、λ、kとを手作業あるいは規則に従って与えて生成される基本周波数系列を利用して、表情豊かな歌声合成音を実現することが提案されている(非特許文献2)。U(t)とm、λ、kとがいずれも未知の下で、観測される基本周波数系列のみから、これらを同時に推定するフレームワークが提案されている(非特許文献3)。
また、合唱を対象とし、自身の歌声を他者の歌声に追従させる動作(引き込み現象)にかかる時間に着目して、歌唱技量を評価する技術が知られている(非特許文献4)。
後藤真孝,齋藤毅,中野倫靖,藤原弘将, "歌声情報処理:歌声を対象とした音楽情報処理," 情報処理学会音楽情報科学研究会,Vol.2010-MUS-86, No.4, 2010 T. Saitou, M. Unoki, and M. Akagi, "Development of an F0 control Model Based on F0 Dynamic Characteristics for Singing-Voice Synthesis," Speech Communication, vol.46, pp. 405−417, 2005 Y. Ohishi, H. Kameoka, D. Mochihashi, H. Nagano, K. Kashino,"Statistical Modeling of F0 Dynamics in Singing Voices Based on Gaussian Processes with Multiple Oscillation Bases," International Conference on Spoken Language Processing (INTERSPEECH 2010), pp. 2598−2601, 2010. 野田雄也, "合唱における基本周波数の同期現象に関する基礎研究,"JAIST 修士論文, 2008.
しかしながら、上記の非特許文献1〜3に記載の技術は、複数の歌唱者が同時に歌唱する合唱を対象とした技術ではない。合唱の場合、上述の「引き込み現象」のように、独唱にはない現象が見られる。また、上記の非特許文献4では、引き込みにかかる時間に着目しているものの、この引き込み現象を詳細に記述するモデルの構築には至っていない。
本発明は、上記の事情を考慮してなされたもので、合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができる基本周波数モデルパラメータ推定装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る基本周波数モデルパラメータ推定装置は、歌唱者の歌声を示す第1音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第2音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出する基本周波数抽出手段と、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列の1階微分時系列及び2階微分時系列を各々算出する数値微分算出手段と、前記第2音響信号の基本周波数時系列に対する前記第1音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記1階微分時系列、及び前記2階微分時系列の関係を表わす2階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するパラメータ推定手段と、を含んで構成されている。
本発明に係る基本周波数モデルパラメータ推定方法は、基本周波数抽出手段と、数値微分算出手段と、パラメータ推定手段とを含む基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、前記基本周波数モデルパラメータ推定装置は、前記基本周波数抽出手段によって、歌唱者の歌声を示す第1音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第2音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出するステップと、前記数値微分算出手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列の1階微分時系列及び2階微分時系列を各々算出するステップと、前記パラメータ推定手段によって、前記第2音響信号の基本周波数時系列に対する前記第1音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記1階微分時系列、及び前記2階微分時系列の関係を表わす2階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するステップと、を含んで実行することを特徴としている。
本発明に係る基本周波数モデルパラメータ推定装置及び基本周波数モデルパラメータ推定方法によれば、前記基本周波数抽出手段によって、歌唱者の歌声を示す第1音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第2音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出する。前記数値微分算出手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列の1階微分時系列及び2階微分時系列を各々算出する。
そして、前記パラメータ推定手段によって、前記第2音響信号の基本周波数時系列に対する前記第1音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記1階微分時系列、及び前記2階微分時系列の関係を表わす2階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定する。
このように、合唱する他者の第2音響信号の基本周波数時系列に対する歌唱者の第1音響信号の基本周波数時系列の引き込み現象をモデル化した2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定することにより、合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができる。
上記の2階の微分方程式を、以下の式で表す。
ただし、F0(t)は、前記第1音響信号の基本周波数時系列を表わし、V(t)は、前記第2音響信号の基本周波数時系列を表わし、U(t)は、前記音高目標値時系列の基本周波数時系列を表わす。d20(t)/dt2は、前記2階微分時系列を表わし、dF0(t)/dtは、前記1階微分時系列を表わす。a1、a2、a3、a4は、前記基本周波数生成系のフィルタ特性のパラメータである。
上記のパラメータ推定手段は、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを用いた重回帰分析により、前記2階の線形微分方程式のパラメータを推定するようにすることができる。
本発明に係る基本周波数モデルパラメータ推定装置は、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを正規化する正規化手段を更に含み、前記パラメータ推定手段は、前記正規化手段によって正規化された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の線形微分方程式のパラメータを推定するようにすることができる。
本発明に係る基本周波数モデルパラメータ推定方法は、正規化手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを正規化するステップを更に含み、前記基本周波数生成系のフィルタ特性のパラメータを推定するステップは、前記パラメータ推定手段によって、前記正規化手段によって正規化された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の線形微分方程式のパラメータを推定するようにすることができる。
本発明に係るプログラムは、上記の基本周波数モデルパラメータ推定装置の各手段としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の基本周波数モデルパラメータ推定装置、方法、及びプログラムによれば、合唱する他者の第2音響信号の基本周波数時系列に対する歌唱者の第1音響信号の基本周波数時系列の引き込み現象をモデル化した2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定することにより、合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができる、という効果が得られる。
提案モデルのイメージ図である。 本発明の実施の形態に係る基本周波数モデルパラメータ推定装置の構成を示す概略図である。 本発明の実施の形態に係る基本周波数モデルパラメータ推定装置における音響信号分析処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<概要>
まず、本発明で提案する基本周波数モデルパラメータ推定装置で用いる合唱歌唱モデルについて説明する。
本発明では、2階の線形微分方程式に基づいて、合唱歌唱における当該歌唱者のF0 の引き込み現象を記述する合唱歌唱モデルを提案する。具体的には、以下の(2)式で表現され、図1にその概略図を示す。
ここで、V(t)は当該歌唱者と同時に歌う他の歌唱者の歌声のF0に相当する。上記(2)式は、合唱する他の歌唱者の基本周波数時系列V(t)に対する当該歌唱者の基本周波数時系列F0(t)の引き込み現象をモデル化し、かつ、当該歌唱者の基本周波数時系列V(t)、他の歌唱者の基本周波数時系列V(t)、及び音高目標値時系列の基本周波数時系列U(t)、当該歌唱者の1階微分時系列F0(t)/dt、当該歌唱者の2階微分時系列F0(t)2/dt2の関係を表わす2階の線形微分方程式である。
また、上記(2)式は、U(t)とV(t)とが外力となって、当該歌唱者の歌声のF0が生成されるモデルとして見ることができる。上記(1)式の独唱の場合との違いは、新たにV(t)が外力として加わっている点である。ここで、mはバネ質量モデルでいう質量、λは減衰定数、ku、kvはバネ定数に相当する。
さらに、上記(2)式を以下の(3)式のように変形し、a1,a2,a3,a4が合唱中における当該歌唱者の技量や歌唱スタイルなどを記述説明する、当該歌唱者の基本周波数生成系のフィルタ特性パラメータと考える。
例えば、歌唱訓練が乏しく、楽譜通りに歌えない素人歌唱者は、a4 に比べてa3 の値が大きくなる。これは合唱中に素人歌唱者が他の歌唱者の歌声を当てにする(他の歌唱者のF0の変動に強く影響を受ける)ためである。一方で、歌唱訓練を受けたことのある経験者は、a3 に比べてa4 の値が大きくなる。これは、経験者が素人歌唱者に比べて、楽譜上の音符列を正しく認識して歌い、他者の歌声の影響を受けにくいためである。
次に、当該歌唱者の基本周波数生成系のフィルタ特性パラメータの推定方法について説明する。
0(t)、U(t)、V(t)が与えられたときに、以下のように、上記(3)式のパラメータa1,a2,a3,a4を推定する。
まず、F0(t)、U(t)、V(t)を、F0n、Un、Vn(n=1, …, N、ただしNは時間フレームの総数) のように離散時間で表現する。
そして、F0(t)の1階微分と2階微分を、以下の(4)式、(5)式のように数値微分によって近似する。
上記(4)式、(5)式により、上記(3)式は、以下の(6)式で記述できる。
したがって、観測可能なF0n、ΔF0n、Δ20n、Un、Vn(n=1,…,N)を利用した重回帰分析によって、パラメータa1,a2,a3,a4を推定する。なお、重回帰分析としては、例えば、非特許文献(C. M. Bishop, “Pattern Recognition and Machine Learning,” Springer, 2010.)に記載されている手法と同様の手法を用いればよいため、詳細な説明を省略する。
<システム構成>
次に、当該歌唱者の歌声音響信号、歌唱者と同時に歌唱する他者の歌声音響信号、及び音高目標値時系列を入力として、当該歌唱者の基本周波数生成系のフィルタ特性パラメータを推定して出力する基本周波数モデルパラメータ推定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。なお、当該歌唱者の歌声音響信号は、第1音響信号の一例であり、他者の歌声音響信号は、第2音響信号の一例であり、
本実施の形態に係る基本周波数モデルパラメータ推定装置は、CPUと、RAMと、後述する音響信号分析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図2に示すように、基本周波数モデルパラメータ推定装置は、記憶部1と、基本周波数抽出部2と、数値微分算出部3と、フィルタ特性パラメータ推定部4と、パラメータ出力部5とを備えている。
記憶部1は、観測された当該歌唱者の歌声音響信号の時系列データ、観測された歌唱者と同時に歌唱する他者の歌声音響信号の時系列データ、及び音高目標値の時系列データを記憶する。
基本周波数抽出部2は、当該歌唱者の歌声音響信号の時系列データ、他者の歌声音響信号の時系列データ、及び音高目標値の時系列データの各々から、基本周波数の時系列データを抽出し、それらを離散時間で表現するように変換して、当該歌唱者の基本周波数の時系列データF0n、他者の基本周波数の時系列データVn、音高目標値の基本周波数の時系列データUn(n=1,…,N)とする。この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献(A de Cheveign´e and H. Kawahara,“ YIN, a fundamental frequency estimator for speech and music,” Journal of the Acoustical Society of America, vol.111, no.4, pp. 1917-1930, 2002)で提案される基本周波数推定法YIN を利用して、5msごとに基本周波数を推定する。
数値微分算出部3は、推定された当該歌唱者の基本周波数の時系列データから、上記(4)式、(5)式に従って、各時刻の数値微分を算出することにより、1階微分の時系列データΔF0n及び2階微分の時系列データΔ20n (n=1,…,N)を算出する。
フィルタ特性パラメータ推定部4は、基本周波数抽出部2で抽出したF0n、Vn、Un、および数値微分算出部3で計算されたΔF0n20n(n=1,…,N)の各々を、各標準偏差で除算することにより、各値を正規化し、正規化されたF0n、Vn、Un、ΔF0n20n(n=1,…,N)に基づいて、重回帰分析により、上記(6)式のパラメータa1,a2,a3,a4を、フィルタ特性パラメータとして推定する。
パラメータ出力部5は、フィルタ特性パラメータ推定部4で推定したフィルタ特性パラメータa1,a2,a3,a4を出力する。
<基本周波数モデルパラメータ推定装置の作用>
次に、本実施の形態に係る基本周波数モデルパラメータ推定装置の作用について説明する。まず、分析対象の音響信号として、観測された当該歌唱者の歌声音響信号の時系列データ、歌唱者と同時に歌唱する他者の歌声音響信号の時系列データ、及び音高目標値の時系列データが、基本周波数モデルパラメータ推定装置に入力され、記憶部1に格納される。そして、基本周波数モデルパラメータ推定装置において、図3に示す音響信号分析処理ルーチンが実行される。
まず、ステップ100において、記憶部1から、当該歌唱者の歌声音響信号の時系列データ、歌唱者と同時に歌唱する他者の歌声音響信号の時系列データ、及び音高目標値の時系列データを読み込み、各時系列データに対して、基本周波数の時系列データF0n、Vn、Un(n=1,…,N)を抽出する。
そして、ステップ102において、上記ステップ100で抽出された当該歌唱者の基本周波数の時系列データF0nについて、1階微分の時系列データΔF0n及び2階微分の時系列データΔ20nを算出する。次のステップ104では、上記ステップ100で抽出された当該歌唱者の基本周波数の時系列データF0n、他者の基本周波数の時系列データVn、及び音高目標値の基本周波数の時系列データUnの各々を正規化すると共に、上記ステップ102で算出された1階微分の時系列データΔF0n及び2階微分の時系列データΔ20nの各々を正規化する。
そして、ステップ106において、上記ステップ104で正規化された、当該歌唱者の基本周波数の時系列データF0n、他者の基本周波数の時系列データVn、音高目標値の基本周波数の時系列データUn、1階微分の時系列データΔF0n、及び2階微分の時系列データΔ20nに基づいて、重回帰分析により、上記(6)式におけるパラメータa1,a2,a3,a4を推定する。
そして、ステップ108で、上記ステップ106で推定されたパラメータa1,a2,a3,a4を出力して、音響信号分析処理ルーチンを終了する。
次に、上記の実施の形態に係る手法を適用して実験を行った結果について説明する。ここでは、上記の実施の形態に係る基本周波数モデルパラメータ推定装置を実装して、推定されたフィルタ特性パラメータa1,a2,a3,a4を定性的に評価した。
まず、実験に用いるための歌声を準備した。歌唱力の異なる歌声を収集するために、大学の混声合唱団に所属するバスパートの男性歌唱者(歌唱訓練歴平均4.5年、以後、経験者と呼ぶ)4名と歌唱訓練を受けたことのない男性学生(以後、素人と呼ぶ)3名に協力を依頼した。収録場所は低残響室とし、歌唱者にはヘッドフォンを装着させ、右耳から伴奏音(歌唱旋律)を左耳からは自身の歌声と他者の歌声が聴こえるように設定した。歌唱曲は「ふるさと」とし、その1番詞のバスパートの斉唱を収録した。まず初めに、経験者1名が伴奏音とプロの声楽家の歌声をヘッドフォンで聴きながら歌唱した歌声を収録した。この歌声を随伴歌唱と呼び、ヘッドフォンの左耳から流れてくる他者の歌声として利用した。そして、残りの3名の経験者と3名の素人がそれぞれ、随伴歌唱と伴奏音(音高目標値の時系列データ)をヘッドフォンで聴きながら歌唱した歌声を3回収録した。同時に、伴奏音だけを聴きながらの歌声(独唱)も3回収録した。
また、重回帰分析を行う前に、抽出された基本周波数F0n,ΔF0n20n,Un,Vnを各々の標準偏差で割り、基本周波数の正規化を行った。随伴歌唱受聴時の歌唱から重回帰分析によって求めたパラメータa1,a2,a3,a4の推定結果を以下の表1に示す。独唱歌唱の重回帰分析の結果を以下の表2に示す。εは重回帰分析によって得られる誤差成分である。
独唱に対しては、上記(6)式のVの項の係数a3を推定しない。随伴歌唱受聴時のa4/(a3 +a4)の値が、素人よりも経験者が高い値となった。このことから経験者は、たとえ随伴歌唱を聴きながら歌唱したとしても、自身のもつ目標音高(楽譜に記載される歌唱旋律)に重きをおいて歌唱すると言える。また、独唱に比べて随伴歌唱を受聴することでa4 の値が減少している。これは、楽譜情報のみを意識して歌った独唱時と比べて、随伴歌唱を受聴することで楽譜情報を意識して歌唱する重みが低減したことを示す。a1 の絶対値は素人に比べ経験者が低い値であり、a1 は粘性項に相当するため、経験者のF0が減衰せずビブラートを維持する歌唱法であることが分かる。
以上の実験より、経験者と素人による合唱歌唱では、ヘッドフォンから受聴する歌唱旋律と随伴歌唱への注視の比重が異なることを確認した。
以上説明したように、本発明の実施の形態に係る基本周波数モデルパラメータ推定装置によれば、合唱する他者の歌声音響信号の基本周波数時系列に対する歌唱者の歌声音響信号の基本周波数時系列の引き込み現象をモデル化した2階の線形微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定することにより、合唱中の歌唱者の基本周波数生成系のフィルタ特性を精度よく推定することができる。
また、抽出される各基本周波数時系列を正規化してから、2階の線形微分方程式のパラメータを推定することにより、個人の声の高さの違いを吸収することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、2階の線形微分方程式を用いて、合唱する他者の歌声音響信号の基本周波数時系列に対する歌唱者の歌声音響信号の基本周波数時系列の引き込み現象をモデル化した場合を例に説明したが、これに限定されるものではなく、例えば、2階の非線形微分方程式を用いてモデル化してもよい。
また、合唱している他者が1名である場合を例に説明したが、これに限定されるものではなく、合唱している他者が複数名であってもよい。この場合には、合唱している複数の他者の歌唱音響信号を入力として用いればよい。
また、重回帰分析により、2階の微分方程式のパラメータを推定する場合を例に説明したが、これに限定されるものではなく、従来既知の他の手法により、各種の基本周波数の時系列データに基づいて、2階の微分方程式のパラメータを推定するようにしてもよい。
上述の基本周波数モデルパラメータ推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 記憶部
2 基本周波数抽出部
3 数値微分算出部
4 フィルタ特性パラメータ推定部
5 パラメータ出力部

Claims (7)

  1. 歌唱者の歌声を示す第1音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第2音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出する基本周波数抽出手段と、
    前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列の1階微分時系列及び2階微分時系列を各々算出する数値微分算出手段と、
    前記第2音響信号の基本周波数時系列に対する前記第1音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記1階微分時系列、及び前記2階微分時系列の関係を表わす2階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するパラメータ推定手段と、
    を含み、
    前記2階の微分方程式を、以下の式で表した
    基本周波数モデルパラメータ推定装置。

    ただし、F 0 (t)は、前記第1音響信号の基本周波数時系列を表わし、V(t)は、前記第2音響信号の基本周波数時系列を表わし、U(t)は、前記音高目標値時系列の基本周波数時系列を表わす。d 2 0 (t)/dt 2 は、前記2階微分時系列を表わし、dF 0 (t)/dtは、前記1階微分時系列を表わす。a 1 、a 2 、a 3 、a 4 は、前記基本周波数生成系のフィルタ特性のパラメータである。
  2. 前記パラメータ推定手段は、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを用いた重回帰分析により、前記2階の線形微分方程式のパラメータを推定する請求項1記載の基本周波数モデルパラメータ推定装置。
  3. 前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを正規化する正規化手段を更に含み、
    前記パラメータ推定手段は、前記正規化手段によって正規化された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の線形微分方程式のパラメータを推定する請求項1又は2記載の基本周波数モデルパラメータ推定装置。
  4. 基本周波数抽出手段と、数値微分算出手段と、パラメータ推定手段とを含む基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、
    前記基本周波数モデルパラメータ推定装置は、
    前記基本周波数抽出手段によって、歌唱者の歌声を示す第1音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第2音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出するステップと、
    前記数値微分算出手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列の1階微分時系列及び2階微分時系列を各々算出するステップと、
    前記パラメータ推定手段によって、前記第2音響信号の基本周波数時系列に対する前記第1音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記1階微分時系列、及び前記2階微分時系列の関係を表わす2階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するステップと、
    を含んで実行し、
    前記2階の微分方程式を、以下の式で表した
    基本周波数モデルパラメータ推定方法。

    ただし、F 0 (t)は、前記第1音響信号の基本周波数時系列を表わし、V(t)は、前記第2音響信号の基本周波数時系列を表わし、U(t)は、前記音高目標値時系列の基本周波数時系列を表わす。d 2 0 (t)/dt 2 は、前記2階微分時系列を表わし、dF 0 (t)/dtは、前記1階微分時系列を表わす。a 1 、a 2 、a 3 、a 4 は、前記基本周波数生成系のフィルタ特性のパラメータである。
  5. 前記基本周波数生成系のフィルタ特性のパラメータを推定するステップは、前記パラメータ推定手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを用いた重回帰分析により、前記2階の線形微分方程式のパラメータを推定する請求項記載の基本周波数モデルパラメータ推定方法。
  6. 正規化手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを正規化するステップを更に含み、
    前記基本周波数生成系のフィルタ特性のパラメータを推定するステップは、前記パラメータ推定手段によって、前記正規化手段によって正規化された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の線形微分方程式のパラメータを推定する請求項4又は5記載の基本周波数モデルパラメータ推定方法。
  7. コンピュータを、請求項1〜請求項の何れか1項記載の基本周波数モデルパラメータ推定装置の各手段として機能させるためのプログラム。
JP2011043706A 2011-03-01 2011-03-01 基本周波数モデルパラメータ推定装置、方法、及びプログラム Active JP5626793B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011043706A JP5626793B2 (ja) 2011-03-01 2011-03-01 基本周波数モデルパラメータ推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011043706A JP5626793B2 (ja) 2011-03-01 2011-03-01 基本周波数モデルパラメータ推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012181320A JP2012181320A (ja) 2012-09-20
JP5626793B2 true JP5626793B2 (ja) 2014-11-19

Family

ID=47012577

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011043706A Active JP5626793B2 (ja) 2011-03-01 2011-03-01 基本周波数モデルパラメータ推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5626793B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102277952B1 (ko) * 2019-01-11 2021-07-19 브레인소프트주식회사 디제이 변환에 의한 주파수 추출 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099014A (ja) * 1998-09-22 2000-04-07 Ntt Data Corp 音楽自動採点装置、音楽自動採点モデル作成装置、音楽自動採点モデル作成方法、音楽自動採点方法、及び、記録媒体
JP5188300B2 (ja) * 2008-07-14 2013-04-24 日本電信電話株式会社 基本周波数軌跡モデルパラメータ抽出装置、基本周波数軌跡モデルパラメータ抽出方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
JP2012181320A (ja) 2012-09-20

Similar Documents

Publication Publication Date Title
US11551708B2 (en) Label generation device, model learning device, emotion recognition apparatus, methods therefor, program, and recording medium
Pirker et al. A Pitch Tracking Corpus with Evaluation on Multipitch Tracking Scenario.
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
Tarunika et al. Applying machine learning techniques for speech emotion recognition
JP6004358B1 (ja) 音声合成装置および音声合成方法
CN103915093B (zh) 一种实现语音歌唱化的方法和装置
US9852743B2 (en) Automatic emphasis of spoken words
Pravena et al. Development of simulated emotion speech database for excitation source analysis
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2016090775A (ja) 応答生成装置、応答生成方法およびプログラム
He et al. Study of wavelet packet energy entropy for emotion classification in speech and glottal signals
RU2510954C2 (ru) Способ переозвучивания аудиоматериалов и устройство для его осуществления
JP5626793B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
Koriyama et al. A comparison of speech synthesis systems based on GPR, HMM, and DNN with a small amount of training data.
Xue et al. Emotional speech synthesis system based on a three-layered model using a dimensional approach
Saheer et al. Combining vocal tract length normalization with hierarchical linear transformations
Lee et al. A comparative study of spectral transformation techniques for singing voice synthesis.
JP2017097332A (ja) 音声合成装置および音声合成方法
Přibil et al. GMM-based evaluation of emotional style transformation in czech and slovak
JP5771575B2 (ja) 音響信号分析方法、装置、及びプログラム
Athanasopoulos et al. 3D immersive karaoke for the learning of foreign language pronunciation
JP5318042B2 (ja) 信号解析装置、信号解析方法及び信号解析プログラム
Pravena et al. Significance of natural elicitation in developing simulated full blown speech emotion databases
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Lee et al. A study of F0 modelling and generation with lyrics and shape characterization for singing voice synthesis

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20121001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20121001

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20121002

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140520

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140716

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140924

R150 Certificate of patent or registration of utility model

Ref document number: 5626793

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350