JP5143809B2 - 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム - Google Patents

時空間分解装置、発話リズム変換装置、これらの方法及びプログラム Download PDF

Info

Publication number
JP5143809B2
JP5143809B2 JP2009235243A JP2009235243A JP5143809B2 JP 5143809 B2 JP5143809 B2 JP 5143809B2 JP 2009235243 A JP2009235243 A JP 2009235243A JP 2009235243 A JP2009235243 A JP 2009235243A JP 5143809 B2 JP5143809 B2 JP 5143809B2
Authority
JP
Japan
Prior art keywords
time
matrix
time function
storage unit
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009235243A
Other languages
English (en)
Other versions
JP2011081305A (ja
Inventor
定男 廣谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009235243A priority Critical patent/JP5143809B2/ja
Publication of JP2011081305A publication Critical patent/JP2011081305A/ja
Application granted granted Critical
Publication of JP5143809B2 publication Critical patent/JP5143809B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Description

この発明は、LSP(Line Spectrum Pair:線スペクトル対)パラメータや調音パラメータ等の多次元時系列信号を空間行列と時間関数とに分解する技術、音声信号の発話リズムを制御する技術に関する。
これまでに、与えられた音声信号の発話リズムを変換する方法として、2次元磁気センサシステムを用いて計測した、下歯茎、上唇、下唇、舌上の3点のそれぞれの水平および垂直位置から計算される調音パラメータの速度(調音速度)を用いる方法が提案されている。しかしながら、調音速度の値は話者の声道長などに依存するため、ある話者の発話リズムを他の話者に与える場合には、予め調音速度の値の正規化などが必要となる。
ところで、LSPパラメータや調音パラメータのような時間長Tのp次元の時系列信号Y(p×T)を、空間行列A(p×m)と時間関数F(m×T)に分解するTemporal Decomposition(TD)という手法が提案されている(例えば、非特許文献1参照。)。これは、Y=AF、つまり、
Figure 0005143809
という分解を行う。ここで、mは基底の数であり、例えば分析の対象となる発話に含まれる音素の数+2とすればよい。y’(t)は空間行列A及び時間関数Fで表わされる時系列信号Y’の時刻tのi次元目の成分であり、ai,kは空間行列Aのi行k列目の成分であり、f(t)は時間関数Fのk行t列目の成分である。この分解は一意に決まらないため、時間関数に制約を加えることが一般的である。
非特許文献2では、f(t)が区間tk−1≦t≦tk+1においてのみ値を持つという時間関数の局所化のアイディアを導入している。
Figure 0005143809
上式より、区間tk−1≦t≦tにおける歪み(y’(t)の近似誤差)は当該区間のパラメータのみに依存するため、ai,k=y(t)と固定した場合、時刻tと時間関数f(t)は、最小二乗法とダイナミックプログラミングを用いることで、局所区間をつなぎ合わせた全区間に対する歪みを最小にするように決定できる。
時間関数は発話リズムを特徴づけるパラメータとして有効であると考えられるが、ある話者の発話リズムを他の話者に与えることを考えた場合、時間関数は[0,1]の範囲で正規化されるという特性が望まれる。しかし、非特許文献2の方法ではこの特性が保証されない。ここで、時間関数を[0,1]の範囲で正規化するとは、時間関数の各成分f(t)が[0,1]の範囲に含まれるようにすることである。
そのため、非特許文献3では、時間関数は[0,1]という特性に着目し、事後的に時間関数の各成分に対して[0,1]の範囲でクリッピングを行うことを提案している。[0,1]の範囲におけるクリッピングとは、f(t)が1より大きければ1とし、0より小さければ0とする処理である。
B.S.Atal, "Efficient Coding of LPC Parameters by Temporal Decomposition", ICASSP, 81-84, 1983. 白木、誉田、「スペクトル歪最小化規準に基づく時間パタンの抽出」、日本音響学会講演論文集(秋)、233-234、1991. P.C.Nguyen, T.Ochi, M.Akagi, "Modified Restricted Temporal Decomposition and Its Application to Low Rate Speech Coding", IEICE Trans. Inf. & Syst., Vol.E86-D, No.3, 2003.
このように、非特許文献2では時間関数は[0,1]の範囲で正規化されておらず、また非特許文献3では時間関数のクリッピングを行なうため全区間に対する歪みが最小になることが保証されていないという問題があった。
この発明は、時間関数が[0,1]の範囲で正規化され、全区間に対する歪みが最小になることが保証された時空間分解装置、この装置を用いた発話リズム変換装置、これらの方法及びプログラムを提供することを目的とする。
時間長Tのp次元の時系列信号Yの時刻tのi次元目の成分をy(t)とし、p×mの空間行列Aのi行k列目の成分をai,kとし、m×Tの時間関数Fのk行t列目の成分をf(t)とし、1=t<t<…<t<…<t=Tとして、ai,kが非負であり、f(t)がtk−1≦t≦tk+1において非負の値を持ち1≦t<tk−1及びtk+1<t≦Tにおいてf(t)=0であり、すべての時刻tにおいてf(t)+fk−1(t)=1であるという制約条件の下で、非負行列因子分解及びダイナミックプログラミングにより、時系列信号Yを分解して空間行列A及び時間関数Fを計算する。
i,kが非負、f(t)がtk−1≦t≦tk+1において非負でありすべての時刻tにおいてf(t)+fk−1(t)=1であるという制約条件の下で、非負行列因子分解及びダイナミックプログラミングを用いて、時系列信号Yの分解を行うことにより、時間関数が[0,1]の範囲で正規化される。また、クリッピングを行わないために、全区間に対する歪みを最小にすることが保証される。
時空間分解装置の例の機能ブロック図。 発話リズム変換装置の例の機能ブロック図。 時空間分解方法の例の流れ図。 発話リズム変換方法の例の流れ図。 実験結果を示す図。 実験結果を示す図、(a)は話者1の調音パラメータ、(b)は話者2の調音パラメータ、(c)は話者1の空間行列と話者2の時間関数を合成することにより得られた調音パラメータ。 実験結果を示す図、(a)は「あいう」と発声した際の調音パラメータから計算した時間関数、(b)は「い」を少し早めに発声するように(a)の時間関数を変換した時間関数、(c)と(d)は、図7(a)の発声における舌1の垂直方向の調音パラメータ。
[時空間分解装置及び方法]
時空間分解装置及び方法は、入力された時間長Tのp次元の時系列信号Yを、p×mの空間行列Aとm×Tの時間関数Fとに分解する。p、m、Tは自然数である。下歯茎、上唇、下唇、舌上の3点の計6個の位置の垂直位置及び水平位置の計12個の位置情報を例えば用いる場合には、p=12とする。mは、発話に含まれる音素の数+2とする。
分解された空間行列A及び時間関数Fで表わされる時系列信号Y’の時刻tのi次元目の成分をy’(t)、空間行列Aのi行k列目の成分をai,k、時間関数Fのk行t列目の成分をf(t)と表記すると、空間行列A及び時間関数Fへの分解は以下の式のように表記することができる。時系列信号Y’は、時系列信号Y自体ではなく、分解された空間行列A及び時間関数Fで表わされる時系列信号Yの近似値である。
Figure 0005143809
この発明では、時空間分解部1が、1=t<t<…<t<…<t=Tとして、ai,kが非負であり、f(t)がtk−1≦t≦tk+1において非負の値を持ち1≦t<tk−1及びtk+1<t≦Tにおいてf(t)=0であり、すべての時刻tにおいてf(t)+fk−1(t)=1という制約条件の下で、式(1)の歪み、言い換えれば時系列信号Yと時系列信号Y’の差を最小化する空間行列A、時間関数F及び時刻tを求める。そのためには、時空間分解部1が、以下の評価関数を非負行列因子分解(NMF:Non-negative Matrix Factorization)及びダイナミックプログラミングにより最小化すれば良い。
Figure 0005143809
(t)は時系列信号Yの時刻tのi次元目の成分であり、αはf(t)+fk−1(t)=1という制約条件をどの程度考慮するかどうかを定める定数である。αが大きい程f(t)+fk−1(t)=1という制約条件を強く考慮することになる。例えばα=10とする。
(t)がtk−1≦t≦tk+1において非負の値を持ち1≦t<tk−1及びtk+1<t≦Tにおいてf(t)=0であるとは、言い換えれば、
Figure 0005143809
ということであり、この制約条件は上記評価関数の第一項に対応している。
非負行列因子分解の詳細は、参考文献1を参照のこと。ダイナミックプログラミングの詳細は、非特許文献2を参照のこと。
〔参考文献1〕D.D.Lee, H.S.Seung, “Learning the parts of objects by non-negative matrix factorization”, Nature, 401, 788-791, 1999.
図1に例示するように、時空間分解部1は、時間関数計算部11、時刻計算部12及び空間行列計算部13を含む。
図3に例示するように、まず、時間関数計算部11が非負行列因子分解により時間関数Fを求め(ステップS1)、時刻計算部12がダイナミックプログラミングにより時刻tを求める(ステップS2)。次に得られた時間関数F及び時刻tを用いて、非負行列因子分解により、空間行列Aを求める(ステップS3)。以下、各ステップを詳細に説明する。
<ステップS1>
時間関数計算部11は、αを定数とし、t,…,tm−1を予め定められた初期値に固定し、ai,kを初期値y(t)に固定して、下記の更新式
Figure 0005143809
により区間tk−1≦t≦tの各tについてのf(t)及びfk−1(t)を繰り返し更新することにより求める(ステップS1)。f(t)の初期値が非負であれば、非負に更新されることが保証されている。求まったf(t)及びfk−1(t)は、時刻計算部12及び空間行列計算部13に送られる。
(t)、fk−1(t)の初期値は非負の乱数でよいが、例えば次式により定まる値を用いてもよい。
Figure 0005143809
時刻t,…,tm−1の初期値は、それぞれ発話に含まれるm−2個の音素の中心時刻とする。
(t)及びfk−1(t)の更新の回数は求める精度、仕様に応じて適宜定められる。一般に、f(t)及びfk−1(t)の更新の回数が多いほど、f(t)及びfk−1(t)の精度が高くなる。例えば、tk−1≦t≦tにおいて、N−1回目の更新後の次式で表わされる歪みと、N回目の更新後の次式で表わされる歪みとの差が所定の閾値(例えば10−3)以下になるまで更新する。
Figure 0005143809
<ステップS2>
時刻計算部12は、f(t)及びfk−1(t)を上記求まったf(t)及びfk−1(t)に固定し、ai,kを初期値y(t)に固定し、y(t)とy’(t)の差d(y(t),y’(t))の和
Figure 0005143809
を最小にするt,…,tm−1を、ダイナミックプログラミングにより求める(ステップS2)。すなわち、
Figure 0005143809
となるt(k=2,…,m−1)をダイナミックプログラミングにより求める。求まった時刻t(k=2,…,m−1)は空間行列計算部13と、必要に応じて時間関数計算部11とに送られる。
ここで、y(t)は、y(t)(i=1,…,p)を成分とする、時系列信号Yの時刻tのp次元ベクトルをy(t)であり、y’(t)は、y’(t)(i=1,…,p)を成分とする、時系列信号Y’の時刻tのp次元ベクトルである。
Figure 0005143809
上記求まったf(t)及びfk−1(t)及びai,kの初期値から、上記式(2)によりy’(t)が求まり、これからy’(t)が定まる。
y(t)とy’(t)の差d(y(t),y’(t))は、どのような差を用いてもよい。例えば、d(y(t),y’(t))を以下のように定める。
Figure 0005143809
なお、評価関数で用いた誤差と、ダイナミックプログラミングで用いる誤差の定義が同一であると、全区間に対する歪みを最小にすることが保証される。したがって、例えば上記のようにダイナミックプログラミングで用いる誤差として絶対誤差Σi=1 |y(t)−y’(t)|を用いた場合には、評価関数の誤差として絶対誤差を用いるとよい。
例えば、時刻計算部12は、区間[t−δ,t+δ]に含まれるtのそれぞれについて、次式により定まるD(t)を最小にするtk−1を求める。これを、k=2からk=m−1まで逐次行い、t,…,tm−1を逐次求める。δは予め定められた定数であり、求める精度、仕様に応じて適宜定められる。D(t)は、時刻tでの最小累積歪みである。
Figure 0005143809
最終的に、区間[tm−1−δ,tm−1+δ]に含まれるtm−1のそれぞれについてのD(tm−1)が求まる。時刻計算部12は、この中で最小となるD(tm−1)を求めて、この最小のD(tm−1)に対応するt,…,tm−1を出力する。
<ステップS3>
空間行列計算部13は、f(t)及びfk−1(t)を上記求まったf(t)及びfk−1(t)に固定し、t,…,tm−1を上記求まったt,…,tm−1に固定して、下記の更新式
Figure 0005143809
によりai,kを繰り返し更新することにより求める(ステップS3)。
i,kの初期値はどのような値でも良いが、例えばy(t)とする。
i,kの更新の回数は求める精度、仕様に応じて適宜定められる。一般に、ai,kの更新の回数が多いほど、ai,kの精度が高くなる。例えば、例えば、tk−1≦t≦tにおいて、N−1回目の更新後の次式で表わされる歪みと、N回目の更新後の次式で表わされる歪みとの差が所定の閾値(例えば10−3)以下になるまで更新する。
Figure 0005143809
このように、ai,kが非負、f(t)がすべての時刻tにおいてtk−1≦t≦tk+1において非負でありf(t)+fk−1(t)=1であるという制約条件の下で、非負行列因子分解及びダイナミックプログラミングを用いて、時系列信号Yの分解を行うことにより、時間関数が[0,1]の範囲で正規化される。また、クリッピングを行わないために、全区間に対する歪みを最小にすることが保証される。
[発話リズム変換装置及び方法]
時空間分解装置及び方法を、発話リズム変換装置及び方法に適用することができる。
図2は発話リズム変換装置の例の機能ブロック図であり、図4は発話リズム変換方法の例の流れ図である。
発話リズム変換装置は、時空間分解部1、空間行列記憶部2、時間関数記憶部3及び合成部4を例えば含む。
時空間分解部1及びステップS1からステップS4は、[時空間分解装置及び方法]の欄で説明したのと同様であるため説明を略する。
空間行列記憶部2には、時空間分解部1で計算された異なる複数の空間行列が記憶されている。
時間関数記憶部3には、時空間分解部1で計算された異なる複数の時間関数が記憶されている。
合成部4は、空間行列記憶部2から読み込んだ空間行列と、時間関数記憶部3から読み込んだ時間関数とを合成して音声信号を生成する(ステップS5)。例えば、ある発話についての甲さんの空間行列と、その発話と同一の発話に対する乙さんの時間関数とを合成することにより、その発話を乙さんの発話リズムに変換することができる。
また、図2に破線で示した変換部5が、空間行列記憶部2から読み込んだ空間行列と、時間関数記憶部3から読み込んだ時間関数との少なくとも一方を変換し(ステップS6)、合成部4がこれらの変換された空間行列及び/又は時間関数を用いて合成を行ってもよい。
変換部5は、例えば舌1(図6のT1)の動きをz倍に大きくしたい場合には、空間行列記憶部2から読み込んだ空間行列Aの該当する行ai,1,…,ai,mに対する平均をまず計算する。
平均a=(ai,1+…+ai,m)/m
次に、ai,1の値をz×(ai,1−平均a)+平均aに置き換える。そして、この操作をai,2からai,mまで行う。
空間行列のみが変換された場合には、合成部4は、変換された空間行列と、時間関数記憶部3から読み込んだ時間関数とを合成する。時間関数のみが変換された場合には、合成部4は、変換された時間関数と、空間行列記憶部2から読み込んだ空間行列とを合成する。空間行列と時間関数の両方が変換された場合には、合成部4は、変換された空間行列と変換された時間関数とを合成する。
[実験結果]
予め音素に対応する調音時点の初期時刻tを用意しておく。これがない場合はすべての可能な時刻に対して歪みを計算する必要がある。αは予備実験の結果10とした。図5にδを変化させた場合の調音パラメータの推定誤差を示す。ここでは、提案法と非特許文献3による従来法を比較する。入力データは、2次元磁気センサシステムを用いて毎秒250回のレートで計測された下歯茎1点、上・下唇それぞれ1点、舌上の3点の計6点の水平および垂直位置である。発声資料は、「午後はたまった書類に目を通します」などの日本語16文章を用いた。図5より、すべてのδに対して推定誤差は提案法が従来法よりも小さくなっており、提案法の有効性を示している。
また、図6に話者2の発話リズムを話者1に与えた例を示す。発声資料は「午後はたまった書類に目を通します」である。(a)は話者1の調音パラメータである。(b)は話者2の調音パラメータである。(c)は話者1の空間行列に、話者2の時間関数を合成した、話者1の調音パラメータである。パラメータは、上から順番に、下歯茎(LI)、上唇(UL)、下唇(LL)、舌1(T1)、舌2(T2)、舌3(T3)の垂直方向の調音位置である。横軸は時間(フレーム)である。Cの調音パラメータの時間特性は、Bのそれに似ており、提案法の有効性を示している。
図7(a)に「あいう」と発声した際の調音パラメータから計算した時間関数を示す。図7(b)は「い」を少し早めに発声するように図7(a)の時間関数を変換した時間関数である。図7(c)の細線は図7(a)の発声における舌1の垂直方向の調音パラメータである。図7(c)の太線は「あいう」の空間行列と図7(b)の時間関数を合成したものであるが、時間関数の変換により、調音パラメータが時間的に早い変化を示していることが分かる。図7(d)の細線は図7(c)の細線と同じであるが、図7(d)の太線は、調音器官を2倍大きく動かす発声となるよう、空間行列の値を変換して、図7(A)の時間関数と合成した調音パラメータである。
[変形例等]
時空間分解部1は、時刻計算部12が計算した時刻tを出力してもよい。この時刻tは音声認識、音声合成、音声符号化等で音素の中心の決定に用いることができる。
既に求まったf(t)及びfk−1(t)、t、ai,kを用いて、f(t)及びfk−1(t)、t、ai,kの何れかを再計算してもよい。再計算することにより、より精度の高い分解を行うことができる。
例えば、ステップS3でai,kを生成した後に、再度時間関数Fの計算をしてもよい(ステップS4)。この場合、時刻tをステップS2で求まった時刻tで固定し、ai,kをステップS3で求まったai,kで固定し、ステップS2で求まったf(t)及びfk−1(t)をf(t)及びfk−1(t)の初期値として、<ステップS1>の欄に記載した更新式により、f(t)及びfk−1(t)を繰り返し更新することにより求める。これにより、f(t)及びfk−1(t)の精度が高くなる。
上記実施形態では各部でデータが直接やり取りされているとしたが、図示されていない記憶部を介してデータの受け渡しが行われてもよい。すなわち、各部で生成された又は受信したデータは記憶部に記憶され、各部は記憶部からそのデータを読み込んでもよい。
時空間分解装置及び発話リズム変換装置のそれぞれは、コンピュータによって実現することができる。この場合、各装置がそれぞれ有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、これらの装置における各処理機能が、コンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
1 時空間分解部
11 時間関数計算部
12 時刻計算部
13 空間行列計算部
2 空間行列記憶部
3 時間関数記憶部
4 合成部
5 変換部

Claims (8)

  1. 時間長Tのp次元の時系列信号Yを、p×mの空間行列Aとm×Tの時間関数Fとに分解する時空間分解装置であって、
    上記時系列信号Yの時刻tのi次元目の成分をy(t)とし、上記空間行列Aのi行k列目の成分をai,kとし、上記時間関数Fのk行t列目の成分をf(t)とし、1=t<t<…<t<…<t=Tとして、
    i,kが非負であり、f(t)がtk−1≦t≦tk+1において非負の値を持ち1≦t<tk−1及びtk+1<t≦Tにおいてf(t)=0であり、すべての時刻tにおいてf(t)+fk−1(t)=1であるという制約条件の下で、非負行列因子分解及びダイナミックプログラミングにより、上記時系列信号Yを分解して上記空間行列A及び上記時間関数Fを計算する時空間分解部、
    を含
    上記時空間分解部は、
    αを定数とし、t ,…,t m−1 を予め定められた初期値に固定し、a i,k を初期値y (t )に固定して、下記の更新式
    Figure 0005143809


    により区間t k−1 ≦t≦t の各tについてのf (t)及びf k−1 (t)を繰り返し更新することにより求める時間関数計算部と、
    (t)及びf k−1 (t)を上記求まったf (t)及びf k−1 (t)に固定し、a i,k を初期値y (t )に固定し、y (t)(i=1,…,p)を成分とする、時系列信号Yの時刻tのp次元ベクトルをy(t)とし、空間行列A及び時間関数Fで表わされる時系列信号Y’の時刻tのi次元目の成分をy’ (t)とし、y’ (t)(i=1,…,p)を成分とする、時系列信号Y’の時刻tのp次元ベクトルをy’(t)として、y(t)とy’(t)の差d(y(t),y’(t))の和
    Figure 0005143809


    を最小にするt ,…,t m−1 を、ダイナミックプログラミングにより求める時刻計算部と、
    (t)及びf k−1 (t)を上記求まったf (t)及びf k−1 (t)に固定し、t ,…,t m−1 を上記求まったt ,…,t m−1 に固定して、下記の更新式
    Figure 0005143809

    によりa i,k を繰り返し更新することにより求める空間行列計算部と、
    を含む、
    時空間分解装置。
  2. 請求項1に記載の時空間分解装置において、
    上記時空間分解部は、αを定数、ai,k=y(t)として、非負行列因子分解及びダイナミックプログラミングにより、以下の評価関数
    Figure 0005143809

    を最小化するt及び上記空間行列A及び上記時間関数Fを計算する、
    ことを特徴とする時空間分解装置。
  3. 請求項1又は2に記載の時空間分解装置を含み、
    異なる複数の空間行列を記憶する空間行列記憶部と、
    異なる複数の時間関数を記憶する時間関数記憶部と、
    上記空間行列記憶部から読み込んだ空間行列と、上記時間関数記憶部から読み込んだ時間関数とを合成して音声信号を生成する合成部と、
    を更に含む発話リズム変換装置。
  4. 請求項に記載の発話リズム変換装置において、
    上記空間行列記憶部から読み込んだ空間行列と、上記時間関数記憶部から読み込んだ時間関数との少なくとも一方を変換する変換部を更に含み、
    上記合成部は、上記変換された空間行列及び/又は時間関数を、上記空間行列記憶部から読み込んだ空間行列及び/又は上記時間関数記憶部から読み込んだ時間関数の代わりに用いて合成を行う、
    ことを特徴とする発話リズム変換装置。
  5. 時間長Tのp次元の時系列信号Yを、p×mの空間行列Aとm×Tの時間関数Fとに分解する時空間分解方法であって、
    上記時系列信号Yの時刻tのi次元目の成分をy(t)とし、上記空間行列Aのi行k列目の成分をai,kとし、上記時間関数Fのk行t列目の成分をf(t)とし、1=t<t<…<t<…<t=Tとして、
    時空間分解部が、ai,kが非負であり、f(t)がtk−1≦t≦tk+1において非負の値を持ち1≦t<tk−1及びtk+1<t≦Tにおいてf(t)=0であり、すべての時刻tにおいてf(t)+fk−1(t)=1であるという制約条件の下で、非負行列因子分解及びダイナミックプログラミングにより、上記時系列信号Yを分解して上記空間行列A及び上記時間関数Fを計算する時空間分解ステップ、
    上記時空間分解ステップは、
    時間関数計算部が、αを定数とし、t ,…,t m−1 を予め定められた初期値に固定し、a i,k を初期値y (t )に固定して、下記の更新式
    Figure 0005143809


    により区間t k−1 ≦t≦t の各tについてのf (t)及びf k−1 (t)を繰り返し更新することにより求める時間関数計算ステップと、
    時刻計算部が、f (t)及びf k−1 (t)を上記求まったf (t)及びf k−1 (t)に固定し、a i,k を初期値y (t )に固定し、y (t)(i=1,…,p)を成分とする、時系列信号Yの時刻tのp次元ベクトルをy(t)とし、空間行列A及び時間関数Fで表わされる時系列信号Y’の時刻tのi次元目の成分をy’ (t)とし、y’ (t)(i=1,…,p)を成分とする、時系列信号Y’の時刻tのp次元ベクトルをy’(t)として、y(t)とy’(t)の差d(y(t),y’(t))の和
    Figure 0005143809


    を最小にするt ,…,t m−1 を、ダイナミックプログラミングにより求める時刻計算ステップと、
    空間行列計算部が、f (t)及びf k−1 (t)を上記求まったf (t)及びf k−1 (t)に固定し、t ,…,t m−1 を上記求まったt ,…,t m−1 に固定して、下記の更新式
    Figure 0005143809

    によりa i,k を繰り返し更新することにより求める空間行列計算ステップと、
    を含む、
    を含む時空間分解方法。
  6. 請求項に記載された時空間分解方法の時空間分解ステップを含み、
    上記時空間分解ステップで計算された空間行列Aは空間行列記憶部に記憶され、上記時空間分解ステップで計算された時間関数Fは時間関数記憶部に記憶され、
    合成部が、上記空間行列記憶部から読み込んだ空間行列と、上記時間関数記憶部から読み込んだ時間関数とを合成して音声信号を生成する合成ステップを更に含む、
    ことを特徴とする発話リズム変換方法。
  7. 請求項に記載された発話リズム変換方法において、
    変換部が、上記空間行列記憶部から読み込んだ空間行列と、上記時間関数記憶部から読み込んだ時間関数との少なくとも一方を変換する変換ステップを更に含み、
    上記合成ステップは、上記変換された空間行列及び/又は時間関数を、上記空間行列記憶部から読み込んだ空間行列及び/又は上記時間関数記憶部から読み込んだ時間関数の代わりに用いて合成を行う、
    ことを特徴とする発話リズム変換方法。
  8. 請求項1からの何れかに記載された装置としてコンピュータを機能させるためのプログラム。
JP2009235243A 2009-10-09 2009-10-09 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム Active JP5143809B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009235243A JP5143809B2 (ja) 2009-10-09 2009-10-09 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009235243A JP5143809B2 (ja) 2009-10-09 2009-10-09 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011081305A JP2011081305A (ja) 2011-04-21
JP5143809B2 true JP5143809B2 (ja) 2013-02-13

Family

ID=44075392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009235243A Active JP5143809B2 (ja) 2009-10-09 2009-10-09 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5143809B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5937423B2 (ja) * 2012-05-25 2016-06-22 日本電信電話株式会社 時空間分解装置、方法及びプログラム
JP5937527B2 (ja) * 2013-02-13 2016-06-22 日本電信電話株式会社 非負値時空間分解の駆動時点決定装置、非負値時空間分解の駆動時点決定方法、調音パラメータ推定装置、調音パラメータ推定方法、プログラム
JP6475572B2 (ja) * 2015-05-26 2019-02-27 日本電信電話株式会社 発話リズム変換装置、方法及びプログラム
WO2020136948A1 (ja) * 2018-12-26 2020-07-02 日本電信電話株式会社 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078224A1 (en) * 2009-09-30 2011-03-31 Wilson Kevin W Nonlinear Dimensionality Reduction of Spectrograms

Also Published As

Publication number Publication date
JP2011081305A (ja) 2011-04-21

Similar Documents

Publication Publication Date Title
US10186252B1 (en) Text to speech synthesis using deep neural network with constant unit length spectrogram
JP7018659B2 (ja) 声質変換装置、声質変換方法およびプログラム
US9299338B2 (en) Feature sequence generating device, feature sequence generating method, and feature sequence generating program
JPH11242494A (ja) 話者適応化装置と音声認識装置
JP5143809B2 (ja) 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム
JP5474713B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6271748B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP2898568B2 (ja) 声質変換音声合成装置
KR20180078252A (ko) 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP6840124B2 (ja) 言語処理装置、言語処理プログラムおよび言語処理方法
CN114270433A (zh) 声学模型学习装置、语音合成装置、方法以及程序
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP4226831B2 (ja) 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体
JP4230254B2 (ja) 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体
JPH1195786A (ja) パターン認識方法および装置とパターン認識プログラムを格納した記録媒体
JP7333878B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP2020064143A (ja) 時系列データ生成装置、方法及びプログラム
JP7498408B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP7079455B1 (ja) 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム
JP5937423B2 (ja) 時空間分解装置、方法及びプログラム
JP2734828B2 (ja) 確率演算装置及び確率演算方法
JP6234134B2 (ja) 音声合成装置
JP2019070775A (ja) 信号解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5143809

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350