JP5143809B2 - 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム - Google Patents
時空間分解装置、発話リズム変換装置、これらの方法及びプログラム Download PDFInfo
- Publication number
- JP5143809B2 JP5143809B2 JP2009235243A JP2009235243A JP5143809B2 JP 5143809 B2 JP5143809 B2 JP 5143809B2 JP 2009235243 A JP2009235243 A JP 2009235243A JP 2009235243 A JP2009235243 A JP 2009235243A JP 5143809 B2 JP5143809 B2 JP 5143809B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- matrix
- time function
- storage unit
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Complex Calculations (AREA)
Description
非特許文献2では、fk(t)が区間tk−1≦t≦tk+1においてのみ値を持つという時間関数の局所化のアイディアを導入している。
この発明は、時間関数が[0,1]の範囲で正規化され、全区間に対する歪みが最小になることが保証された時空間分解装置、この装置を用いた発話リズム変換装置、これらの方法及びプログラムを提供することを目的とする。
時空間分解装置及び方法は、入力された時間長Tのp次元の時系列信号Yを、p×mの空間行列Aとm×Tの時間関数Fとに分解する。p、m、Tは自然数である。下歯茎、上唇、下唇、舌上の3点の計6個の位置の垂直位置及び水平位置の計12個の位置情報を例えば用いる場合には、p=12とする。mは、発話に含まれる音素の数+2とする。
fk(t)がtk−1≦t≦tk+1において非負の値を持ち1≦t<tk−1及びtk+1<t≦Tにおいてfk(t)=0であるとは、言い換えれば、
非負行列因子分解の詳細は、参考文献1を参照のこと。ダイナミックプログラミングの詳細は、非特許文献2を参照のこと。
〔参考文献1〕D.D.Lee, H.S.Seung, “Learning the parts of objects by non-negative matrix factorization”, Nature, 401, 788-791, 1999.
図3に例示するように、まず、時間関数計算部11が非負行列因子分解により時間関数Fを求め(ステップS1)、時刻計算部12がダイナミックプログラミングにより時刻tkを求める(ステップS2)。次に得られた時間関数F及び時刻tkを用いて、非負行列因子分解により、空間行列Aを求める(ステップS3)。以下、各ステップを詳細に説明する。
時間関数計算部11は、αを定数とし、t2,…,tm−1を予め定められた初期値に固定し、ai,kを初期値yi(tk)に固定して、下記の更新式
fk(t)、fk−1(t)の初期値は非負の乱数でよいが、例えば次式により定まる値を用いてもよい。
fk(t)及びfk−1(t)の更新の回数は求める精度、仕様に応じて適宜定められる。一般に、fk(t)及びfk−1(t)の更新の回数が多いほど、fk(t)及びfk−1(t)の精度が高くなる。例えば、tk−1≦t≦tkにおいて、N−1回目の更新後の次式で表わされる歪みと、N回目の更新後の次式で表わされる歪みとの差が所定の閾値(例えば10−3)以下になるまで更新する。
時刻計算部12は、fk(t)及びfk−1(t)を上記求まったfk(t)及びfk−1(t)に固定し、ai,kを初期値yi(tk)に固定し、y(t)とy’(t)の差d(y(t),y’(t))の和
ここで、y(t)は、yi(t)(i=1,…,p)を成分とする、時系列信号Yの時刻tのp次元ベクトルをy(t)であり、y’(t)は、y’i(t)(i=1,…,p)を成分とする、時系列信号Y’の時刻tのp次元ベクトルである。
y(t)とy’(t)の差d(y(t),y’(t))は、どのような差を用いてもよい。例えば、d(y(t),y’(t))を以下のように定める。
空間行列計算部13は、fk(t)及びfk−1(t)を上記求まったfk(t)及びfk−1(t)に固定し、t2,…,tm−1を上記求まったt2,…,tm−1に固定して、下記の更新式
ai,kの初期値はどのような値でも良いが、例えばyi(tk)とする。
ai,kの更新の回数は求める精度、仕様に応じて適宜定められる。一般に、ai,kの更新の回数が多いほど、ai,kの精度が高くなる。例えば、例えば、tk−1≦t≦tkにおいて、N−1回目の更新後の次式で表わされる歪みと、N回目の更新後の次式で表わされる歪みとの差が所定の閾値(例えば10−3)以下になるまで更新する。
時空間分解装置及び方法を、発話リズム変換装置及び方法に適用することができる。
図2は発話リズム変換装置の例の機能ブロック図であり、図4は発話リズム変換方法の例の流れ図である。
発話リズム変換装置は、時空間分解部1、空間行列記憶部2、時間関数記憶部3及び合成部4を例えば含む。
空間行列記憶部2には、時空間分解部1で計算された異なる複数の空間行列が記憶されている。
時間関数記憶部3には、時空間分解部1で計算された異なる複数の時間関数が記憶されている。
また、図2に破線で示した変換部5が、空間行列記憶部2から読み込んだ空間行列と、時間関数記憶部3から読み込んだ時間関数との少なくとも一方を変換し(ステップS6)、合成部4がこれらの変換された空間行列及び/又は時間関数を用いて合成を行ってもよい。
平均ai=(ai,1+…+ai,m)/m
次に、ai,1の値をz×(ai,1−平均ai)+平均aiに置き換える。そして、この操作をai,2からai,mまで行う。
予め音素に対応する調音時点の初期時刻tkを用意しておく。これがない場合はすべての可能な時刻に対して歪みを計算する必要がある。αは予備実験の結果106とした。図5にδを変化させた場合の調音パラメータの推定誤差を示す。ここでは、提案法と非特許文献3による従来法を比較する。入力データは、2次元磁気センサシステムを用いて毎秒250回のレートで計測された下歯茎1点、上・下唇それぞれ1点、舌上の3点の計6点の水平および垂直位置である。発声資料は、「午後はたまった書類に目を通します」などの日本語16文章を用いた。図5より、すべてのδに対して推定誤差は提案法が従来法よりも小さくなっており、提案法の有効性を示している。
時空間分解部1は、時刻計算部12が計算した時刻tkを出力してもよい。この時刻tkは音声認識、音声合成、音声符号化等で音素の中心の決定に用いることができる。
既に求まったfk(t)及びfk−1(t)、tk、ai,kを用いて、fk(t)及びfk−1(t)、tk、ai,kの何れかを再計算してもよい。再計算することにより、より精度の高い分解を行うことができる。
11 時間関数計算部
12 時刻計算部
13 空間行列計算部
2 空間行列記憶部
3 時間関数記憶部
4 合成部
5 変換部
Claims (8)
- 時間長Tのp次元の時系列信号Yを、p×mの空間行列Aとm×Tの時間関数Fとに分解する時空間分解装置であって、
上記時系列信号Yの時刻tのi次元目の成分をyi(t)とし、上記空間行列Aのi行k列目の成分をai,kとし、上記時間関数Fのk行t列目の成分をfk(t)とし、1=t1<t2<…<tk<…<tm=Tとして、
ai,kが非負であり、fk(t)がtk−1≦t≦tk+1において非負の値を持ち1≦t<tk−1及びtk+1<t≦Tにおいてfk(t)=0であり、すべての時刻tにおいてfk(t)+fk−1(t)=1であるという制約条件の下で、非負行列因子分解及びダイナミックプログラミングにより、上記時系列信号Yを分解して上記空間行列A及び上記時間関数Fを計算する時空間分解部、
を含み
上記時空間分解部は、
αを定数とし、t 2 ,…,t m−1 を予め定められた初期値に固定し、a i,k を初期値y i (t k )に固定して、下記の更新式
により区間t k−1 ≦t≦t k の各tについてのf k (t)及びf k−1 (t)を繰り返し更新することにより求める時間関数計算部と、
f k (t)及びf k−1 (t)を上記求まったf k (t)及びf k−1 (t)に固定し、a i,k を初期値y i (t k )に固定し、y i (t)(i=1,…,p)を成分とする、時系列信号Yの時刻tのp次元ベクトルをy(t)とし、空間行列A及び時間関数Fで表わされる時系列信号Y’の時刻tのi次元目の成分をy’ i (t)とし、y’ i (t)(i=1,…,p)を成分とする、時系列信号Y’の時刻tのp次元ベクトルをy’(t)として、y(t)とy’(t)の差d(y(t),y’(t))の和
を最小にするt 2 ,…,t m−1 を、ダイナミックプログラミングにより求める時刻計算部と、
f k (t)及びf k−1 (t)を上記求まったf k (t)及びf k−1 (t)に固定し、t 2 ,…,t m−1 を上記求まったt 2 ,…,t m−1 に固定して、下記の更新式
によりa i,k を繰り返し更新することにより求める空間行列計算部と、
を含む、
時空間分解装置。 - 請求項1又は2に記載の時空間分解装置を含み、
異なる複数の空間行列を記憶する空間行列記憶部と、
異なる複数の時間関数を記憶する時間関数記憶部と、
上記空間行列記憶部から読み込んだ空間行列と、上記時間関数記憶部から読み込んだ時間関数とを合成して音声信号を生成する合成部と、
を更に含む発話リズム変換装置。 - 請求項3に記載の発話リズム変換装置において、
上記空間行列記憶部から読み込んだ空間行列と、上記時間関数記憶部から読み込んだ時間関数との少なくとも一方を変換する変換部を更に含み、
上記合成部は、上記変換された空間行列及び/又は時間関数を、上記空間行列記憶部から読み込んだ空間行列及び/又は上記時間関数記憶部から読み込んだ時間関数の代わりに用いて合成を行う、
ことを特徴とする発話リズム変換装置。 - 時間長Tのp次元の時系列信号Yを、p×mの空間行列Aとm×Tの時間関数Fとに分解する時空間分解方法であって、
上記時系列信号Yの時刻tのi次元目の成分をyi(t)とし、上記空間行列Aのi行k列目の成分をai,kとし、上記時間関数Fのk行t列目の成分をfk(t)とし、1=t1<t2<…<tk<…<tm=Tとして、
時空間分解部が、ai,kが非負であり、fk(t)がtk−1≦t≦tk+1において非負の値を持ち1≦t<tk−1及びtk+1<t≦Tにおいてfk(t)=0であり、すべての時刻tにおいてfk(t)+fk−1(t)=1であるという制約条件の下で、非負行列因子分解及びダイナミックプログラミングにより、上記時系列信号Yを分解して上記空間行列A及び上記時間関数Fを計算する時空間分解ステップ、
上記時空間分解ステップは、
時間関数計算部が、αを定数とし、t 2 ,…,t m−1 を予め定められた初期値に固定し、a i,k を初期値y i (t k )に固定して、下記の更新式
により区間t k−1 ≦t≦t k の各tについてのf k (t)及びf k−1 (t)を繰り返し更新することにより求める時間関数計算ステップと、
時刻計算部が、f k (t)及びf k−1 (t)を上記求まったf k (t)及びf k−1 (t)に固定し、a i,k を初期値y i (t k )に固定し、y i (t)(i=1,…,p)を成分とする、時系列信号Yの時刻tのp次元ベクトルをy(t)とし、空間行列A及び時間関数Fで表わされる時系列信号Y’の時刻tのi次元目の成分をy’ i (t)とし、y’ i (t)(i=1,…,p)を成分とする、時系列信号Y’の時刻tのp次元ベクトルをy’(t)として、y(t)とy’(t)の差d(y(t),y’(t))の和
を最小にするt 2 ,…,t m−1 を、ダイナミックプログラミングにより求める時刻計算ステップと、
空間行列計算部が、f k (t)及びf k−1 (t)を上記求まったf k (t)及びf k−1 (t)に固定し、t 2 ,…,t m−1 を上記求まったt 2 ,…,t m−1 に固定して、下記の更新式
によりa i,k を繰り返し更新することにより求める空間行列計算ステップと、
を含む、
を含む時空間分解方法。 - 請求項5に記載された時空間分解方法の時空間分解ステップを含み、
上記時空間分解ステップで計算された空間行列Aは空間行列記憶部に記憶され、上記時空間分解ステップで計算された時間関数Fは時間関数記憶部に記憶され、
合成部が、上記空間行列記憶部から読み込んだ空間行列と、上記時間関数記憶部から読み込んだ時間関数とを合成して音声信号を生成する合成ステップを更に含む、
ことを特徴とする発話リズム変換方法。 - 請求項6に記載された発話リズム変換方法において、
変換部が、上記空間行列記憶部から読み込んだ空間行列と、上記時間関数記憶部から読み込んだ時間関数との少なくとも一方を変換する変換ステップを更に含み、
上記合成ステップは、上記変換された空間行列及び/又は時間関数を、上記空間行列記憶部から読み込んだ空間行列及び/又は上記時間関数記憶部から読み込んだ時間関数の代わりに用いて合成を行う、
ことを特徴とする発話リズム変換方法。 - 請求項1から4の何れかに記載された装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009235243A JP5143809B2 (ja) | 2009-10-09 | 2009-10-09 | 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009235243A JP5143809B2 (ja) | 2009-10-09 | 2009-10-09 | 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011081305A JP2011081305A (ja) | 2011-04-21 |
JP5143809B2 true JP5143809B2 (ja) | 2013-02-13 |
Family
ID=44075392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009235243A Active JP5143809B2 (ja) | 2009-10-09 | 2009-10-09 | 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5143809B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5937423B2 (ja) * | 2012-05-25 | 2016-06-22 | 日本電信電話株式会社 | 時空間分解装置、方法及びプログラム |
JP5937527B2 (ja) * | 2013-02-13 | 2016-06-22 | 日本電信電話株式会社 | 非負値時空間分解の駆動時点決定装置、非負値時空間分解の駆動時点決定方法、調音パラメータ推定装置、調音パラメータ推定方法、プログラム |
JP6475572B2 (ja) * | 2015-05-26 | 2019-02-27 | 日本電信電話株式会社 | 発話リズム変換装置、方法及びプログラム |
WO2020136948A1 (ja) * | 2018-12-26 | 2020-07-02 | 日本電信電話株式会社 | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110078224A1 (en) * | 2009-09-30 | 2011-03-31 | Wilson Kevin W | Nonlinear Dimensionality Reduction of Spectrograms |
-
2009
- 2009-10-09 JP JP2009235243A patent/JP5143809B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011081305A (ja) | 2011-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10186252B1 (en) | Text to speech synthesis using deep neural network with constant unit length spectrogram | |
JP7018659B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
US9299338B2 (en) | Feature sequence generating device, feature sequence generating method, and feature sequence generating program | |
JPH11242494A (ja) | 話者適応化装置と音声認識装置 | |
JP5143809B2 (ja) | 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム | |
JP5474713B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6271748B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP2898568B2 (ja) | 声質変換音声合成装置 | |
KR20180078252A (ko) | 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법 | |
JP5268731B2 (ja) | 音声合成装置、方法およびプログラム | |
JP6167063B2 (ja) | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム | |
JP6840124B2 (ja) | 言語処理装置、言語処理プログラムおよび言語処理方法 | |
CN114270433A (zh) | 声学模型学习装置、语音合成装置、方法以及程序 | |
JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
JP4226831B2 (ja) | 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体 | |
JP4230254B2 (ja) | 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 | |
JPH1195786A (ja) | パターン認識方法および装置とパターン認識プログラムを格納した記録媒体 | |
JP7333878B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP2020064143A (ja) | 時系列データ生成装置、方法及びプログラム | |
JP7498408B2 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
JP7079455B1 (ja) | 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム | |
JP5937423B2 (ja) | 時空間分解装置、方法及びプログラム | |
JP2734828B2 (ja) | 確率演算装置及び確率演算方法 | |
JP6234134B2 (ja) | 音声合成装置 | |
JP2019070775A (ja) | 信号解析装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110721 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121022 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121121 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151130 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5143809 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |