JP2018146821A - 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム - Google Patents
音響モデル学習装置、音声合成装置、それらの方法、及びプログラム Download PDFInfo
- Publication number
- JP2018146821A JP2018146821A JP2017042430A JP2017042430A JP2018146821A JP 2018146821 A JP2018146821 A JP 2018146821A JP 2017042430 A JP2017042430 A JP 2017042430A JP 2017042430 A JP2017042430 A JP 2017042430A JP 2018146821 A JP2018146821 A JP 2018146821A
- Authority
- JP
- Japan
- Prior art keywords
- information
- fundamental frequency
- learning
- language feature
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本実施形態では、スペクトル包絡情報を生成するDNNの入力に、F0情報を活用する。音声合成器の入力として、読み、アクセントなどの従来のコンテキストに加え、F0情報を活用し、対応するF0情報を反映したスペクトル包絡情報を出力するようにDNNを構成する。このような構成により、F0情報との依存関係を反映したスペクトル包絡情報を生成することが可能となる。生成されたスペクトル包絡情報とF0情報の依存関係が満たされることで、合成音声の自然性が向上する。
本実施形態は、音響モデル学習装置110および音声合成装置120から構成される。図3,4,5,6は、それぞれ音響モデル学習装置110の機能ブロック図、その処理フローを示す図、音声合成装置120の機能ブロック図、その処理フローを示す図である。
・F0データ、スペクトル包絡データ
F0データ、スペクトル包絡データは、それぞれ、音響モデル学習に使用する音声データ(以下、学習用音声データともいう)の音声信号に対して信号処理を行った結果得られる、各発話のF0情報(音高)fn、スペクトル包絡情報(ケプストラム、メルケプストラム等)snをそれぞれ学習用音声データの総数N個分保持したデータである。コンテキストデータ中の発話数Nを用いて、F0データを{f1,f2,…,fN}、スペクトル包絡データを{s1,s2,…,sN}で表現する。
例えば、スペクトル包絡情報snは、n番目の学習用音声データの各フレーム時刻の音韻の情報を保持したデータであり、抽出されたケプストラム、メルケプストラムの低次元のみを抽出して利用してもよい。発話nの時間長をTnフレームとした場合、例えば、M次元のメルケプストラムを使用して、M×Tn次元の実ベクトル等とする。
コンテキストデータは、学習用音声データのコンテキスト(発話情報)を学習用音声データの総数N個分保持したデータである。例えば、コンテキストデータを{t1,t2,…,tN}で表現する。
例えば、コンテキストtnは、n番目の学習用音声データについて付与された発音等の情報である。コンテキストには、音素情報(発音情報)とアクセント情報(アクセント型、アクセント句長)を含んでいる必要がある。コンテキストとして、これ以外にも品詞情報等も含んでいてもよい。また、各音素の開始時間、終了時間の情報(音素セグメンテーション情報)が保存されていてもよい。
言語特徴量ベクトルlnは、コンテキストtnを数値ベクトルで表現したものである。例えば、非特許文献1のように、音素情報、アクセント情報をそれぞれ1-of-K表現し、さらに文長などの数値情報と連結し得られる数値ベクトルとする。当該発話の時間長をTnフレームとした場合、例えばフレーム辺りK次元のベクトルを使用し、言語特徴量ベクトルlnとして、K×Tn次元の実ベクトルを使用する。
言語特徴量ベクトルデータは、コンテキストデータ{t1,t2,…,tN}に含まれる各発話について、対応する言語特徴量ベクトルlnを保持したものである。コンテキストデータ中の発話数Nを用いて、{l1,l2,…,lN}として表現する。
言語特徴量・F0ベクトルは、言語特徴量ベクトルlnとF0情報fnの双方の情報を保持したベクトルである。例えば、言語特徴量ベクトルlnとF0情報fnとを連結し、xn=[ln T,fn T]Tとして作成する。
言語特徴量・F0ベクトルデータは、N個の学習用音声データに含まれる各学習用音声データについて、言語特徴量・F0ベクトルxnを抽出し、データとして保持したものである。コンテキストデータ中の発話数Nを用いて、{x1,x2,…,xN}で表現する。
F0データ、スペクトル包絡データ、コンテキストデータから音響モデル学習を行い、DNN音響モデルを出力する。従来手法のアルゴリズムと異なる点は、(1)言語特徴量・F0ベクトルデータを作成する点、(2)F0のみを生成するF0生成DNNを学習する点、(3)スペクトル包絡の生成のために言語特徴量のみでなくF0情報も活用するため、スペクトル包絡生成DNNの入力として言語特徴量・F0ベクトルデータを使用する点である。
例えば、この音響モデル学習装置110は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。音響モデル学習装置110は、言語特徴量ベクトルデータ作成部111と、言語特徴量・F0ベクトルデータ作成部112と、F0生成モデル学習部113と、スペクトル包絡生成モデル学習部114とを含む。以下、各部の処理内容を説明する。
言語特徴量ベクトルデータ作成部111は、コンテキストデータ{t1,t2,…,tN}を入力とし、各発話のコンテキストtnに対し言語特徴量ベクトルlnを作成し(S111)、その結果を言語特徴量ベクトルデータ{l1,l2,…,lN}として保持する。
言語特徴量・F0ベクトルデータ作成部112は、F0データ{f1,f2,…,fN}と言語特徴量ベクトルデータ{l1,l2,…,lN}とを入力とし、n番目の学習用音声データに対応する言語特徴量ベクトルlnとF0情報fnとを連結し、言語特徴量・F0ベクトルxn=[ln T,fn T]Tとして作成し、N発話分に対して同様の処理を行い、言語特徴量・F0ベクトルデータ{x1,x2,…,xN}を作成し(S112)、保持する。
F0生成モデル学習部113は、言語特徴量ベクトルデータ{l1,l2,…,lN}とF0データ{f1,f2,…,fN}とを入力とし、これらのデータを用いて、言語特徴量ベクトルを入力とし、対応するF0情報を出力とするDNN(以下、F0生成モデルともいい、図中、DNNfとも記載する)を学習し(S113)、保持する。F0生成モデルの学習方法としては、既存の如何なる技術を用いてもよい。例えば、入出力で使用するベクトルを除いて、学習方法・モデル構成等は非特許文献1と同様とする。
スペクトル包絡生成モデル学習部114は、言語特徴量・F0ベクトルデータ{x1,x2,…,xN}とスペクトル包絡データ{s1,s2,…,sN}とを入力とし、これらのデータを用いて、言語特徴量・F0ベクトルを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成DNN(以下、スペクトル包絡生成モデルともいい、図中、DNNsとも記載する)を学習する(S114)。スペクトル包絡生成モデルの学習方法としては、既存の如何なる技術を用いてもよい。例えば、入出力で使用するベクトルを除いて、学習方法・モデル構成等は非特許文献1と同様とする。
音声合成装置120は、合成するテキストtexoから、合成音声zoを生成する。従来手法のアルゴリズムと異なる点は、F0生成DNNから、F0情報fnのみを生成し、スペクトル包絡生成DNNからスペクトル包絡情報soを生成する際に、言語特徴量lnと併せてF0情報fnを使用する点である。
テキスト解析部121は、音声合成の対象となるテキストtexoを入力とし、テキストtexoをテキスト解析し(S121)、コンテキストtoを得る。
言語特徴量ベクトル抽出部122は、コンテキストtoを入力とし、コンテキストtoに対応する言語特徴量ベクトルloを抽出し(S122)、出力する。
F0生成部123は、音声合成に先立ち予めF0生成モデルDDNfを受け取っておく。音声合成時には、F0生成部123は、言語特徴量ベクトルloを入力とし、F0生成モデルDDNfの順伝播を行い、出力ベクトルを、F0情報foとして出力する(S123)。なお、F0情報foは、テキストtexoに対応する音声波形の基本周波数を示す情報である。
言語特徴量・F0ベクトル作成部124Bは、言語特徴量ベクトルloとF0情報foとを入力とし、言語特徴量ベクトルloとF0情報foとを連結し、言語特徴量・F0ベクトルxo=[lo T,fo T]Tとして作成し(S124B)、出力する。
スペクトル包絡生成部124は、音声合成に先立ち予めスペクトル包絡生成モデルDDNsを受け取っておく。スペクトル包絡生成部124は、言語特徴量・F0ベクトルxoを入力とし、スペクトル包絡生成モデルDDNsの順伝播を行い、出力ベクトルを、スペクトル包絡情報soとして、出力する(S124)。なお、スペクトル包絡情報soは、テキストtexoに対応する音声波形のスペクトル包絡情報を示す情報である。
音声波形生成部125は、F0情報foとスペクトル包絡情報soとを受け取り、これらの値を用いて、テキストtexoに対応する音声波形(合成音声zo)を生成し(S125)、出力する。音声波形生成の前に、例えば、maximum likelihood generation (MLPG) アルゴリズム(参考文献1参照)を用いて時間方向に平滑化された音声パラメータ系列を得てもよい。また、音声波形生成には、例えば(参考文献2)を用いてもよい。
[参考文献1]益子他,“動的特徴を用いたHMMに基づく音声合成”,信学論,vol.J79-D-II,no.12,pp.2184-2190,Dec. 1996.
[参考文献2]今井他,“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”,電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.
以上の構成により、音声合成器の入力として、読み、アクセントなどの従来のコンテキストに加え、F0情報を反映したスペクトル包絡情報を出力するようスペクトル包絡生成DNNを構成する。これにより、F0情報との依存関係を満たすスペクトル包絡情報を生成することが可能となる。これにより、合成音声の品質が向上する。
第一実施形態と異なる部分を中心に説明する。
・言語特徴量・変換F0ベクトル
本実施形態における言語特徴量・変換F0ベクトルは、言語特徴量ベクトルlnとF0情報fnの双方の情報を保持したベクトルである。F0値変換した出力を使用する点が第一実施形態と異なる。例えば、言語特徴量ベクトルlnと変換後のF0情報fn (1)の二つのベクトルを連結し、xn=[ln T,fn (1)T]Tとして作成する。
図7は第二実施形態に係る音響モデル学習装置210の機能ブロック図を、図8はその処理フローを示す。
音響モデル学習装置210は、言語特徴量ベクトルデータ作成部111と、言語特徴量・F0ベクトルデータ作成部112と、F0生成モデル学習部113と、スペクトル包絡生成モデル学習部114と、F0変換部215とを含む。
F0変換部215は、F0データ{t1,t2,…,tN}を入力とし、有界のベクトル関数F(fn)を用いて、F0データ{f1,f2,…,fN}を変換し(S215)、変換後のF0データ{f1 (1),f2 (1),…,fN (1)}を出力する。例えば、F0情報fnのフレーム長をTnフレームとし、fn=[fn1,fn2,…,fnT_n]Tとしたとき、F(fn)=[G(fn1)、G(fn2)、…、G(fnT_n)]Tとする。ただし、下付き添え字T_nは、Tnを意味する。ここで、Gは有界のスカラー関数である。例えば、Gとして、sigmoid関数
図9は第二実施形態に係る音声合成装置220の機能ブロック図を、図10はその処理フローを示す。
音声合成装置220は、テキスト解析部121と、言語特徴量ベクトル抽出部122と、F0生成部123と、言語特徴量・F0ベクトル作成部124Bと、スペクトル包絡生成部124と、音声波形生成部125と、F0変換部224Aとを含む。
F0変換部224Aは、F0情報foとを入力とし、有界のベクトル関数F(fn)を用いて、F0情報foを変換し(S224A)、変換後のF0情報fo (1)を出力する。変換方法としては、F0変換部215と対応する方法を用いればよい。
なお、言語特徴量・F0ベクトル作成部124Bは、F0情報foに代えて、変換後のF0情報fo (1)を用いる。他の構成は第一実施形態と同様である。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、スペクトル包絡生成DNNから生成されるスペクトル包絡情報が安定し、合成音声の品質が向上する。なお、第二実施形態では、用いるF0データ、F0情報を限定しており、第一実施形態を限定したものとも言える。
第二実施形態と異なる部分を中心に説明する。
・F0値変換パラメータ
F0値変換パラメータは、パラメトリックF0値変換において使用するパラメータであり、θ(0)で表現する。
パラメトリック変換F0情報は、パラメトリックF0値変換により出力される実数値である。fn (2)で表現する。
言語特徴量・パラメトリック変換F0ベクトルは、言語特徴量ベクトルlnと、パラメトリック変換F0情報fn (2)から得られるベクトルである。xnで表現する。例えば、言語特徴量ベクトルlnと、パラメトリック変換F0情報fn (2)を連結し、xn=[ln T,fn (2)T]Tとして作成する。
F0情報fn、F0値変換パラメータθ(0)、F0値変換関数F(x;θ(0))を用いて、パラメトリック変換F0情報fn (2)を出力する。この際、F(x;θ(0))として、値域が有界なベクトルを使用する。また、DNNの誤差逆伝播によるθ(0)の学習を可能とするため、F(x;θ(0))の出力値がθ(0)について微分可能である関数を使用する。例えば、F0情報fnのフレーム長をTnフレームとし、fn=[fn1,fn2,…,fnT_n]T、F(fn;θ(0))=[G(fn1;θ(0)),G(fn2;θ(0)),…,G(fnT_n;θ(0))]Tとしたとき、パラメトリックなsigmoid関数
図11は第三実施形態に係る音響モデル学習装置310の機能ブロック図を、図12はその処理フローを示す。
F0変換部315は、学習に先立ち予めF0値変換パラメータθ(0)を初期化しておく。例えば、F0値変換パラメータθ(0)を乱数により初期化する。例えば、F0値変換パラメータθ(0)の初期化は、有界のベクトル関数F(x;θ(0))として、パラメトリックなsigmoid関数を使用する場合、標準正規分布からサンプリングする。
なお、言語特徴量・F0ベクトルデータ作成部112は、F0データ{f1 (1),f2 (1),…,fN (1)}に代えて、変換後のF0データ{f1 (2),f2 (2),…,fN (2)}を用いる。
スペクトル包絡生成モデル・変換パラメータ学習部314は、F0値変換パラメータθ(0)(初期値)と、言語特徴量・F0ベクトルデータ{x1,x2,…,xN}(ただし、xn=[fn (2)T,ln T]T)とスペクトル包絡データ{s1,s2,…,sN}とを入力とし、これらのデータを用いて、言語特徴量・F0ベクトルを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成DNNとF0値変換パラメータθ(0)を学習し、学習後のスペクトル包絡生成DNNとF0値変換パラメータθ(1)を出力する。例えば、以下のように学習する。
(2)出力ベクトルzn(n番目の学習用音声データから得られるスペクトル包絡情報)とスペクトル包絡情報snの誤差を計測し、誤差を逆伝播し、DNNのパラメータW、F0値変換パラメータθ(0)の誤差勾配を算出する。ただし、DNNのパラメータWは、学習に先立ち予め乱数により初期化しておく。例えば、Wの乱数初期化は、非特許文献1と同様の方法を用いる。また、誤差関数としては、例えばznとsnの最小二乗誤差を使用する。
(3)誤差勾配に従い、パラメータWとF0値変換パラメータθ(0)を更新する。
得られた(収束したと判断されたときの)パラメータW、F0値変換パラメータθ(0)をそれぞれ学習後のスペクトル包絡生成DNN、F0値変換パラメータθ(1)として出力する。例えば、収束判定として、反復回数が閾値に達したか、反復ごとの誤差関数の変化が閾値よりも小さくなったか、またはその両方を使用する。
図13は第三実施形態に係る音声合成装置320の機能ブロック図を、図14はその処理フローを示す。
音声合成装置320は、音響モデル学習装置310で得られるF0値変換パラメータθ(1)を使用し、F0情報foを変換する点が第二実施形態と異なる。
音声合成装置320は、テキスト解析部121と、言語特徴量ベクトル抽出部122と、F0生成部123と、言語特徴量・F0ベクトル作成部124Bと、スペクトル包絡生成部124と、音声波形生成部125と、F0変換部324Aとを含む。
F0変換部324Aは、F0値変換パラメータθ(1)とF0情報foとを入力とし、F0情報foとF0値変換パラメータθ(1)とを用いて、パラメトリックF0値変換を行い(fo (2)=[G(fo1;θ(1)),G(fo2;θ(1)),…,G(foT_o;θ(1))]、S324A)、パラメトリック変換F0データfo (2)を出力する。このとき、使用する関数F(x;θ(1))は、F0変換部315で使用されるパラメトリックF0値変換と同一のものを使用する。
なお、言語特徴量・F0ベクトル作成部124Bは、変換F0情報fo (1)に代えて、パラメトリック変換F0情報fo (2)を用いる。
このような構成とすることで、第二実施形態と同様の効果を得ることができる。さらに、スペクトル包絡情報とF0情報の依存関係がより柔軟にモデル化され、合成音声品質が向上する。
第三実施形態と異なる部分を中心に説明する。
・再推定パラメトリックF0値変換パラメータ
再推定パラメトリックF0値変換パラメータは、音響モデル学習装置410により得られる、パラメトリックF0値変換のためのパラメータであり、θ(2)と表記する。第三実施形態の学習結果であるパラメトリックF0値変換パラメータθ(1)を初期値として利用し、再推定される点が第三実施形態と異なる。
図15は第三実施形態に係る音響モデル学習装置410の機能ブロック図を、図16はその処理フローを示す。
音響モデル学習装置410は、第三実施形態で得られるF0値変換パラメータθ(1)を初期値として利用して、スペクトル包絡生成DNN学習・F0値変換パラメータ再推定を行い、スペクトル包絡生成DNNと再推定F0値変換パラメータθ(2)を出力する点が第三実施形態と異なる。
なお、音響モデル学習装置310は、音響モデル学習装置410の処理に先立ち、第三実施形態で説明した処理を実行し、F0値変換パラメータθ(1)を求め(S310)、出力する。
F0変換部415及びスペクトル包絡生成モデル・変換パラメータ学習部414は、学習に先立ち予め、F0値変換パラメータθ(0)に代えて、音響モデル学習装置310の出力値であるF0値変換パラメータθ(1)を初期値として設定する。F0変換部415及びスペクトル包絡生成モデル・変換パラメータ学習部414の処理内容は、それぞれF0変換部315及びスペクトル包絡生成モデル・変換パラメータ学習部314と同様である(S415、S414)。なお、スペクトル包絡生成モデル・変換パラメータ学習部414は、F0値変換パラメータθ(1)に代えて、再推定F0値変換パラメータθ(2)を出力する。
図17は第三実施形態に係る音声合成装置420の機能ブロック図を、図18はその処理フローを示す。
音声合成装置420は、スペクトル包絡生成時に、F0値変換パラメータθ(1)でなく、再推定F0値変換パラメータθ(2)を使用する点が第三実施形態と異なる。
音声合成装置220は、テキスト解析部121と、言語特徴量ベクトル抽出部122と、F0生成部123と、言語特徴量・F0ベクトル作成部124Bと、スペクトル包絡生成部124と、音声波形生成部125と、F0変換部424Aとを含む。
F0変換部424Aは、再推定F0値変換パラメータθ(2)とF0情報foとを入力とし、F0情報foとF0値変換パラメータθ(1)とを用いて、パラメトリックF0値変換を行い(fo (2)=[G(fo1;θ(2)),G(fo2;θ(2)),…,G(foT_o;θ(2))]、S424A)、パラメトリック変換F0データfo (2)を出力する。このとき、使用する関数G(x;θ(2))は、F0変換部415で使用されるパラメトリックF0値変換と同一のものを使用する。
なお、言語特徴量・F0ベクトル作成部124Bは、fo (1)に代えて、パラメトリック変換F0データfo (2)を用いる。
このような構成とすることで、第三実施形態と同様の効果を得ることができる。さらに、パラメータ生成誤差の小さいスペクトル包絡生成DNNを学習可能であると期待される。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- 学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の前記学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習部と、
N個の前記基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習部とを含む、
音響モデル学習装置。 - 請求項1の音響モデル学習装置であって、
有界のスカラー関数gを用いてN個の前記基本周波数情報fL,nをそれぞれ変換する基本周波数変換部を含み、
前記スペクトル包絡生成モデル学習部において、用いられるN個の前記基本周波数情報fL,nは、前記基本周波数変換部において変換された値である、
音響モデル学習装置。 - 請求項2の音響モデル学習装置であって、
前記基本周波数変換部は、前記スカラー関数g及びそのパラメータθを用いてN個の前記基本周波数情報fL,nをそれぞれ変換し、
前記スペクトル包絡生成モデル学習部において、N個の変換後の基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、変換後の基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルとパラメータθとを学習する、
音響モデル学習装置。 - 請求項3の音響モデル学習装置であって、
前記スペクトル包絡生成モデル学習部において、学習した後のパラメータをθ(1)とし、前記基本周波数変換部は、前記スカラー関数g及びそのパラメータθ(1)を用いてN個の前記基本周波数情報fL,nをそれぞれ変換し、
前記スペクトル包絡生成モデル学習部において、N個の変換後の基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、変換後の基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルとスカラー関数のパラメータθ(1)を学習する、
音響モデル学習装置。 - 請求項1から請求項4の何れかの音響モデル学習装置により学習した前記基本周波数生成モデルと前記スペクトル包絡生成モデルとを用いて、音声合成を行う音声合成装置であって、
前記基本周波数生成モデルを用いて、対象テキストをテキスト解析して得られるコンテキストに対応する言語特徴量ベクトルlOから前記対象テキストに対応する音声波形の基本周波数を示す基本周波数情報fOを生成する基本周波数生成部と、
前記スペクトル包絡生成モデルを用いて、前記言語特徴量ベクトルlOと前記基本周波数情報fOとから前記対象テキストに対応する音声波形のスペクトル包絡を示すスペクトル包絡情報sOを生成するスペクトル包絡生成部と、
前記基本周波数情報fOと前記スペクトル包絡情報sOとを用いて、対象テキストに対応する音声波形を生成する音声波形生成部とを含む、
音声合成装置。 - 学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の前記学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習ステップと、
N個の前記基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習ステップとを含む、
音響モデル学習方法。 - 請求項6の音響モデル学習方法により学習した前記基本周波数生成モデルと前記スペクトル包絡生成モデルとを用いて、音声合成を行う音声合成方法であって、
前記基本周波数生成モデルを用いて、対象テキストをテキスト解析して得られるコンテキストに対応する言語特徴量ベクトルlOから前記対象テキストに対応する音声波形の基本周波数を示す基本周波数情報fOを生成する基本周波数生成ステップと、
前記スペクトル包絡生成モデルを用いて、前記言語特徴量ベクトルlOと前記基本周波数情報fOとから前記対象テキストに対応する音声波形のスペクトル包絡を示すスペクトル包絡情報sOを生成するスペクトル包絡生成ステップと、
前記基本周波数情報fOと前記スペクトル包絡情報sOとを用いて、対象テキストに対応する音声波形を生成する音声波形生成ステップとを含む、
音声合成方法。 - 請求項1から請求項4の何れかの音響モデル学習装置、または、請求項5の音声合成装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017042430A JP6542823B2 (ja) | 2017-03-07 | 2017-03-07 | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017042430A JP6542823B2 (ja) | 2017-03-07 | 2017-03-07 | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018146821A true JP2018146821A (ja) | 2018-09-20 |
JP6542823B2 JP6542823B2 (ja) | 2019-07-10 |
Family
ID=63592116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017042430A Active JP6542823B2 (ja) | 2017-03-07 | 2017-03-07 | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6542823B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916093A (zh) * | 2020-07-31 | 2020-11-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法及装置 |
JP2021119381A (ja) * | 2020-08-24 | 2021-08-12 | 北京百度網訊科技有限公司 | 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品 |
-
2017
- 2017-03-07 JP JP2017042430A patent/JP6542823B2/ja active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916093A (zh) * | 2020-07-31 | 2020-11-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法及装置 |
JP2021119381A (ja) * | 2020-08-24 | 2021-08-12 | 北京百度網訊科技有限公司 | 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品 |
JP7146991B2 (ja) | 2020-08-24 | 2022-10-04 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品 |
US11488578B2 (en) | 2020-08-24 | 2022-11-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training speech spectrum generation model, and electronic device |
Also Published As
Publication number | Publication date |
---|---|
JP6542823B2 (ja) | 2019-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3895159B1 (en) | Multi-speaker neural text-to-speech synthesis | |
Li et al. | Multi-Language Multi-Speaker Acoustic Modeling for LSTM-RNN Based Statistical Parametric Speech Synthesis. | |
Blaauw et al. | A neural parametric singing synthesizer | |
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP5768093B2 (ja) | 音声処理システム | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
US8825485B2 (en) | Text to speech method and system converting acoustic units to speech vectors using language dependent weights for a selected language | |
KR100932538B1 (ko) | 음성 합성 방법 및 장치 | |
JPH04313034A (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
JP6095588B2 (ja) | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム | |
WO2010119534A1 (ja) | 音声合成装置、方法およびプログラム | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
Hashimoto et al. | Trajectory training considering global variance for speech synthesis based on neural networks | |
JP5442016B2 (ja) | 音声モデルの生成方法 | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2002244689A (ja) | 平均声の合成方法及び平均声からの任意話者音声の合成方法 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP6542823B2 (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
Eichner et al. | A unified approach for speech synthesis and speech recognition using stochastic Markov graphs. | |
JP3973492B2 (ja) | 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 | |
Anumanchipalli et al. | Adaptation techniques for speech synthesis in under-resourced languages. | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
Khorram et al. | Soft context clustering for F0 modeling in HMM-based speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180622 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190613 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6542823 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |