JP2018146821A - 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム - Google Patents

音響モデル学習装置、音声合成装置、それらの方法、及びプログラム Download PDF

Info

Publication number
JP2018146821A
JP2018146821A JP2017042430A JP2017042430A JP2018146821A JP 2018146821 A JP2018146821 A JP 2018146821A JP 2017042430 A JP2017042430 A JP 2017042430A JP 2017042430 A JP2017042430 A JP 2017042430A JP 2018146821 A JP2018146821 A JP 2018146821A
Authority
JP
Japan
Prior art keywords
information
fundamental frequency
learning
language feature
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017042430A
Other languages
English (en)
Other versions
JP6542823B2 (ja
Inventor
伸克 北条
Nobukatsu Hojo
伸克 北条
勇祐 井島
Yusuke Ijima
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017042430A priority Critical patent/JP6542823B2/ja
Publication of JP2018146821A publication Critical patent/JP2018146821A/ja
Application granted granted Critical
Publication of JP6542823B2 publication Critical patent/JP6542823B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】スペクトル包絡情報とF0情報の依存関係を明にモデル化し、従来よりも品質の高い音声を合成する音声合成装置等を提供することを目的とする。【解決手段】音響モデル学習装置は、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習部と、N個の基本周波数情報fL,nと、N個の言語特徴量ベクトルlL,nと、N個の学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習部とを含む。【選択図】図3

Description

本発明は、スペクトル包絡情報と基本周波数(以下「F0」ともいう)情報とを用いて音声を合成する音声合成装置、音声合成の際に用いる音響モデルを学習する音響モデル学習装置、それらの方法及びプログラムに関する。
音声データから音声合成用モデルを学習し、合成音声を生成する手法として、DNN(deep neural network)に基づく技術がある(非特許文献1参照)。図1は従来技術に係る音響モデル学習装置80の機能ブロック図、図2は従来技術に係る音声合成装置90の機能ブロック図を示す。
スペクトル包絡・F0ベクトルデータ作成部82は、F0データ{f1,f2,…,fN}と、スペクトル包絡データ{s1,s2,…,sN}から、スペクトル包絡・F0データ{x1,x2,…,xN}を作成する。ただし、学習用音声データの総数をNとし、n=1,2,…,Nとする。図中、{f1,f2,…,fN}等をfn等と表現する。言語特徴量ベクトルデータ作成部81は、コンテキストデータ{t1,t2,…,tN}から、言語特徴量ベクトルデータ{l1,l2,…,lN}を作成する。スペクトル包絡生成モデル・変換パラメータ学習部84は、スペクトル包絡・F0データ{x1,x2,…,xN}、言語特徴量ベクトルデータ{l1,l2,…,lN}から、スペクトル包絡・F0生成DNNを学習する。
音声合成装置90では、テキスト解析部91で合成するテキストtexoをテキスト解析し、コンテキストtoを得る。言語特徴量ベクトル抽出部92は、コンテキストtoから言語特徴量ベクトルloを抽出する。スペクトル包絡生成部94は、スペクトル包絡・F0生成DNNを用いて、言語特徴量ベクトルloからスペクトル包絡情報so、F0情報foを生成する。音声波形生成部95は、得られたスペクトル包絡情報so、F0情報foから、音声波形生成により、合成音声波形zoを得る。
Zen et al., "Statistical parametric speech synthesis using deep neural networks", Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013 pp. 7962-7966.
人間の発話する音声では、スペクトル包絡情報とF0情報には依存関係があることが知られている。この依存関係を再現することで、合成音声を高品質化することが可能である。
しかしながら、従来技術では、コンテキストから得られる言語特徴量ベクトルを入力とし、スペクトル包絡情報とF0情報を出力するDNNを利用し、スペクトル包絡情報とF0情報の依存関係が明にモデル化されていない。そのため、音声品質に改善の余地があると考えられる。
本発明は、スペクトル包絡情報とF0情報の依存関係を明にモデル化し、従来よりも品質の高い音声を合成する音声合成装置、そのための音響モデルを学習する音響モデル学習装置、その方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音響モデル学習装置は、学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習部と、N個の基本周波数情報fL,nと、N個の言語特徴量ベクトルlL,nと、N個の学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習方法は、学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習ステップと、N個の基本周波数情報fL,nと、N個の言語特徴量ベクトルlL,nと、N個の学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習ステップとを含む。
本発明によれば、従来よりも品質の高い音声を合成することができるという効果を奏する。
従来技術に係る音響モデル学習装置の機能ブロック図。 従来技術に係る音声合成装置の機能ブロック図。 第一実施形態に係る音響モデル学習装置の機能ブロック図。 第一実施形態に係る音響モデル学習装置の処理フローの例を示す図。 第一実施形態に係る音声合成装置の機能ブロック図。 第一実施形態に係る音声合成装置の処理フローの例を示す図。 第二実施形態に係る音響モデル学習装置の機能ブロック図。 第二実施形態に係る音響モデル学習装置の処理フローの例を示す図。 第二実施形態に係る音声合成装置の機能ブロック図。 第二実施形態に係る音声合成装置の処理フローの例を示す図。 第三実施形態に係る音響モデル学習装置の機能ブロック図。 第三実施形態に係る音響モデル学習装置の処理フローの例を示す図。 第三実施形態に係る音声合成装置の機能ブロック図。 第三実施形態に係る音声合成装置の処理フローの例を示す図。 第四実施形態に係る音響モデル学習装置の機能ブロック図。 第四実施形態に係る音響モデル学習装置の処理フローの例を示す図。 第四実施形態に係る音声合成装置の機能ブロック図。 第四実施形態に係る音声合成装置の処理フローの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
本実施形態では、スペクトル包絡情報を生成するDNNの入力に、F0情報を活用する。音声合成器の入力として、読み、アクセントなどの従来のコンテキストに加え、F0情報を活用し、対応するF0情報を反映したスペクトル包絡情報を出力するようにDNNを構成する。このような構成により、F0情報との依存関係を反映したスペクトル包絡情報を生成することが可能となる。生成されたスペクトル包絡情報とF0情報の依存関係が満たされることで、合成音声の自然性が向上する。
<全体構成>
本実施形態は、音響モデル学習装置110および音声合成装置120から構成される。図3,4,5,6は、それぞれ音響モデル学習装置110の機能ブロック図、その処理フローを示す図、音声合成装置120の機能ブロック図、その処理フローを示す図である。
音響モデル学習装置110では、F0データ{f1,f2,…,fN}、スペクトル包絡データ{s1,s2,…,sN}、コンテキストデータ{t1,t2,…,tN}を用いて、F0生成DNN(図中、DNNfとも記載する)およびスペクトル包絡生成DNN(図中、DNNsとも記載する)を学習する。
音声合成装置120では、入力テキストtexoのテキスト解析・言語特徴量ベクトル抽出から得られる言語特徴量ベクトルlo、およびF0生成DNNから、F0情報foを生成する。次に、言語特徴量ベクトルlo、生成されたF0情報fo、およびスペクトル包絡生成DNNからスペクトル包絡情報soを生成する。
<用語、使用するデータに関する説明>
・F0データ、スペクトル包絡データ
F0データ、スペクトル包絡データは、それぞれ、音響モデル学習に使用する音声データ(以下、学習用音声データともいう)の音声信号に対して信号処理を行った結果得られる、各発話のF0情報(音高)fn、スペクトル包絡情報(ケプストラム、メルケプストラム等)snをそれぞれ学習用音声データの総数N個分保持したデータである。コンテキストデータ中の発話数Nを用いて、F0データを{f1,f2,…,fN}、スペクトル包絡データを{s1,s2,…,sN}で表現する。
例えば、F0情報fnは、N個の学習用音声データのうちのn番目の学習用音声データの時間長をTnフレームとした場合、各フレーム時刻の音高の情報を保持したデータであり、1×Tn次元の実ベクトルとする。または、有声/無声の情報を含む2×Tn次元の実ベクトルとしてもよい。
例えば、スペクトル包絡情報snは、n番目の学習用音声データの各フレーム時刻の音韻の情報を保持したデータであり、抽出されたケプストラム、メルケプストラムの低次元のみを抽出して利用してもよい。発話nの時間長をTnフレームとした場合、例えば、M次元のメルケプストラムを使用して、M×Tn次元の実ベクトル等とする。
・コンテキストデータ
コンテキストデータは、学習用音声データのコンテキスト(発話情報)を学習用音声データの総数N個分保持したデータである。例えば、コンテキストデータを{t1,t2,…,tN}で表現する。
例えば、コンテキストtnは、n番目の学習用音声データについて付与された発音等の情報である。コンテキストには、音素情報(発音情報)とアクセント情報(アクセント型、アクセント句長)を含んでいる必要がある。コンテキストとして、これ以外にも品詞情報等も含んでいてもよい。また、各音素の開始時間、終了時間の情報(音素セグメンテーション情報)が保存されていてもよい。
・言語特徴量ベクトル
言語特徴量ベクトルlnは、コンテキストtnを数値ベクトルで表現したものである。例えば、非特許文献1のように、音素情報、アクセント情報をそれぞれ1-of-K表現し、さらに文長などの数値情報と連結し得られる数値ベクトルとする。当該発話の時間長をTnフレームとした場合、例えばフレーム辺りK次元のベクトルを使用し、言語特徴量ベクトルlnとして、K×Tn次元の実ベクトルを使用する。
言語特徴量ベクトルデータは、コンテキストデータ{t1,t2,…,tN}に含まれる各発話について、対応する言語特徴量ベクトルlnを保持したものである。コンテキストデータ中の発話数Nを用いて、{l1,l2,…,lN}として表現する。
・言語特徴量・F0ベクトル
言語特徴量・F0ベクトルは、言語特徴量ベクトルlnとF0情報fnの双方の情報を保持したベクトルである。例えば、言語特徴量ベクトルlnとF0情報fnとを連結し、xn=[ln T,fn T]Tとして作成する。
言語特徴量・F0ベクトルデータは、N個の学習用音声データに含まれる各学習用音声データについて、言語特徴量・F0ベクトルxnを抽出し、データとして保持したものである。コンテキストデータ中の発話数Nを用いて、{x1,x2,…,xN}で表現する。
<第一実施形態に係る音響モデル学習装置110>
F0データ、スペクトル包絡データ、コンテキストデータから音響モデル学習を行い、DNN音響モデルを出力する。従来手法のアルゴリズムと異なる点は、(1)言語特徴量・F0ベクトルデータを作成する点、(2)F0のみを生成するF0生成DNNを学習する点、(3)スペクトル包絡の生成のために言語特徴量のみでなくF0情報も活用するため、スペクトル包絡生成DNNの入力として言語特徴量・F0ベクトルデータを使用する点である。
図3は第一実施形態に係る音響モデル学習装置110の機能ブロック図を、図4はその処理フローを示す。
例えば、この音響モデル学習装置110は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。音響モデル学習装置110は、言語特徴量ベクトルデータ作成部111と、言語特徴量・F0ベクトルデータ作成部112と、F0生成モデル学習部113と、スペクトル包絡生成モデル学習部114とを含む。以下、各部の処理内容を説明する。
<言語特徴量ベクトルデータ作成部111>
言語特徴量ベクトルデータ作成部111は、コンテキストデータ{t1,t2,…,tN}を入力とし、各発話のコンテキストtnに対し言語特徴量ベクトルlnを作成し(S111)、その結果を言語特徴量ベクトルデータ{l1,l2,…,lN}として保持する。
<言語特徴量・F0ベクトルデータ作成部112>
言語特徴量・F0ベクトルデータ作成部112は、F0データ{f1,f2,…,fN}と言語特徴量ベクトルデータ{l1,l2,…,lN}とを入力とし、n番目の学習用音声データに対応する言語特徴量ベクトルlnとF0情報fnとを連結し、言語特徴量・F0ベクトルxn=[ln T,fn T]Tとして作成し、N発話分に対して同様の処理を行い、言語特徴量・F0ベクトルデータ{x1,x2,…,xN}を作成し(S112)、保持する。
<F0生成モデル学習部113>
F0生成モデル学習部113は、言語特徴量ベクトルデータ{l1,l2,…,lN}とF0データ{f1,f2,…,fN}とを入力とし、これらのデータを用いて、言語特徴量ベクトルを入力とし、対応するF0情報を出力とするDNN(以下、F0生成モデルともいい、図中、DNNfとも記載する)を学習し(S113)、保持する。F0生成モデルの学習方法としては、既存の如何なる技術を用いてもよい。例えば、入出力で使用するベクトルを除いて、学習方法・モデル構成等は非特許文献1と同様とする。
<スペクトル包絡生成モデル学習部114>
スペクトル包絡生成モデル学習部114は、言語特徴量・F0ベクトルデータ{x1,x2,…,xN}とスペクトル包絡データ{s1,s2,…,sN}とを入力とし、これらのデータを用いて、言語特徴量・F0ベクトルを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成DNN(以下、スペクトル包絡生成モデルともいい、図中、DNNsとも記載する)を学習する(S114)。スペクトル包絡生成モデルの学習方法としては、既存の如何なる技術を用いてもよい。例えば、入出力で使用するベクトルを除いて、学習方法・モデル構成等は非特許文献1と同様とする。
<第一実施形態に係る音声合成装置120>
音声合成装置120は、合成するテキストtexoから、合成音声zoを生成する。従来手法のアルゴリズムと異なる点は、F0生成DNNから、F0情報fnのみを生成し、スペクトル包絡生成DNNからスペクトル包絡情報soを生成する際に、言語特徴量lnと併せてF0情報fnを使用する点である。
図5は第一実施形態に係る音声合成装置120の機能ブロック図を、図6はその処理フローを示す。
例えば、この音声合成装置120は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。音声合成装置120は、テキスト解析部121と、言語特徴量ベクトル抽出部122と、F0生成部123と、言語特徴量・F0ベクトル作成部124Bと、スペクトル包絡生成部124と、音声波形生成部125とを含む。以下、各部の処理内容を説明する。
<テキスト解析部121>
テキスト解析部121は、音声合成の対象となるテキストtexoを入力とし、テキストtexoをテキスト解析し(S121)、コンテキストtoを得る。
<言語特徴量ベクトル抽出部122>
言語特徴量ベクトル抽出部122は、コンテキストtoを入力とし、コンテキストtoに対応する言語特徴量ベクトルloを抽出し(S122)、出力する。
<F0生成部123>
F0生成部123は、音声合成に先立ち予めF0生成モデルDDNfを受け取っておく。音声合成時には、F0生成部123は、言語特徴量ベクトルloを入力とし、F0生成モデルDDNfの順伝播を行い、出力ベクトルを、F0情報foとして出力する(S123)。なお、F0情報foは、テキストtexoに対応する音声波形の基本周波数を示す情報である。
<言語特徴量・F0ベクトル作成部124B>
言語特徴量・F0ベクトル作成部124Bは、言語特徴量ベクトルloとF0情報foとを入力とし、言語特徴量ベクトルloとF0情報foとを連結し、言語特徴量・F0ベクトルxo=[lo T,fo T]Tとして作成し(S124B)、出力する。
<スペクトル包絡生成部124>
スペクトル包絡生成部124は、音声合成に先立ち予めスペクトル包絡生成モデルDDNsを受け取っておく。スペクトル包絡生成部124は、言語特徴量・F0ベクトルxoを入力とし、スペクトル包絡生成モデルDDNsの順伝播を行い、出力ベクトルを、スペクトル包絡情報soとして、出力する(S124)。なお、スペクトル包絡情報soは、テキストtexoに対応する音声波形のスペクトル包絡情報を示す情報である。
<音声波形生成部125>
音声波形生成部125は、F0情報foとスペクトル包絡情報soとを受け取り、これらの値を用いて、テキストtexoに対応する音声波形(合成音声zo)を生成し(S125)、出力する。音声波形生成の前に、例えば、maximum likelihood generation (MLPG) アルゴリズム(参考文献1参照)を用いて時間方向に平滑化された音声パラメータ系列を得てもよい。また、音声波形生成には、例えば(参考文献2)を用いてもよい。
[参考文献1]益子他,“動的特徴を用いたHMMに基づく音声合成”,信学論,vol.J79-D-II,no.12,pp.2184-2190,Dec. 1996.
[参考文献2]今井他,“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”,電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.
<効果>
以上の構成により、音声合成器の入力として、読み、アクセントなどの従来のコンテキストに加え、F0情報を反映したスペクトル包絡情報を出力するようスペクトル包絡生成DNNを構成する。これにより、F0情報との依存関係を満たすスペクトル包絡情報を生成することが可能となる。これにより、合成音声の品質が向上する。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
第一実施形態において、スペクトル包絡生成DNNの入力として、極端に高いF0、極端に低いF0が使用される場合がある。その場合、スペクトル包絡生成DNNから生成されるスペクトル包絡情報が不安定となり、合成音声の品質が劣化する可能性がある。
この課題点に対し、本実施形態では、スペクトル包絡生成DNNの入力として、F0情報をある有界の関数F(x)に入力した際の出力値を使用する。スペクトル包絡生成DNNの入力が有界となることで、スペクトル包絡生成DNNから生成されるスペクトル包絡情報が安定し、合成音声の品質が向上する。
本実施形態は、第一実施形態と比較し、言語特徴量・F0ベクトル(データ)作成部の前段にF0変換部があり、F0情報を変換する点が異なる。
<用語、使用するデータに関する説明>
・言語特徴量・変換F0ベクトル
本実施形態における言語特徴量・変換F0ベクトルは、言語特徴量ベクトルlnとF0情報fnの双方の情報を保持したベクトルである。F0値変換した出力を使用する点が第一実施形態と異なる。例えば、言語特徴量ベクトルlnと変換後のF0情報fn (1)の二つのベクトルを連結し、xn=[ln T,fn (1)T]Tとして作成する。
<第二実施形態に係る音響モデル学習装置210>
図7は第二実施形態に係る音響モデル学習装置210の機能ブロック図を、図8はその処理フローを示す。
音響モデル学習装置210は、言語特徴量ベクトルデータ作成部111と、言語特徴量・F0ベクトルデータ作成部112と、F0生成モデル学習部113と、スペクトル包絡生成モデル学習部114と、F0変換部215とを含む。
<F0変換部215>
F0変換部215は、F0データ{t1,t2,…,tN}を入力とし、有界のベクトル関数F(fn)を用いて、F0データ{f1,f2,…,fN}を変換し(S215)、変換後のF0データ{f1 (1),f2 (1),…,fN (1)}を出力する。例えば、F0情報fnのフレーム長をTnフレームとし、fn=[fn1,fn2,…,fnT_n]Tとしたとき、F(fn)=[G(fn1)、G(fn2)、…、G(fnT_n)]Tとする。ただし、下付き添え字T_nは、Tnを意味する。ここで、Gは有界のスカラー関数である。例えば、Gとして、sigmoid関数
Figure 2018146821
を使用する。
なお、言語特徴量・F0ベクトルデータ作成部112は、F0データ{f1,f2,…,fN}に代えて、変換後のF0データ{f1 (1),f2 (1),…,fN (1)}を用いる。他の構成は第一実施形態と同様である。
<第二実施形態に係る音声合成装置220>
図9は第二実施形態に係る音声合成装置220の機能ブロック図を、図10はその処理フローを示す。
音声合成装置220は、テキスト解析部121と、言語特徴量ベクトル抽出部122と、F0生成部123と、言語特徴量・F0ベクトル作成部124Bと、スペクトル包絡生成部124と、音声波形生成部125と、F0変換部224Aとを含む。
<F0変換部224A>
F0変換部224Aは、F0情報foとを入力とし、有界のベクトル関数F(fn)を用いて、F0情報foを変換し(S224A)、変換後のF0情報fo (1)を出力する。変換方法としては、F0変換部215と対応する方法を用いればよい。
なお、言語特徴量・F0ベクトル作成部124Bは、F0情報foに代えて、変換後のF0情報fo (1)を用いる。他の構成は第一実施形態と同様である。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、スペクトル包絡生成DNNから生成されるスペクトル包絡情報が安定し、合成音声の品質が向上する。なお、第二実施形態では、用いるF0データ、F0情報を限定しており、第一実施形態を限定したものとも言える。
<第三実施形態>
第二実施形態と異なる部分を中心に説明する。
第二実施形態においては、ベクトル関数F(x)として固定された一つの関数を使用する。一方、学習データから、スペクトル包絡生成DNNの入力として適切なベクトル関数F(x)を推定することができれば、より適切にスペクトル包絡情報とF0情報の依存関係がモデル化されると考えられる。
この課題点に対し、本実施形態では、固定された一つの関数F(x)の替わりに、F0値変換パラメータθ(0)を持つ関数F(x;θ(0))を使用し、学習データを使用してF0値変換パラメータθ(0)を推定する。適切なベクトル関数を学習することで、スペクトル包絡情報とF0情報の依存関係がより柔軟にモデル化され、合成音声品質が向上する。
<用語、使用するデータに関する説明>
・F0値変換パラメータ
F0値変換パラメータは、パラメトリックF0値変換において使用するパラメータであり、θ(0)で表現する。
・パラメトリック変換F0情報
パラメトリック変換F0情報は、パラメトリックF0値変換により出力される実数値である。fn (2)で表現する。
・言語特徴量・パラメトリック変換F0ベクトル
言語特徴量・パラメトリック変換F0ベクトルは、言語特徴量ベクトルlnと、パラメトリック変換F0情報fn (2)から得られるベクトルである。xnで表現する。例えば、言語特徴量ベクトルlnと、パラメトリック変換F0情報fn (2)を連結し、xn=[ln T,fn (2)T]Tとして作成する。
・パラメトリックF0値変換
F0情報fn、F0値変換パラメータθ(0)、F0値変換関数F(x;θ(0))を用いて、パラメトリック変換F0情報fn (2)を出力する。この際、F(x;θ(0))として、値域が有界なベクトルを使用する。また、DNNの誤差逆伝播によるθ(0)の学習を可能とするため、F(x;θ(0))の出力値がθ(0)について微分可能である関数を使用する。例えば、F0情報fnのフレーム長をTnフレームとし、fn=[fn1,fn2,…,fnT_n]T、F(fn(0))=[G(fn1(0)),G(fn2(0)),…,G(fnT_n(0))]Tとしたとき、パラメトリックなsigmoid関数
Figure 2018146821
を使用する。または、ベクトル関数F(x;θ(0))を、xを入力ベクトル、θ(0)をパラメータとするニューラルネットワークとしてもよい。
<第三実施形態に係る音響モデル学習装置310>
図11は第三実施形態に係る音響モデル学習装置310の機能ブロック図を、図12はその処理フローを示す。
音響モデル学習装置310は、スペクトル包絡データ、F0データ、コンテキストデータから、スペクトル包絡生成DNN学習・F0値変換パラメータ推定を行い、スペクトル包絡生成DNNおよびF0値変換パラメータを出力する点が第二実施形態と異なる。スペクトル包絡生成DNN学習・F0値変換パラメータ推定では、スペクトル包絡データ、F0データ、言語特徴量ベクトルデータから、スペクトル包絡DNNのF0値変換パラメータを推定する。
音響モデル学習装置310は、言語特徴量ベクトルデータ作成部111と、言語特徴量・F0ベクトルデータ作成部112と、F0生成モデル学習部113と、スペクトル包絡生成モデル・変換パラメータ学習部314と、F0変換部315とを含む。
<F0変換部315>
F0変換部315は、学習に先立ち予めF0値変換パラメータθ(0)を初期化しておく。例えば、F0値変換パラメータθ(0)を乱数により初期化する。例えば、F0値変換パラメータθ(0)の初期化は、有界のベクトル関数F(x;θ(0))として、パラメトリックなsigmoid関数を使用する場合、標準正規分布からサンプリングする。
F0変換部315は、学習時においてF0データ{f1,f2,…,fN}を入力とし、F0データ{f1,f2,…,fN}とF0値変換パラメータθ(0)とを用いて、パラメトリックF0値変換を行い(fn (2)=[G(fn1(0)),G(fn2(0)),…,G(fnT_n(0))]、S315)、パラメトリック変換F0データ{f1 (2),f2 (2),…,fN (2)}を求め、出力する。
なお、言語特徴量・F0ベクトルデータ作成部112は、F0データ{f1 (1),f2 (1),…,fN (1)}に代えて、変換後のF0データ{f1 (2),f2 (2),…,fN (2)}を用いる。
<スペクトル包絡生成モデル・変換パラメータ学習部314>
スペクトル包絡生成モデル・変換パラメータ学習部314は、F0値変換パラメータθ(0)(初期値)と、言語特徴量・F0ベクトルデータ{x1,x2,…,xN}(ただし、xn=[fn (2)T,ln T]T)とスペクトル包絡データ{s1,s2,…,sN}とを入力とし、これらのデータを用いて、言語特徴量・F0ベクトルを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成DNNとF0値変換パラメータθ(0)を学習し、学習後のスペクトル包絡生成DNNとF0値変換パラメータθ(1)を出力する。例えば、以下のように学習する。
(1)言語特徴量・パラメトリック変換F0ベクトルxnをDNNの入力ベクトルとし、DNNを順伝播する。
(2)出力ベクトルzn(n番目の学習用音声データから得られるスペクトル包絡情報)とスペクトル包絡情報snの誤差を計測し、誤差を逆伝播し、DNNのパラメータW、F0値変換パラメータθ(0)の誤差勾配を算出する。ただし、DNNのパラメータWは、学習に先立ち予め乱数により初期化しておく。例えば、Wの乱数初期化は、非特許文献1と同様の方法を用いる。また、誤差関数としては、例えばznとsnの最小二乗誤差を使用する。
(3)誤差勾配に従い、パラメータWとF0値変換パラメータθ(0)を更新する。
F0変換部315における処理(S315)、言語特徴量・F0ベクトルデータ作成部112における処理(S112)、及び上述の(1)〜(3)の処理を収束判定されるまで反復する。
得られた(収束したと判断されたときの)パラメータW、F0値変換パラメータθ(0)をそれぞれ学習後のスペクトル包絡生成DNN、F0値変換パラメータθ(1)として出力する。例えば、収束判定として、反復回数が閾値に達したか、反復ごとの誤差関数の変化が閾値よりも小さくなったか、またはその両方を使用する。
<第三実施形態に係る音声合成装置320>
図13は第三実施形態に係る音声合成装置320の機能ブロック図を、図14はその処理フローを示す。
音声合成装置320は、音響モデル学習装置310で得られるF0値変換パラメータθ(1)を使用し、F0情報foを変換する点が第二実施形態と異なる。
音声合成装置320は、テキスト解析部121と、言語特徴量ベクトル抽出部122と、F0生成部123と、言語特徴量・F0ベクトル作成部124Bと、スペクトル包絡生成部124と、音声波形生成部125と、F0変換部324Aとを含む。
<F0変換部324A>
F0変換部324Aは、F0値変換パラメータθ(1)とF0情報foとを入力とし、F0情報foとF0値変換パラメータθ(1)とを用いて、パラメトリックF0値変換を行い(fo (2)=[G(fo1(1)),G(fo2(1)),…,G(foT_o(1))]、S324A)、パラメトリック変換F0データfo (2)を出力する。このとき、使用する関数F(x;θ(1))は、F0変換部315で使用されるパラメトリックF0値変換と同一のものを使用する。
なお、言語特徴量・F0ベクトル作成部124Bは、変換F0情報fo (1)に代えて、パラメトリック変換F0情報fo (2)を用いる。
<効果>
このような構成とすることで、第二実施形態と同様の効果を得ることができる。さらに、スペクトル包絡情報とF0情報の依存関係がより柔軟にモデル化され、合成音声品質が向上する。
<第四実施形態>
第三実施形態と異なる部分を中心に説明する。
第三実施形態のスペクトル包絡生成DNN学習・F0値変換パラメータ推定において、高品質な音声を合成可能とするためには、パラメータ生成誤差の小さいスペクトル包絡生成DNNを学習できればよい。ここで、勾配法などの初期値に依存するアルゴリズムを利用する場合、スペクトル包絡生成DNNのパラメータ誤差を十分に小さくするためには、適切な初期値を設定する必要があるという課題がある。
本実施形態では、F0値変換パラメータの初期値として、第三実施形態のスペクトル包絡生成DNN学習・F0値変換パラメータ推定において推定されたF0値変換パラメータθ(1)を使用する。第三実施形態で推定されたF0値変換パラメータθ(1)は、あるスペクトル包絡生成DNNのパラメータ生成誤差を最小化する基準で決定されたものであるため、それをF0値変換パラメータθ(1)として設定し、再度スペクトル包絡生成DNN学習・F0値変換パラメータ推定を実施することで、さらにパラメータ生成誤差の小さいスペクトル包絡生成DNNを学習可能であると期待される。これにより、より合成音声の品質を向上させる。
<用語、使用するデータに関する説明>
・再推定パラメトリックF0値変換パラメータ
再推定パラメトリックF0値変換パラメータは、音響モデル学習装置410により得られる、パラメトリックF0値変換のためのパラメータであり、θ(2)と表記する。第三実施形態の学習結果であるパラメトリックF0値変換パラメータθ(1)を初期値として利用し、再推定される点が第三実施形態と異なる。
<第四実施形態に係る音響モデル学習装置410>
図15は第三実施形態に係る音響モデル学習装置410の機能ブロック図を、図16はその処理フローを示す。
音響モデル学習装置410は、第三実施形態で得られるF0値変換パラメータθ(1)を初期値として利用して、スペクトル包絡生成DNN学習・F0値変換パラメータ再推定を行い、スペクトル包絡生成DNNと再推定F0値変換パラメータθ(2)を出力する点が第三実施形態と異なる。
音響モデル学習装置410は、音響モデル学習装置310と、言語特徴量ベクトルデータ作成部111と、言語特徴量・F0ベクトルデータ作成部112と、F0生成モデル学習部113と、スペクトル包絡生成モデル・変換パラメータ学習部314と、F0変換部415とを含む。
なお、音響モデル学習装置310は、音響モデル学習装置410の処理に先立ち、第三実施形態で説明した処理を実行し、F0値変換パラメータθ(1)を求め(S310)、出力する。
<F0変換部415及びスペクトル包絡生成モデル・変換パラメータ学習部414>
F0変換部415及びスペクトル包絡生成モデル・変換パラメータ学習部414は、学習に先立ち予め、F0値変換パラメータθ(0)に代えて、音響モデル学習装置310の出力値であるF0値変換パラメータθ(1)を初期値として設定する。F0変換部415及びスペクトル包絡生成モデル・変換パラメータ学習部414の処理内容は、それぞれF0変換部315及びスペクトル包絡生成モデル・変換パラメータ学習部314と同様である(S415、S414)。なお、スペクトル包絡生成モデル・変換パラメータ学習部414は、F0値変換パラメータθ(1)に代えて、再推定F0値変換パラメータθ(2)を出力する。
<第四実施形態に係る音声合成装置420>
図17は第三実施形態に係る音声合成装置420の機能ブロック図を、図18はその処理フローを示す。
音声合成装置420は、スペクトル包絡生成時に、F0値変換パラメータθ(1)でなく、再推定F0値変換パラメータθ(2)を使用する点が第三実施形態と異なる。
音声合成装置220は、テキスト解析部121と、言語特徴量ベクトル抽出部122と、F0生成部123と、言語特徴量・F0ベクトル作成部124Bと、スペクトル包絡生成部124と、音声波形生成部125と、F0変換部424Aとを含む。
<F0変換部424A>
F0変換部424Aは、再推定F0値変換パラメータθ(2)とF0情報foとを入力とし、F0情報foとF0値変換パラメータθ(1)とを用いて、パラメトリックF0値変換を行い(fo (2)=[G(fo1(2)),G(fo2(2)),…,G(foT_o(2))]、S424A)、パラメトリック変換F0データfo (2)を出力する。このとき、使用する関数G(x;θ(2))は、F0変換部415で使用されるパラメトリックF0値変換と同一のものを使用する。
なお、言語特徴量・F0ベクトル作成部124Bは、fo (1)に代えて、パラメトリック変換F0データfo (2)を用いる。
<効果>
このような構成とすることで、第三実施形態と同様の効果を得ることができる。さらに、パラメータ生成誤差の小さいスペクトル包絡生成DNNを学習可能であると期待される。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の前記学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習部と、
    N個の前記基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習部とを含む、
    音響モデル学習装置。
  2. 請求項1の音響モデル学習装置であって、
    有界のスカラー関数gを用いてN個の前記基本周波数情報fL,nをそれぞれ変換する基本周波数変換部を含み、
    前記スペクトル包絡生成モデル学習部において、用いられるN個の前記基本周波数情報fL,nは、前記基本周波数変換部において変換された値である、
    音響モデル学習装置。
  3. 請求項2の音響モデル学習装置であって、
    前記基本周波数変換部は、前記スカラー関数g及びそのパラメータθを用いてN個の前記基本周波数情報fL,nをそれぞれ変換し、
    前記スペクトル包絡生成モデル学習部において、N個の変換後の基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、変換後の基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルとパラメータθとを学習する、
    音響モデル学習装置。
  4. 請求項3の音響モデル学習装置であって、
    前記スペクトル包絡生成モデル学習部において、学習した後のパラメータをθ(1)とし、前記基本周波数変換部は、前記スカラー関数g及びそのパラメータθ(1)を用いてN個の前記基本周波数情報fL,nをそれぞれ変換し、
    前記スペクトル包絡生成モデル学習部において、N個の変換後の基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、変換後の基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルとスカラー関数のパラメータθ(1)を学習する、
    音響モデル学習装置。
  5. 請求項1から請求項4の何れかの音響モデル学習装置により学習した前記基本周波数生成モデルと前記スペクトル包絡生成モデルとを用いて、音声合成を行う音声合成装置であって、
    前記基本周波数生成モデルを用いて、対象テキストをテキスト解析して得られるコンテキストに対応する言語特徴量ベクトルlOから前記対象テキストに対応する音声波形の基本周波数を示す基本周波数情報fOを生成する基本周波数生成部と、
    前記スペクトル包絡生成モデルを用いて、前記言語特徴量ベクトルlOと前記基本周波数情報fOとから前記対象テキストに対応する音声波形のスペクトル包絡を示すスペクトル包絡情報sOを生成するスペクトル包絡生成部と、
    前記基本周波数情報fOと前記スペクトル包絡情報sOとを用いて、対象テキストに対応する音声波形を生成する音声波形生成部とを含む、
    音声合成装置。
  6. 学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の前記学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習ステップと、
    N個の前記基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習ステップとを含む、
    音響モデル学習方法。
  7. 請求項6の音響モデル学習方法により学習した前記基本周波数生成モデルと前記スペクトル包絡生成モデルとを用いて、音声合成を行う音声合成方法であって、
    前記基本周波数生成モデルを用いて、対象テキストをテキスト解析して得られるコンテキストに対応する言語特徴量ベクトルlOから前記対象テキストに対応する音声波形の基本周波数を示す基本周波数情報fOを生成する基本周波数生成ステップと、
    前記スペクトル包絡生成モデルを用いて、前記言語特徴量ベクトルlOと前記基本周波数情報fOとから前記対象テキストに対応する音声波形のスペクトル包絡を示すスペクトル包絡情報sOを生成するスペクトル包絡生成ステップと、
    前記基本周波数情報fOと前記スペクトル包絡情報sOとを用いて、対象テキストに対応する音声波形を生成する音声波形生成ステップとを含む、
    音声合成方法。
  8. 請求項1から請求項4の何れかの音響モデル学習装置、または、請求項5の音声合成装置として、コンピュータを機能させるためのプログラム。
JP2017042430A 2017-03-07 2017-03-07 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム Active JP6542823B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017042430A JP6542823B2 (ja) 2017-03-07 2017-03-07 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017042430A JP6542823B2 (ja) 2017-03-07 2017-03-07 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018146821A true JP2018146821A (ja) 2018-09-20
JP6542823B2 JP6542823B2 (ja) 2019-07-10

Family

ID=63592116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017042430A Active JP6542823B2 (ja) 2017-03-07 2017-03-07 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6542823B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916093A (zh) * 2020-07-31 2020-11-10 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法及装置
JP2021119381A (ja) * 2020-08-24 2021-08-12 北京百度網訊科技有限公司 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916093A (zh) * 2020-07-31 2020-11-10 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法及装置
JP2021119381A (ja) * 2020-08-24 2021-08-12 北京百度網訊科技有限公司 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品
JP7146991B2 (ja) 2020-08-24 2022-10-04 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品
US11488578B2 (en) 2020-08-24 2022-11-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for training speech spectrum generation model, and electronic device

Also Published As

Publication number Publication date
JP6542823B2 (ja) 2019-07-10

Similar Documents

Publication Publication Date Title
EP3895159B1 (en) Multi-speaker neural text-to-speech synthesis
Li et al. Multi-Language Multi-Speaker Acoustic Modeling for LSTM-RNN Based Statistical Parametric Speech Synthesis.
Blaauw et al. A neural parametric singing synthesizer
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP5768093B2 (ja) 音声処理システム
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US8825485B2 (en) Text to speech method and system converting acoustic units to speech vectors using language dependent weights for a selected language
KR100932538B1 (ko) 음성 합성 방법 및 장치
JPH04313034A (ja) 合成音声生成方法及びテキスト音声合成装置
JP6095588B2 (ja) 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム
WO2010119534A1 (ja) 音声合成装置、方法およびプログラム
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
JP5442016B2 (ja) 音声モデルの生成方法
CN112102811B (zh) 一种合成语音的优化方法、装置及电子设备
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2002244689A (ja) 平均声の合成方法及び平均声からの任意話者音声の合成方法
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Eichner et al. A unified approach for speech synthesis and speech recognition using stochastic Markov graphs.
JP3973492B2 (ja) 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
Anumanchipalli et al. Adaptation techniques for speech synthesis in under-resourced languages.
JP6468519B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
Khorram et al. Soft context clustering for F0 modeling in HMM-based speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190613

R150 Certificate of patent or registration of utility model

Ref document number: 6542823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150