JP7357518B2

JP7357518B2 - 音声合成装置及びプログラム

Info

Publication number: JP7357518B2
Application number: JP2019213532A
Authority: JP
Inventors: 清栗原; 信正清山; 正熊野
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-10-06
Anticipated expiration: 2039-11-26
Also published as: JP2021085943A

Description

本発明は、音声合成装置及びプログラムに関する。

近年、音声合成技術が進歩したことにより、テキストから音声を合成する技術が知られている。例えば、非特許文献１の技術では、アテンション機構（注意機構）を有するSequence-to-sequence + attention方式のディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）により、読み仮名と韻律記号を用いて記述されたテキストから音声合成を行う。また、非特許文献２の技術では、音素とアクセントとを入力として、アテンション機構を有するSequence-to-sequence + attention方式の音声合成を日本語に適用する。この非特許文献２の技術は、「Tacotron」という手法のみに対応しており、アクセントを制御可能である。また、非特許文献３の技術では、非特許文献１と同様の音声合成アルゴリズムにフルコンテキストラベルを直接入力できる。この非特許文献３の技術は、「Tacotron２」という手法にのみに対応している。

栗原清，清山信正，熊野正，今井篤，"読み仮名と韻律記号を入力とする日本語End-to-End音声合成方式の検討"，一般社団法人日本音響学会，日本音響学会 2018年秋季研究発表会講演論文集，2018年，p.1083-1084 Y. Yasuda，X. Wang，S. Takaki，and J. Yamagishi，"Investigation of Enhanced Tacotron Text-to-speech Synthesis Systems with Self-attention for Pitch Accent Language"，in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)，2019年 T. Okamoto，T. Toda，Y. Shiga，and H. Kawai，"Real-Time Neural Text-to-Speech with Sequence-to-Sequence Acoustic Model and WaveGlow or Single Gaussian WaveRNN Vocoders"，in Proceedings of Interspeech，2019年，p.1308-1312

ＤＮＮ音声合成を含む統計的パラメトリック音声合成のモデルの学習には、音声と、その音声の言語データとを学習データとして用いる。品質が高い音声合成のための学習データを用意する際には、音声の録音よりも、発話内容のテキストにラベリングを行った精度の高い言語データを作成するために多くのコストがかかっていた。これは、日本語のＤＮＮ音声合成を精度良く実現するために、人手により漢字・仮名変換、アクセント・ポーズ、コストの高い音素時間長を決定するラベリングを行うことがあることによる。非特許文献１の技術では、音声合成モデルとして、複数種類のAttention（アテンション）に基づいたSequence-to-sequence方式の音声合成モデルを適用可能であり、可読性の良い言語データを入力に用いて精度よく音声波形を推定することがきる。しかしながら、この言語データを自動で生成する手法は示されていないため、手動で作成する必要がある。また、非特許文献２の技術では、音声合成モデルの入力に、音素とアクセントを別々に記述したデータを用いるため、直接的に記述できない。よって、対応付け等に作業を要する。また、非特許文献３の技術では、音声合成等に広く使用されている既存のフルコンテキストラベルを言語データとして使用するが、フルコンテキストラベルは記述方法が複雑であり、可読性も低い。また、漢字仮名交じり文からフルコンテキストラベルに変換する過程で、漢字から音素の変換に誤りが生じた場合には修正するインターフェース等が必要になる。この場合、変換誤りが生じないように音素とアクセントを指定する必要があるが、その情報は非特許文献１の言語データとして用いられる読み仮名と韻律記号と等価であり、フルコンテキストラベルを入力とすることに利点はない。

本発明は、このような事情を考慮してなされたもので、品質の良い音声合成のために音声合成モデルに入力する言語データを簡易に作成することができる音声合成装置及びプログラムを提供する。

本発明の一態様は、発話における音素の情報と、前記発話において当該音素が含まれるアクセント句及び当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含むラベルデータを前記発話における前記音素の出現順に並べたコンテキストラベルデータから前記発話における出現順の前記音素の情報を抽出し、出現順の前記音素が表す読み方に対応した文字列に、前記音素と前記アクセント句情報との少なくとも一方に基づいて得られる韻律を表す文字又は文字列である韻律記号を付加したテキストデータを生成する変換部と、シーケンス・ツー・シーケンス方式の音響特徴量生成モデルに前記変換部により生成された前記テキストデータを入力し、前記発話の推定の音響特徴量を生成する音響特徴量生成部と、前記音響特徴量生成部が生成した前記音響特徴量を用いて音声波形を推定するボコーダ部と、を備えることを特徴とする音声合成装置である。

本発明の一態様は、上述する音声合成装置であって、前記音響特徴量生成部が入力する前記テキストデータに、ユーザの操作に基づいて修正を行う修正部をさらに備える、ことを特徴とする。

本発明の一態様は、上述する音声合成装置であって、前記発話が日本語の場合、読み方に対応した前記文字列を構成する文字は、前記音素を表す文字、カタカナ、発音記号、平仮名又はアルファベットである、ことを特徴とする。

本発明の一態様は、上述する音声合成装置であって、前記韻律記号は、アクセント位置を指定する記号と、句又はフレーズの区切りを指定する記号と、文末のイントネーションを指定する記号と、ポーズ調を指定する記号とのうちのいずれかを含む、ことを特徴とする。

本発明の一態様は、コンピュータを、上述するいずれかの音声合成装置として機能させるためのプログラムである。

本発明によれば、品質の良い音声合成のために音声合成モデルに入力する言語データを簡易に作成することができる。

本発明の一実施形態による音声合成装置の構成例を示す機能ブロック図である。同実施形態による韻律記号を示す図である。同実施形態によるＰＬＰデータの例を示す図である。同実施形態による音声合成装置が用いるフルコンテキストラベルデータに含まれる特徴の情報を示す図である。同実施形態による音声合成装置が用いるフルコンテキストラベルデータに含まれる特徴の情報を示す図である。同実施形態による音声合成装置が用いるフルコンテキストラベルデータの例を示す図である。同実施形態による音声合成装置の学習処理を示すフロー図である。同実施形態による音声合成装置の音声合成処理を示すフロー図である。同実施形態による変換部の変換アルゴリズムを示す図である。同実施形態による変換部の変換処理を示すフロー図である。同実施形態による変換部の変換処理を示すフロー図である。同実施形態による音声合成アルゴリズムを示す図である。同実施形態によるエンコーダの例を示す図である。同実施形態によるデコーダの例を示す図である。同実施形態による学習アルゴリズムを示す図である。同実施形態の音声合成装置の評価実験に使用した音響特徴量推定手法及び入力データの組み合わせを示す図である。同実施形態の音声合成装置の主観評価実験により得られたアラインメントを示す図である。同実施形態の音声合成装置の主観評価実験により得られたメルスペクトログラムを示す図である。同実施形態の音声合成装置の客観評価実験の結果を示す図である。同実施形態の音声合成装置の客観評価実験に用いた音響特徴量推定手法、音響特徴量及び音声波形合成方法の組み合わせを示す図である。同実施形態の音声合成装置の客観評価実験の結果を示す図である。同実施形態の音声合成装置が生成したＰＬＰデータと手動修正したＰＬＰデータの一致度を示す図である。同実施形態の音声合成装置が生成したＰＬＰデータと手動修正したＰＬＰデータを学習に用いた場合の主観評価実験の結果を示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本実施形態の音声合成装置は、音声合成に非特許文献１の技術を適用し、音声合成モデルとして、シーケンス・ツー・シーケンス方式の音響特徴量生成モデルを用いる。この音響特徴量生成モデルは、発話内容を読み仮名と韻律記号とを用いて記述した可読性の良い言語データを入力として、品質の良い音響特徴量を推定する。本実施形態の音声合成装置は、音響特徴量生成モデルに入力する言語データを、一般的に広く利用されている既存の音声ラベルファイルであるフルコンテキストラベルから変換することにより生成する。フルコンテキストラベルは、音素や音素の位置等を詳しく規定したものであり、既存の技術により日本語の平文から自動で生成することが可能である。本実施形態の音声合成装置が、フルコンテキストラベルから、読み仮名と韻律記号とを用いて記述した言語データを生成することにより、音声合成やモデル学習のために用いられる言語データの作成に要する人的コスト及び時間的コストを低減する。

図１は、本実施形態による音声合成装置１の構成例を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出したものである。本実施形態の音声合成装置１は、テキスト入力部２と、第一フルコンテキストラベル生成部３と、第一変換部４と、修正部５と、音響特徴量生成部６と、ボコーダ部７と、学習データ入力部８と、第二フルコンテキストラベル生成部９と、第二変換部１０とを備える。

テキスト入力部２は、音声合成を行う発話内容を表す漢字仮名交じりの文章のテキストデータを入力し、第一フルコンテキストラベル生成部３に出力する。第一フルコンテキストラベル生成部３は、テキスト入力部２からテキストデータを入力し、入力したテキストデータに記述された漢字仮名交じりの文章を既存の技術によりフルコンテキストラベルデータに変換する。フルコンテキストラベルについては、例えば、参考文献１「“HMM/DNN-based Speech Synthesis System (HTS)”，2015年12月25日、[online]，[2019年10月25日検索]，インターネット<http://hts.sp.nitech.ac.jp/>」に記載されている。また、テキストデータからフルコンテキストラベルへの変換については、例えば、参考文献２「“Open JTalk”，[online]，[2019年10月25日検索]，インターネット<http://open-jtalk.sourceforge.net/>」に記載の技術を用いることができる。この技術の手法は、形態素解析の機能とアクセント辞典の機能やその他の言語処理の機能を持ち、フルコンテキストラベルの形でそれらの情報を反映できる。漢字仮名交じり文をフルコンテキストラベルに変換するこの手法では、漢字を仮名に変換する時に変換誤りが混入する可能性がある。この誤りは、学習に支障のない量であることが多いため、全てのデータを正しく修正せずに自動化を優先して学習できることが今回の実験より判明している。なお、実験の結果については後述する。

第一変換部４は、第一フルコンテキストラベル生成部３から、発話内容のフルコンテキストラベルデータを入力する。あるいは、第一変換部４は、人手により生成された、又は、音声合成装置１の外部の装置により生成されたフルコンテキストラベルデータを入力する。この場合、音声合成装置１は、第一フルコンテキストラベル生成部３を備えなくてもよい。第一変換部４は、入力したフルコンテキストラベルデータを、読み方を表す文字と韻律記号とを用いて記述されたテキストデータであるＰＬＰ（Symbols of phoneme and linguistic phonological features）データに変換する。以下では、第一変換部４が生成したＰＬＰデータを生成用ＰＬＰデータとも記載する。発話の言語が日本語である場合、読み方を表す文字として読み仮名が用いられる。韻律記号は、韻律を表す文字又は文字列である。韻律記号には、読み方を表す文字とは別の文字を用いる。

修正部５は、第一変換部４により変換された生成用ＰＬＰデータを、図示しない入力部によりユーザが入力した指示に従って修正する。入力部は、ユーザの指示を入力する際にユーザによって操作されるインターフェースである。修正により、生成用ＰＬＰデータに、読み仮名や韻律記号の削除、変更、追加等が行われる。ＰＬＰデータは、読み仮名と韻律記号を表す文字により記述されているため可読性がよく、ユーザによる修正が容易である。

音響特徴量生成部６は、ＰＬＰデータを入力データに用いて発話内容の音声の推定の音響特徴量を生成する。このＰＬＰデータは、第一変換部４又は修正部５が出力した生成用ＰＬＰデータ、若しくは、第二変換部１０が出力した学習用ＰＬＰデータである。音響特徴量生成部６として、例えば、非特許文献１に記載のＤＮＮなど、アテンション機構を有するSequence-to-sequence + attention方式の音響特徴量生成モデルが用いられる。アテンション機構を有するSequence-to-sequence + attention方式の音響特徴量生成モデルは、エンコーダと、デコーダと、アテンションとを有する。エンコーダは、再帰型ニューラルネットワークにより、ＰＬＰデータが示す発話内容に、文章内における当該発話内容の前後の文字列を考慮した文字列の特徴量を生成する。デコーダは、再帰型ニューラルネットワークにより、エンコーダが生成した特徴量と過去に生成した音響特徴量とに基づいて、ＰＬＰデータが示す発話内容に対応する音声の音響特徴量を生成する。アテンションは、デコーダに入力されるエンコーダからの出力に対して、デコーダの隠れ層の値等に基づいて注目すべき箇所に重みを付与する。音響特徴量には、例えば、メルスペクトログラムが用いられる。

ボコーダ部７は、音響特徴量生成部６が生成した音響特徴量のデータを入力データに用いて音声波形生成モデルを実行し、音声波形データを生成する。音声波形生成モデルとして、例えば、WaveNetなどのＤＮＮ等を用いることができる。WaveNetは、例えば、参考文献３「A. van den Oord，S. Dieleman，H. Zen，K. Simonyan，O. Vinyals，A. Graves，N. Kalchbrenner，A. Senior and K. Kavukcuoglu，“WaveNet: A Generative Model for Raw Audio”，arXiv:1609.03499v2，2016」に記載されている。ボコーダ部７は、生成した音声波形データを出力する。

学習データ入力部８は、学習データを入力する。学習データは、発話の音声波形を表す学習用音声データと、その発話の内容を漢字仮名交じりで記述した学習用テキストデータとの組からなる。学習データ入力部８は、学習用音声データを音響特徴量生成部６に出力し、学習用テキストデータを第二フルコンテキストラベル生成部９に出力する。

第二フルコンテキストラベル生成部９は、学習データ入力部８から学習用テキストデータを入力する。第二フルコンテキストラベル生成部９は、第一フルコンテキストラベル生成部３と同様の機能を有しており、学習用テキストデータに記述された漢字仮名交じりの文章を、フルコンテキストラベルデータに変換し、第二変換部１０に出力する。

第二変換部１０は、学習用音声データの発話内容を表すフルコンテキストラベルデータを入力する。第二変換部１０は、このフルコンテキストラベルデータを第二フルコンテキストラベル生成部９から入力する。あるいは、第一変換部４は、人手により生成された、又は、音声合成装置１の外部の装置により生成されたフルコンテキストラベルデータを入力してもよい。第二変換部１０は、第一変換部４と同様の機能を有しており、フルコンテキストラベルデータをＰＬＰデータに変換する。第二変換部１０が生成したＰＬＰデータを学習用ＰＬＰデータとも記載する。第二変換部１０は、学習用ＰＬＰデータを音響特徴量生成部６に出力する。音響特徴量生成部６は、学習用ＰＬＰデータを入力として生成した推定の音響特徴量と、学習用音声データから算出した音響特徴量との差分に基づいて、音響特徴量生成モデルを更新する。

なお、第一フルコンテキストラベル生成部３と第二フルコンテキストラベル生成部９が同一の機能部でもよく、第一変換部４と第二変換部１０とが同一の機能部でもよい。

音声合成装置１は、パーソナルコンピュータやサーバコンピュータ、スマートフォンなどのコンピュータ装置により実現することができる。音声合成装置１を、複数台のコンピュータ装置により実現してもよい。この場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。例えば、第一フルコンテキストラベル生成部３と第一変換部４及び音響特徴量生成部６とを異なるコンピュータ装置で実現してもよく、第一変換部４と音響特徴量生成部６とを異なるコンピュータ装置で実現してもよい。また、例えば、第二フルコンテキストラベル生成部９と第二変換部１０及び音響特徴量生成部６とを異なるコンピュータ装置で実現してもよく、第二変換部１０と音響特徴量生成部６とを異なるコンピュータ装置で実現してもよい。また、例えば、第一変換部４と第二変換部１０とを異なるコンピュータ装置で実現してもよい。また、音声合成装置１の同一の機能部を、複数台のコンピュータ装置により実現してもよい。

図２は、本実施形態のＰＬＰデータに用いられる韻律記号の例を示す図である。本実施形態で用いられる韻律には、アクセント位置の指定、句・フレーズの区切り指定、文末イントネーションの指定、ポーズの指定などの種類がある。アクセント位置の指定には、アクセント上昇を表す韻律記号「”」や、アクセント下降を表す韻律記号「&」が用いられる。句・フレーズの区切り指定には、アクセント句の区切りを表す韻律記号「＃」が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号「（」や、疑問の文末を表す韻律記号「？」、名詞又は名詞句の文末を表す韻律記号「．」が用いられる。ポーズの指定には、ポーズを表す韻律記号「_」が用いられる。なお、これらの韻律記号は例であり、他の記号を用いても同じ機能を再現できる。また、これらの例では、韻律記号を１字で表しているが、２字以上で表してもよい。また、図２に示す韻律に加えて他の韻律の韻律記号を用いることもできる。

図３は、ＰＬＰデータの例を示す図である。図３に示すＰＬＰデータは、読み仮名と韻律記号とにより記述されたテキストデータである。図３では、読み仮名にカタカナを用いているが、平仮名を用いてもよい。また、読み方を表す文字として、読み仮名に代えて、音素を表す文字である音素記号や、発音を表す文字である発音記号、ローマ字などを用いてもよい。

図４及び図５は、フルコンテキストラベルデータに含まれる特徴の情報を示す図である。図４及び図５では、指標と、その指標が示す特徴の情報とを対応付けて示している。ｎは、先頭の音素を１番目としたときの音素の順番を表す。ｐ_ｎ、ａ_ｎ～ｋ_ｎは、ｎ番目の音素を現在位置としたときの特徴を示す。ｐ_ｎは現在（ｎ番目）の音素を中心とした音素の並びを表す。ｐ_ｎ，１は２つ前の音素（先先行音素）、ｐ_ｎ，２は１つ前の音素（先行音素）、ｐ_ｎ，３は現在（ｎ番目）の音素、ｐ_ｎ，４は１つ後の音素（後続音素）、ｐ_ｎ，５は２つ後の音素（後後続音素）を表す。ａ_ｎは、アクセント型と位置に関する情報を示す。ｂ_ｎは、先行単語の品詞、活用形及び活用型に関する情報を示す。ｃ_ｎは、現在の単語の品詞、活用形及び活用型に関する情報を示す。ｄ_ｎは、後続単語の品詞、活用形及び活用型に関する情報を示す。ｅ_ｎは、先行アクセント句の情報を示す。ｆ_ｎは、現在のアクセント句の情報を示す。ｇ_ｎは、後続アクセント句の情報を示す。ｈ_ｎは、先行呼気段落の情報を示す。ｉ_ｎは、現在の呼気段落の情報を示す。ｊ_ｎは、後続呼気段落の情報を示す。ｋ_ｎは、発話における呼気段落、アクセント句及びモーラの数を示す。このように、コンテキストラベルデータは、発話における音素の情報、当該音素の前後の音素の情報、当該音素のアクセント句情報などを含む。アクセント句情報は、発話において現在の音素が含まれるアクセント句に関する特徴、及び、当該アクセント句に隣接するアクセント句に関する特徴などを示す。なお、位置は、現在の音素の位置を０として、現在の音素よりも前の位置は負の値により、現在の音素のよりも後の位置は正の値により表される。

図６は、フルコンテキストラベルデータの例を示す図である。図６に示すフルコンテキストラベルデータＤ１は、Ｎ個のラベルデータＬ（１）、Ｌ（２）、…、Ｌ（Ｎ）を並べたデータである。Ｎは発話中の音素の数である。ラベルデータＬ（ｎ）は、ｎ番目の音素の位置についてのラベルデータである（ｎは1以上Ｎ以下の整数、Ｎは発話中の音素の数）。ラベルデータＬ（ｎ）には、ｎ番目の音素の位置のｐ_ｎ、ａ_ｎ～ｋ_ｎの値が記述される。第一変換部４は、ラベルデータＬ（１）、Ｌ（２）、…、Ｌ（Ｎ）のそれぞれに記述されている現在の音素ｐ_１，３、ｐ_２，３、…、ｐ_Ｎ，３を順に並べたデータに、フルコンテキストラベルデータに含まれる情報に基づいて得られる韻律を表す記号を付加してＰＬＰデータＤ２を生成する。音素ｐ_１，３、ｐ_２，３、…、ｐ_Ｎ，３は読み方を表す文字に相当する。第一変換部４は、ＰＬＰデータＤ２に含まれる音素ｐ_１，３、ｐ_２，３、…、ｐ_Ｎ，３をカタカナや平仮名などの読み仮名や、ローマ字、発音記号など読み方を表す他の文字に変換したＰＬＰデータを出力する。第一変換部４は、この変換を、予め記憶しておいた音素と読み方を表す文字との変換規則に基づいて行う。なお、第一変換部４は、音素ｐ_１，３、ｐ_２，３、…、ｐ_Ｎ，３をそのまま読み方を表す文字として用いたＰＬＰデータＤ２を出力してもよい。第二変換部１０も、第一変換部４と同様の処理を行う。

続いて、音声合成装置１の処理を説明する。まず、音声合成装置１は、音声合成処理に用いる音響特徴量生成モデルを、学習データを用いて学習する学習処理を行う。

図７は、音声合成装置１の学習処理を示すフロー図である。ステップＳ５において、音声合成装置１の学習データ入力部８は、学習データを入力する。学習データ入力部８は、学習データに含まれる学習用音声データを音響特徴量生成部６に出力し、学習データに含まれる学習用テキストデータを第二フルコンテキストラベル生成部９に出力する。ステップＳ１０において、音響特徴量生成部６は、学習用音声データが示す音声波形から音響特徴量を算出する。

一方、ステップＳ１５において、第二フルコンテキストラベル生成部９は、入力された学習用テキストデータからフルコンテキストラベルデータを生成し、第二変換部１０に出力する。ステップＳ２０において、第二変換部１０は、後述する図９～図１１に示す第一変換部４の処理と同様の処理により、フルコンテキストラベルデータを、読み仮名と韻律記号とを用いた文字列の学習用ＰＬＰデータに変換する。第二変換部１０は、音響特徴量生成部６に学習用ＰＬＰデータを出力する。ステップＳ２５において、音響特徴量生成部６は、音響特徴量生成モデルに学習用ＰＬＰデータを入力して推定の音響特徴量を生成する。ステップＳ３０において、音響特徴量生成部６は、ステップＳ１０において算出した音響特徴量と、ステップＳ２５において生成した推定の音響特徴量との差分に基づいて、音響特徴量生成モデルを更新する。

なお、音声合成装置１は、ステップＳ１０の処理の後にステップＳ１５～ステップＳ２５の処理を行ってもよく、ステップＳ１５～ステップＳ２５の処理の後にステップＳ１０の処理を行ってもよい。また、音声合成装置１は、フルコンテキストラベルデータを外部から入力する場合、ステップＳ１５の処理を行わない。また、学習用ＰＬＰデータを、入力部（図示せず）によりユーザが入力した指示に従って修正してから音響特徴量生成部６に入力してもよい。

音声合成装置１は、学習処理によって学習した音響特徴量生成モデルを用いて音声合成処理を行う。図８は、音声合成装置１の音声を生成する際の音声合成処理を示すフロー図である。ステップＳ１０５において、音声合成装置１のテキスト入力部２は、発話内容を表す漢字仮名交じりの文章のテキストデータを入力し、第一フルコンテキストラベル生成部３に出力する。ステップＳ１１０において、第一フルコンテキストラベル生成部３は、入力されたテキストデータからフルコンテキストラベルデータを生成し、第一変換部４に出力する。

ステップＳ１１５において、第一変換部４は、フルコンテキストラベルデータを、読み仮名と韻律記号とを用いた文字列の生成用ＰＬＰデータに変換する。すなわち、第一変換部４は、フルコンテキストラベルデータから、発話内容における出現順の音素の情報を抽出する。第一変換部４は、出現順の音素が表す読み方に対応した文字列に、フルコンテキストラベルデータが示す音素やアクセント句情報に基づいて得られる韻律を表す韻律記号を付加して生成用ＰＬＰデータを生成する。

ステップＳ１２０において、第一変換部４は、生成用ＰＬＰデータの修正が必要か否かを判定する。修正が必要か否かは予め音声合成装置１に設定されてもよく、ユーザが入力部（図示せず）により入力してもよい。第一変換部４は、修正が必要と判定した場合（ステップＳ１２０：ＹＥＳ）、修正部５に生成用ＰＬＰデータを出力する。ステップＳ１２５において、修正部５は、第一変換部４から入力した生成用ＰＬＰデータを、入力部によりユーザが入力した指示に従って修正し、音響特徴量生成部６に出力する。音響特徴量生成部６は、ステップＳ１３０の処理を行う。

一方、第一変換部４は、修正が不要と判定した場合（ステップＳ１２０：ＮＯ）、音響特徴量生成部６に生成用ＰＬＰデータを出力する。音響特徴量生成部６は、ステップＳ１３０の処理を行う。

ステップＳ１３０において、音響特徴量生成部６は、音響特徴量生成モデルに生成用ＰＬＰデータを入力して推定の音響特徴量を生成する。ステップＳ１３５において、ボコーダ部７は、音響特徴量生成部６が生成した音響特徴量を音声波形生成モデルに入力し、音声波形を推定する。ボコーダ部７は、推定した音声波形を音声データにより、あるいは、スピーカーなどの音声出力部（図示せず）により出力する。

なお、音声合成装置１は、フルコンテキストラベルデータを外部の装置から入力する場合、ステップＳ１０５及びステップＳ１１０の処理を行わず、ステップＳ１１５からの処理を実行する。

続いて、図９～図１１を用いて、図８のステップＳ１１５における第一変換部４の処理を詳細に説明する。なお、図７のステップＳ２０における第二変換部１０の処理も第一変換部４の処理と同様である。図９は、第一変換部４における変換アルゴリズムを示す図である。変換アルゴリズムは、発話内容のフルコンテキストラベルデータと、その発話内容に含まれる音素の数Ｎとを入力とし、ＰＬＰデータを出力とする。図１０及び図１１は、第一変換部４の変換処理を示すフロー図である。図１０及び図１１のフロー図は、図９に示す変換アルゴリズムを用いた変換処理を示している。図９には、図１０及び図１１において対応する処理の符号を記述している。

図１０のステップＳ２０５において、第一変換部４は、第一フルコンテキストラベル生成部３又は音声合成装置１の外部の装置からフルコンテキストラベルデータを入力する。ステップＳ２１０において、第一変換部４は、入力したフルコンテキストラベルデータを参照して、音素数Ｎを得る。ステップＳ２１５において、第一変換部４は、変数ｎに初期値１を設定する。変数ｎは、発話内における音素の順番を表す。

ステップＳ２２０において、第一変換部４は、（ｎ－１）回目の繰り返し処理において作成されたＰＬＰ_ｎ－１に、フルコンテキストラベルデータのｎ番目のラベルデータＬ（ｎ）に記述されている現在の音素ｐ_ｎ，３を付加して、ＰＬＰ_ｎを生成する。音素ｐ_ｎ，３は、発話におけるｎ番目の音素である。なお、ｎ＝１の場合、ＰＬＰ_ｎ－１がないため、ラベルデータＬ（１）に音素ｐ_１，３を設定する。

ステップＳ２２５において、第一変換部４は、条件１を満たすか否かを判断する。条件１は、ラベルデータＬ（ｎ）のａ_ｎ，３＝１、かつ、ラベルデータＬ（ｎ＋１）のａ_{ｎ＋１，２}＝１という条件である。ａ_ｎ，３は、現在のアクセント句における現在のモーラの後ろからの位置を表す。つまり、ａ_ｎ，３＝１とは、現在のモーラ位置が現在のアクセント句内において最も後ろであることを意味する。ａ_ｎ，２は、現在のアクセント句における現在のモーラの先頭からの位置を表す。つまり、ａ_{ｎ＋１，２}＝１とは、後続音素の位置を現在位置としたときに、現在のモーラ位置が現在のアクセント句内において先頭であることを示す。

第一変換部４は、ステップＳ２２５において条件１を満たすと判断した場合（ステップＳ２２５：ＹＥＳ）、ステップＳ２３０の処理を行う。ステップＳ２３０において、第一変換部４は、ＰＬＰ_ｎにフレーズの区切りを表す韻律記号「＃」を付加する。第一変換部４は、ステップＳ２９０の処理に進む。

第一変換部４は、ステップＳ２２５において条件１を満たさないと判断した場合（ステップＳ２２５：ＮＯ）、ステップＳ２３５の処理を行う。ステップＳ２３５において、第一変換部４は、条件２を満たすか否かを判断する。条件２は、ラベルデータＬ（ｎ）のａ_ｎ，１＝０、かつ、ａ_ｎ，２≠ｆ_ｎ，１という条件である。ａ_ｎ，１＝０は、現在のアクセント句においてアクセント型と現在のモーラ位置とが一致することを示す。ａ_ｎ，２≠ｆ_ｎ，１は、現在のアクセント句のモーラ数と、現在のアクセント句における現在のモーラの先頭からの位置が不一致であることを示す。つまり、現在のアクセント句における最後のモーラではないことを示す。

第一変換部４は、ステップＳ２３５において条件２を満たすと判断した場合（ステップＳ２３５：ＹＥＳ）、ステップＳ２４０の処理を行う。ステップＳ２４０において、第一変換部４は、ＰＬＰ_ｎにアクセントの下降を表す韻律記号「＆」を付加する。第一変換部４は、ステップＳ２９０の処理に進む。

第一変換部４は、ステップＳ２３５において条件２を満たさないと判断した場合（ステップＳ２３５：ＮＯ）、図１１のステップＳ２４５の処理を行う。ステップＳ２４５において、第一変換部４は、条件３を満たすか否かを判断する。条件３は、ラベルデータＬ（ｎ）のａ_ｎ，２＝１、かつ、ラベルデータＬ（ｎ＋１）のａ_{ｎ＋１，２}＝２という条件である。ａ_ｎ，２は、現在のアクセント句における現在のモーラの先頭からの位置を表す。ａ_ｎ，２＝１とは、現在のモーラ位置が現在のアクセント句内において先頭であることを意味する。また、ａ_{ｎ＋１，２}＝２とは、後続音素の位置を現在位置としたときに、現在のモーラ位置が現在のアクセント句内において２番目であることを示す。

第一変換部４は、ステップＳ２４５において条件３を満たすと判断した場合（ステップＳ２４５：ＹＥＳ）、ステップＳ２５０の処理を行う。ステップＳ２５０において、第一変換部４は、ＰＬＰ_ｎにアクセント上昇を表す韻律記号「”」を付加する。第一変換部４は、図１０のステップＳ２９０の処理に進む。

第一変換部４は、ステップＳ２４５において条件３を満たさないと判断した場合（ステップＳ２４５：ＮＯ）、ステップＳ２５５の処理を行う。ステップＳ２５５において、第一変換部４は、条件４を満たすか否かを判断する。条件４は、ラベルデータＬ（ｎ）の現在の音素ｐ_ｎ，３がポーズを表す「ｐａｕ」であるという条件である。

第一変換部４は、ステップＳ２５５において条件４を満たすと判断した場合（ステップＳ２５５：ＹＥＳ）、ステップＳ２６０の処理を行う。ステップＳ２６０において、第一変換部４は、ＰＬＰ_ｎの最後に記述されている音素「ｐａｕ」を削除し、ポーズを表す韻律記号「＿」を最後に付加する。第一変換部４は、図１０のステップＳ２９０の処理に進む。

第一変換部４は、ステップＳ２５５において条件４を満たさないと判断した場合（ステップＳ２５５：ＮＯ）、ステップＳ２６５の処理を行う。ステップＳ２６５において、第一変換部４は、条件５を満たすか否かを判断する。条件５は、ラベルデータＬ（ｎ）の現在の音素ｐ_ｎ，３が無音を表す「ｓｉｌ」であり、かつ、ｎ＝Ｎであるという条件である。ｎ＝Ｎとは、現在の音素が発話における最後の音素であることを示す。第一変換部４は、ステップＳ２６５において条件５を満たさないと判断した場合（ステップＳ２６５：ＮＯ）、図１０のステップＳ２９０の処理に進む。

第一変換部４は、ステップＳ２６５において条件５を満たすと判断した場合（ステップＳ２６５：ＹＥＳ）、ステップＳ２７０の処理を行う。ステップＳ２７０において、第一変換部４は、条件６を満たすか否かを判断する。条件６は、ラベルデータＬ（ｎ）のｅ_ｎ，３が０であるという条件である。ｅ_ｎ，３が０とは、文末イントネーションが「通常」であることを示す。

第一変換部４は、ステップＳ２７０において条件６を満たすと判断した場合（ステップＳ２７０：ＹＥＳ）、ステップＳ２７５の処理を行う。ステップＳ２７５において、第一変換部４は、ＰＬＰ_ｎの最後に記述されている音素「ｓｉｌ」を削除し、ＰＬＰ_ｎの最後に文末（通常）を表す韻律記号「（」を付加する。第一変換部４は、図１０のステップＳ２９０の処理に進む。

第一変換部４は、ステップＳ２７０において条件６を満たさないと判断した場合（ステップＳ２７０：ＮＯ）、ステップＳ２８０の処理を行う。ステップＳ２８０において、第一変換部４は、条件７を満たすか否かを判断する。条件７は、ラベルデータＬ（ｎ）のｅ_ｎ，３が１であるという条件である。ｅ_ｎ，３が１とは、文末イントネーションが疑問文であることを示す。

第一変換部４は、ステップＳ２８０において条件７を満たすと判断した場合（ステップＳ２８０：ＹＥＳ）、ステップＳ２８５の処理を行う。ステップＳ２８５において、第一変換部４は、ＰＬＰ_ｎの最後に記述されている音素「ｓｉｌ」を削除し、ＰＬＰ_ｎの最後に文末（疑問）を表す韻律記号「？」を付加する。第一変換部４は、図１０のステップＳ２９０の処理に進む。また、第一変換部４は、ステップＳ２８０において条件７を満たさないと判断した場合（ステップＳ２８０：ＮＯ）、図１０のステップＳ２９０の処理に進む。

図１０のステップＳ２９０において、第一変換部４は、変数ｎが音素数Ｎに達したか否かを判定する。第一変換部４は、変数ｎが音素数Ｎに満たないと判定した場合（ステップＳ２９０：ＹＥＳ）、ステップＳ２９５の処理を行う。ステップＳ２９５において、第一変換部４は、変数ｎに１を加算する（ステップＳ２９５）。第一変換部４は、ステップＳ２２０からの処理を繰り返す。そして、第一変換部４は、変数ｎが音素数Ｎに達したと判定した場合（ステップＳ２９０：ＹＥＳ）、ステップＳ３００の処理を行う。ステップＳ３００において、第一変換部４は、ＰＬＰ_Ｎを記述したＰＬＰデータ（生成用ＰＬＰデータ）を出力する。

続いて、音響特徴量生成部６における音声合成処理及び学習処理を説明する。
図１２は、音響特徴量生成モデル６０を用いた音声合成アルゴリズムの例を示す図である。図１２に示す音響特徴量生成モデル６０は、音響特徴量生成部６の一例である。まず、音響特徴量生成モデル６０の例について説明する。図１２に示す音響特徴量生成モデル６０は、参考文献４「Shen et al.，[online]，2018年2月，"Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions"，arXiv:1712.05884v2，[2018年7月11日検索]，インターネット<URL: https://arxiv.org/pdf/1712.05884.pdf>」に示す技術を適用したＤＮＮである。音響特徴量生成モデル６０は、エンコーダ６１及びデコーダ６５を有する。図１３は、エンコーダ６１の例を示す図であり、図１４は、デコーダ６５の例を示す図である。なお、デコーダ６５が有するアテンションネットワーク６５１ついては、図１３に記載されている。図１２～図１４を用いて、エンコーダ６１及びデコーダ６５について説明する。

エンコーダ６１は、ＣＮＮ（Convolutional Neural Network；畳み込みニューラルネットワーク）及びＲＮＮ（Recurrent Neural Network；再帰型ニューラルネットワーク）により、入力されたＰＬＰデータが示す文章内の発話内容に、そのＰＬＰデータが示す文章内における当該発話内容の前後の文脈を考慮した文字列の特徴量を生成する。デコーダ６５は、ＲＮＮにより、エンコーダ６１が生成した特徴量と、過去に生成した音響特徴量とに基づいて、入力されたＰＬＰデータが示す発話内容に対応する音声の予測の音響特徴量を１フレームずつ生成する。

エンコーダ６１は、文字列変換処理６１１と、畳み込みネットワーク６１２と、双方向ＬＳＴＭネットワーク６１３とにより構成される。文字列変換処理６１１では、ＰＬＰデータの記述に用いられている各文字を数値に変換し、ＰＬＰデータをベクトル表現に変換する。

畳み込みネットワーク６１２は、複数層（例えば、３層）の畳み込みレイヤが接続されたニューラルネットワークである。各畳み込みレイヤでは、ＰＬＰデータのベクトル表現に対して、所定の文字数に相当する大きさの複数のフィルタにより畳み込み処理を行い、さらに、バッチ正規化及びＲｅＬＵ（Rectified Linear Units）活性化を行う。これにより、発話内容の文脈がモデル化される。例えば、３層の畳み込みレイヤのフィルタサイズは［５，０，０］、フィルタの数は５１２である。デコーダ６５に入力する文字列の特徴量を生成するために、畳み込みネットワーク６１２の出力が双方向ＬＳＴＭネットワーク６１３に入力される。双方向ＬＳＴＭネットワーク６１３は、５１２ユニット（各方向に２５６ユニット）の単一の双方向ＬＳＴＭである。双方向ＬＳＴＭネットワーク６１３により、入力されたテキストデータに記述された文章内における前後の文脈を考慮した文字列の特徴量を生成することが可能となる。ＬＳＴＭは、ＲＮＮ（Recurrent Neural Network）の一つである。

デコーダ６５は、自己回帰ＲＮＮである。デコーダ６５は、アテンションネットワーク６５１と、前処理ネットワーク６５２と、ＬＳＴＭネットワーク６５３と、第一線形変換処理６５４と、後処理ネットワーク６５５と、加算処理６５６と、第二線形変換処理６５７とにより構成される。

アテンションネットワーク６５１は、自己回帰ＲＮＮにアテンション機能を追加したネットワークであり、エンコーダ６１からの出力全体を１フレームごとに要約した固定長のコンテキストベクトルを出力する。アテンションネットワーク６５１は、双方向ＬＳＴＭネットワーク６１３からの出力（エンコーダ出力）を入力する。フレームごとに、要約を生成するためにエンコーダ出力からデータを抽出するときの重みは、エンコーダ出力におけるデータ位置に応じて異なっている。アテンションネットワーク６５１は、エンコーダ出力から抽出したデータに、前のデコードのタイミングで生成したコンテキストベクトルを用いて特徴を追加したデータを用いて、今回のフレームの出力となるコンテキストベクトル（アテンションネットワーク出力）を生成する。

前処理ネットワーク６５２は、前回の時間ステップにおいて第一線形変換処理６５４が出力したデータを入力する。前処理ネットワーク６５２は、それぞれ２５６個の隠れＲｅＬＵユニットからなる完全結合された複数（例えば２つ）のレイヤを含んだニューラルネットワークである。ＲｅＬＵユニットからなるレイヤは、各ユニットの値がゼロよりも小さい場合はゼロを出力し、ゼロよりも大きい場合はそのままの値を出力する。ＬＳＴＭネットワーク６５３は、１０２４ユニットを有する複数（例えば、２層）の一方向ＬＳＴＭが結合されたニューラルネットワークであり、前処理ネットワーク６５２からの出力と、アテンションネットワーク６５１からの出力を結合したデータを入力する。フレームの音響特徴量は、前のフレームの音響特徴量の影響を受けるため、アテンションネットワーク６５１から出力された現在のフレームの特徴量に、前処理ネットワーク６５２からの出力を結合することにより、前のフレームの音響特徴量に基づく特徴を付加している。（詳細は参考文献４を参照されたい。）

第一線形変換処理６５４は、ＬＳＴＭネットワーク６５３から出力されたデータを線形変換し、１フレーム分のメルスペクトログラムのデータであるコンテキストベクトルを生成する。第一線形変換処理６５４は、生成したコンテキストベクトルを、前処理ネットワーク６５２、後処理ネットワーク６５５及び加算処理６５６に出力する。

後処理ネットワーク６５５は、複数層（例えば、５層）の畳み込みネットワークを結合したニューラルネットワークである。例えば、５層の畳み込みネットワークは、フィルタサイズが［５，０，０］、フィルタの数は１０２４である。各畳み込みネットワークでは、畳み込み処理及びバッチ正規化と、最後の層を除いてtanh活性化とを行う。後処理ネットワーク６５５からの出力は、波長変換後の全体的な品質を改善するために用いられる。加算処理６５６では、第一線形変換処理６５４が生成したコンテキストベクトルと、後処理ネットワーク６５５からの出力とを加算する。

上記のスペクトログラムフレーム予測と並行して、第二線形変換処理６５７では、ＬＳＴＭネットワーク６５３の出力とアテンションコンテキストとの連結をスカラに投影したのちシグモイド活性化を行って、出力シーケンスが完了したかの判定に用いるストップトークン（Stop Token）を出力する。

図８のステップＳ１３０において、音響特徴量生成部６は、生成用ＰＬＰデータＡ１を音響特徴量生成モデル６０に入力し、フレーム毎の音響特徴量であるメルスペクトログラムＡ２を生成し、ボコーダ部７に出力する。ステップＳ１３５において、ボコーダ部７は、音声波形生成モデルにフレーム毎のメルスペクトログラムＡ２を入力し、時間領域波形に逆変換して音声波形データＡ３を生成する。

図１５は、音響特徴量生成モデル６０の学習アルゴリズムを示す図である。まず、学習データ入力部８は、学習データを入力する。学習データは、発話の音声波形を表す学習用音声データＢ１と、その発話の内容を漢字仮名交じりで記述した学習用テキストデータＣ１との組である。音響特徴量生成部６は、学習用音声データＢ１が示す音声波形にＦＦＴ（Fast Fourier Transform：高速フーリエ変換）を行った結果にＡＢＳ（絶対値算出処理）を行い、さらに、メルフィルタバンク処理を行ってＭＦＣＣ（Mel-Frequency Cepstrum Coefficients：メル周波数ケプストラム係数）を取得する。音響特徴量生成部６は、ＭＦＣＣからメルスペクトログラムＢ２を音響特徴量として算出する。

一方で、学習データ入力部８は、学習用テキストデータＣ１を第二フルコンテキストラベル生成部９に出力する。第二フルコンテキストラベル生成部９は、学習用テキストデータをフルコンテキストラベルデータＣ２に変換し、第二変換部１０は、このフルコンテキストラベルデータＣ２を学習用ＰＬＰデータＣ３に変換する。音響特徴量生成モデル６０は、学習用ＰＬＰデータＣ３を入力し、メルスペクトログラムＣ４を推定結果として得る。

音響特徴量生成部６は、メルスペクトログラムＢ２と、推定したメルスペクトログラムＣ４との差分を誤差として算出し、算出した誤差に基づいて、音響特徴量生成モデル６０を更新する。音響特徴量生成部６は、複数の学習データを用いて、学習用音声データＢ１から算出したメルスペクトログラムＢ２と、学習用テキストデータＣ１に基づき生成された学習用ＰＬＰデータＣ３から音響特徴量生成モデル６０が推定したメルスペクトログラムＣ４との差分が小さくなるように、音響特徴量生成モデル６０を更新する。具体的には、音響特徴量生成部６は、この誤差をＭＳＥ（最小二乗法）により算出し、算出した差分が小さくなるように、確率的勾配降下法のＡＤＡＭを用いて、音響特徴量生成モデル６０における各ユニット（ノード）への入力の重み等を更新する。ＭＳＥは、例えば、参考文献５「GitHub, Inc，[online]，"Spectrogram Feature prediction network"，[2018年8月24日検索]，インターネット<URL:https://github.com/Rayhane-mamah/Tacotron-2/wiki/Spectrogram-Feature-prediction-network#training>」に記載されている。また、ＡＤＡＭは、例えば、参考文献６「Diederik P. Kingma，Jimmy Lei Ba，[online]，2017年，"ADAM: A Method for Stochastic Optimization"，arXiv:1412.6980v9，[2018年8月24日検索]，インターネット<URL: https://arxiv.org/pdf/1412.6980.pdf>」に記載されている。

なお、音響特徴量生成モデル６０には、参考文献４に記載のTacotron 2のほか、Deep Voice 3、Transformer-based TTSなどのSequence-to-sequence + attention方式を用いることができる。Deep Voice 3は、例えば、参考文献７「Wei Ping et al.，[online]，2018年2月，"Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning"，arXiv:1710.07654v3，インターネット<URL: https://arxiv.org/pdf/1710.07654.pdf>」に記載されている。Transformer-based TTSは、例えば、参考文献８「Naihan Li et al.，[online]，2019年1月，" Neural Speech Synthesis with Transformer Network"，arXiv:1809.08895v3，[2019年11月20日検索]，インターネット<URL: https://arxiv.org/pdf/1809.08895.pdf>」に記載されている。

本実施形態の音声合成装置１により生成された音声に関する評価実験の結果について示す。図１６は、評価実験に使用した３種類のSequence-to-sequenceの音響特徴量推定手法と、３種類の入力データとの組み合わせを示す図である。３種類の音響特徴量推定手法は、Tacotron 2、Deep Voice 3、Transformer-based TTSである。また、３種類の入力データは、ＰＬＰデータ、ＫＴデータ、ＫＨデータである。ＫＴデータは、カタカナのみのテキストデータであり、ＫＨデータは、漢字仮名交じりのテキストデータである。種別は、これらの組み合わせ別の名称を表す。本実施形態の音声合成装置１は、ＰＬＰデータを入力に用いたＴ２ＰＬＰ、ＤＶ３ＰＬＰ、ＴＲＰＬＰである。

各音響特徴量推定手法の音響特徴量生成モデルの学習には、女性ナレーター１名の音声コーパスを使用した。音声データは、サンプリング周波数２２０５０［Ｈｚ］、１６［ビット］量子化のＰＣＭ（pulse code modulation）である。また、音声コーパスの漢字仮名交じり文を参考文献２の技術により変換したフルコンテキストラベルデータから学習用ＰＬＰデータを生成して、音響特徴量生成モデルの学習に用いた。

実験には、学習用の音声コーパスに含まれていない３０文の入力データを音響特徴量生成モデルに入力して推定されたメルスペクトログラムを、音声波形生成モデルに入力することによって、合計３０個の合成音を作成した。これらの合成音の音量を平均ラウドネス値に基づいて調整したものを音声刺激として使用した。

被験者は、のべ２００人である。被験者は、原音、本実施形態、従来技術により原音声を分析合成した音声（分析合成）の３種類の方式について、それぞれ２文、合計６文でトレーニングをしたのち、残りの１０文、合計３０文の音声刺激を評価に用いた。被験者は、ランダムに提示された音声刺激に対して自然性に関する５段階評価を行った。被験者全員の評価結果から平均オピニオン評点（ＭＯＳ）を求めた。

まず、客観評価実験について述べる。
図１７は、音声合成を実施した場合のエンコーダ－デコーダ間のアラインメントを示す図である。図１７（ａ）、図１７（ｂ）、図１７（ｃ）はそれぞれ、Ｔ２ＰＬＰ（本実施形態）、Ｔ２ＫＴ、Ｔ２ＫＨにより音声合成を実施した場合のエンコーダ－デコーダ間のアラインメントを可視化したものである。この実験では、音響特徴量生成モデルの音響特徴量推定手法にTacotron 2を用い、読み仮名及び韻律記号のＰＬＰデータ（Ｔ２ＰＬＰ）、カタカナのみのＫＴデータ（Ｔ２ＫＴ）、漢字仮名交じり文のＫＨデータ（Ｔ２ＫＨ）を入力として比較実験を行った。図１７（ａ）に示すように、Ｔ２ＰＬＰ（本実施形態）では、エンコーダ６１とデコーダ６５との間のアラインメントが途中で非連続になることなく単調増加しているため、正しく学習されていることを確認できる。一方、図１７（ｃ）は不鮮明なアラインメントを示しており、正しい学習ができていない可能性がある。

図１８は、図１７の実験と同じ条件で音声合成された音声のメルスペクトログラムを表示したものである。図１８（ａ）、図１８（ｂ）、図１８（ｃ）、図１８（ｄ）はそれぞれ、原音（Ｏｒｉｇｉｎａｌ）、Ｔ２ＰＬＰ（本実施形態）、Ｔ２ＫＴ、Ｔ２ＫＨのメルスペクトログラムを示している。同図に示すように、本実施形態のＴ２ＰＬＰは、他の手法より精度よくメルスペクトログラムを再現できていることが確認できる。

続いて、主観評価実験の結果を示す。図１９は、主観評価実験の結果得られたＭＯＳ値と９５％信頼区間とを示す図である。図１９（ａ）は、原音（Ｏｒｉｇｉｎａｌ）、分析合成（ＲｅＧＬ）、Ｔ２ＫＨ、Ｔ２ＫＴ、Ｔ２ＰＬＰ（本実施形態）の結果を、図１９（ｂ）は、原音、ＲｅＧＬ、ＤＶ３ＫＨ、ＤＶ３ＫＴ、ＤＶ３ＰＬＰ（本実施形態）の結果を、図１９（ｃ）は、原音、ＲｅＧＬ、ＴＲＫＨ、ＴＲＫＴ、ＴＲＰＬＰ（本実施形態）の結果を示す。これらの実験結果について考察すると、読み仮名及び韻律記号を入力とする本実施形態が、他の手法より有意性があることが確認できる。このように、本実施形態により生成されたＰＬＰデータは、各Sequence-to-sequence音声合成手法に共通して効果を発揮している。このことから、Sequence-to-sequence音声合成に汎用的に使用可能と考えられる。

また、従来法との比較のための主観評価実験を行った。図２０は、実験を行った音響特徴量推定手法と、音響特徴量と、音声波形合成方法との組み合わせを示す図である。種別は、これらの組み合わせ別の名称を表す。実施形態の音響特徴量推定手法にはTacotron2を用いた。また、従来法の音響特徴量推定手法には、Merlinを用いた。Merlinは、例えば、参考文献９「Zhizheng Wu et al.，[online]，2016年9月，" Merlin: An Open Source Neural Network Speech Synthesis System"，[2019年11月22日検索]，インターネット<URL: https://pdfs.semanticscholar.org/8339/47531a8cd6b79d17003adab58abb00edc0f2.pdf>」に記載されている。

図２１は、図２０に示す各種別について主観評価実験を行った結果得られたＭＯＳ値と９５％信頼区間とを示す図である。図２１の結果を考察すると、本実施形態のＴ２ＰＬＰは、従来法のＭＷＮ及びＭＷＮよりもスコアが高いことが分かる。この結果から、本実施形態による自動ラベリングを使用する手法が従来法より評価値が高いことが分かる。

また、本実施形態により生成されたＰＬＰデータと手動修正したＰＬＰデータとのそれぞれを学習に用いた場合の比較実験を行った。この実験では、本実施形態の音声合成装置１により生成された学習用ＰＬＰデータを用いて学習した音響特徴量生成モデルと、手動で修正された学習用ＰＬＰデータを用いて学習した音響特徴量生成モデルとのそれぞれにより合成音を合成し、主観評価実験を実施した。音響特徴量生成モデルの学習には、７，９３５文を用いた。ボコーダには、WaveNetを用いた。WaveNetの学習には、７，９３５文の音声データと、それらから算出したメルスペクトログラムを用いた。

図２２は、本実施形態の音声合成装置１により生成した学習用ＰＬＰデータと手動修正された学習用ＰＬＰデータとの文字列の一致度をpython difflib関数で比較した結果を示す図である。また、図２３は、主観評価実験を行った結果得られたＭＯＳ値と９５％信頼区間とを示す図である。図２３に示すように、手動修正した学習用ＰＬＰデータを用いたときの合成音は、分析合成と同等の評価結果を得ることができた。しかし、音声合成装置１により生成した学習用ＰＬＰデータを用いたときの合成音の自然性は低い結果になった。これは、音声合成装置１が生成した学習用ＰＬＰデータは、漢字仮名交じり文の読み間違いやアクセントなど韻律記号の変換誤りを含んでいるため、学習用ＰＬＰデータとメルスペクトログラムが一致しないものが含まれるためと考えられる。図２２に示す結果によれば、カタカナの推定精度（文字列の類似度）は、全体としては比較的類似しているが、完全に一致した文は半数以下である。このことから、１文章あたりの変換ミスは少ないものの、本実施形態により生成された学習用ＰＬＰデータには、何かしらの誤りが含まれていることが多いことがうかがえる。読み仮名と韻律記号においては、カタカナのみのときよりも文字列の類似度が低いことから、韻律記号の推定誤りが発生していることがうかがえる。これらの誤りが自然性に影響を与えた可能性がある。しかしながら、変換時に漢字・仮名変換とアクセント・ポーズ推定に誤りが混入する可能性があるものの、上記の実験結果から、カタカナのみのテキストデータや、漢字仮名交じりのテキストデータを用いるよりも、高い品質の音声合成の実現が確認された。

上述した評価実験の結果によって、本実施形態によりフルコンテキストラベルデータから変換したＰＬＰデータを用いて、品質よい音声合成を行うための音声合成モデルを生成できることが示された。

本実施形態の音声合成装置１では、従来から一般的に使用されているフルコンテキストラベルを用いて、音響特徴量生成モデルへの入力データを作成することが可能となる。よって、既存の音声データを学習データとして活用しやすくなる。従来は、高品質な合成音を得るには、人手で音素区切り境界を付与するなど煩雑な作業を行う必要があった。本実施形態の音声合成装置は、音響特徴量生成モデルにより精度よく音響特徴量を推定するために用いられる読み仮名と韻律記号により記述された入力データを、漢字仮名交じりのテキストから自動で生成する。従って、学習や音声合成のために用意する言語データの準備にかかるユーザの負担を軽減し、コストを低減することができる。また、本実施形態の音声合成装置は、Tacotron 2、Deep Voice 3、Transformer-based TTSの３種類のSequence-to-sequence音声合成それぞれについて自然性が高い音声を合成することが可能である。このことから、他のSequence-to-sequenceの音声合成モデルへの適用が期待できる。

本実施形態は、日本語だけではなく、フルコンテキストラベルデータにより記述することができる他の言語にも適用することができる。この場合、ＰＬＰデータには、日本語の仮名に代えて、その言語の読み方を表す文字又は文字列を用いる。

なお、上述の音声合成装置１は、内部にコンピュータシステムを有している。そして、音声合成装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

上述した実施形態によれば、音声合成装置は、変換部と、音響特徴量生成部と、ボコーダ部とを備える。変換部は、例えば、第一変換部４及び第二変換部１０である。変換部は、発話における音素の情報と、発話において当該音素が含まれるアクセント句及び当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含むラベルデータを発話における音素の出現順に並べたコンテキストラベルデータから、発話における出現順の音素の情報を抽出する。変換部は、出現順の音素が表す読み方に対応した文字列に、音素とアクセント句情報との少なくとも一方に基づいて得られる韻律を表す文字又は文字列である韻律記号を付加したテキストデータを生成する。音響特徴量生成部は、シーケンス・ツー・シーケンス方式（アテンション機構を有するSequence-to-sequence + attention方式）の音響特徴量生成モデルに変換部により生成されたテキストデータを入力し、発話の推定の音響特徴量を生成する。ボコーダ部は、音響特徴量生成部が生成した音響特徴量を用いて音声波形を推定する。

音声合成装置は、音響特徴量生成部に入力するテキストデータに、ユーザの操作に基づいて修正を行う修正部をさらに備えてもよい。

発話が日本語の場合、読み方に対応した文字列を構成する文字は、音素を表す文字、カタカナ、発音記号、平仮名又はアルファベットである。

韻律記号は、アクセント位置を指定する記号と、句又はフレーズの区切りを指定する記号と、文末のイントネーションを指定する記号と、ポーズ調を指定する記号とのうちのいずれかを含む。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこれら実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

汎用的な音声合成手法に活用できる可能性がある。

１…音声合成装置
２…テキスト入力部
３…第一フルコンテキストラベル生成部
４…第一変換部
５…修正部
６…音響特徴量生成部
７…ボコーダ部
８…学習データ入力部
９…第二フルコンテキストラベル生成部
１０…第二変換部
６０…音響特徴量生成モデル
６１…エンコーダ
６５…デコーダ

Claims

発話における音素の情報と、前記発話において当該音素が含まれるアクセント句及び当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含むラベルデータを前記発話における前記音素の出現順に並べたコンテキストラベルデータから前記発話における出現順の前記音素の情報を抽出し、出現順の前記音素が表す読み方に対応した文字列に、前記音素と前記アクセント句情報との少なくとも一方に基づいて得られる韻律を表す文字又は文字列である韻律記号を付加したテキストデータを生成する変換部と、
シーケンス・ツー・シーケンス方式の音響特徴量生成モデルに前記変換部により生成された前記テキストデータを入力し、前記発話の推定の音響特徴量を生成する音響特徴量生成部と、
前記音響特徴量生成部が生成した前記音響特徴量を用いて音声波形を推定するボコーダ部と、
を備えることを特徴とする音声合成装置。
前記音響特徴量生成部が入力する前記テキストデータに、ユーザの操作に基づいて修正を行う修正部をさらに備える、
ことを特徴とする請求項１に記載の音声合成装置。
前記発話が日本語の場合、読み方に対応した前記文字列を構成する文字は、前記音素を表す文字、カタカナ、発音記号、平仮名又はアルファベットである、
ことを特徴とする請求項１又は請求項２に記載の音声合成装置。
前記韻律記号は、アクセント位置を指定する記号と、句又はフレーズの区切りを指定する記号と、文末のイントネーションを指定する記号と、ポーズ調を指定する記号とのうちのいずれかを含む、
ことを特徴とする請求項１から請求項３のいずれか一項に記載の音声合成装置。
コンピュータを、請求項１から請求項４のいずれか一項に記載の音声合成装置として機能させるためのプログラム。