JP7432199B2

JP7432199B2 - 音声合成処理装置、音声合成処理方法、および、プログラム

Info

Publication number: JP7432199B2
Application number: JP2019200440A
Authority: JP
Inventors: 拓磨岡本; 智基戸田; 芳則志賀; 恒河井
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2019-07-05
Filing date: 2019-11-05
Publication date: 2024-02-16
Anticipated expiration: 2039-11-05
Also published as: JP2021012351A

Description

本発明は、音声合成処理技術に関する。特に、テキストを音声に変換するテキスト音声合成（ＴＴＳ：ｔｅｘｔ-ｔｏ-ｓｐｅｅｃｈ）技術に関する。

テキストから自然な音声を合成するテキスト音声合成（ＴＴＳ）技術において、近年、ニューラルネットワークの導入により高品質な音声合成が可能となっている。このようなテキスト音声合成技術を用いたシステムでは、英語音声を合成する場合、音素継続長と音響モデルとを同時に学習・最適化するsequence-to-sequence方式を用いたテキスト音声合成技術により、英語テキストからメルスペクトログラムを推定し、推定したメルスペクトログラムから、ニューラルボコーダにより音声波形を取得する。このように処理することで、上記テキスト音声合成技術を用いたシステムでは、処理対象言語が英語である場合、人間の音声と同等の品質の音声合成が可能となる（例えば、非特許文献１を参照）。

Jonathan Shen, R Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, R. A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, "Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions," Proc. ICASSP, Apr. 2018, pp. 4779-4783.

しかしながら、上記のsequence-to-sequence方式を用いたテキスト音声合成を日本語に適用するのは困難である。日本語は、漢字を使う言語であり、漢字の数が膨大であり、また、漢字の読みのバリエーションも多いので、日本語テキストを、sequence-to-sequence方式を用いたテキスト音声合成のモデルに、直接入力し、処理言語を英語としたときと同様に、当該モデルの学習・最適化を行うことは困難である。

そこで本発明は、上記課題に鑑み、日本語等の英語以外の言語を処理対象言語とする場合においても（処理対象言語を任意の言語にできる）、sequence-to-sequence方式を用いたテキスト音声合成用のニューラルネットワークのモデルにより、学習・最適化を行い、高品質な音声合成処理を実現する音声合成処理装置、音声合成処理方法、および、プログラムを実現することを目的とする。

上記課題を解決するための第１の発明は、任意の言語を処理対象言語とし、エンコーダ・デコーダ方式のニューラルネットワークを用いて音声合成処理を実行する音声合成処理装置であって、テキスト解析部と、フルコンテキストラベルベクトル処理部と、エンコーダ部と、デコーダ部と、を備える。

テキスト解析部は、処理対象言語のテキストデータに対してテキスト解析処理を実行し、コンテキストラベルデータを取得する。

フルコンテキストラベルベクトル処理部は、テキスト解析部により取得されたコンテキストラベルデータから、コンテキストラベルデータを取得する処理において処理対象とされた音素である単独音素についてのコンテキストラベルを取得することで、ニューラルネットワークの学習処理に適した最適化フルコンテキストラベルデータを取得する。

エンコーダ部は、最適化フルコンテキストラベルデータに基づいて、ニューラルネットワークのエンコード処理を実行することで、隠れ状態データを取得する。

デコーダ部は、隠れ状態データに基づいて、ニューラルネットワークのデコード処理を実行することで、最適化フルコンテキストラベルデータに対応する音響特徴量データを取得する。

ボコーダは、デコーダ部により取得された音響特徴量から音声波形データを取得する。

この音声合成処理装置では、ニューラルネットワークのモデルで処理するのに適した最適化フルコンテキストラベルデータを用いて、ニューラルネットワークによる処理（学習処理、予測処理）を実行するため、高精度な音声合成処理を実行することができる。つまり、この音声合成処理装置では、従来技術とは異なり、処理対象の音素に先行する、あるいは、後続する音素についてのデータを含まないコンテキストラベルデータを最適化フルコンテキストラベルデータとして取得し、取得した最適化フルコンテキストラベルデータにより、ニューラルネットワークのモデルの処理を行う。ニューラルネットワーク（特に、sequence-to-sequence方式のニューラルネットワーク）では、時系列のデータを用いた処理が実行されるので、従来の音声合成処理に用いるコンテキストラベルデータに含める必要があった、処理対象の音素に先行する、あるいは、後続するデータは、ニューラルネットワークのモデルの処理において冗長となり、処理効率を落とす原因となる。この音声合成処理装置１００では、最適化フルコンテキストラベルデータ（単独音素についてのデータから構成されるコンテキストラベルデータ）を用いるので、ニューラルネットワークのモデルの処理が非常に効果的に実行できる。その結果、この音声合成処理装置では、高精度の音声合成処理を実行できる。

また、この音声合成処理装置では、処理対象言語に応じたテキスト解析処理を行い、当該テキスト解析処理で取得されたフルコンテキストラベルデータから、ニューラルネットワーク（例えば、sequence-to-sequence方式を用いたニューラルネットワーク）のモデルで処理するのに適した最適化フルコンテキストラベルデータを取得し、取得した最適化フルコンテキストラベルデータを用いて処理を行うことで、任意の処理対象言語について、高精度な音声合成処理を行うことができる。

したがって、この音声合成処理装置では、日本語等の英語以外の言語を処理対象言語とする場合においても（処理対象言語を任意の言語にできる）、例えば、sequence-to-sequence方式を用いたテキスト音声合成用のニューラルネットワークのモデルにより、学習・最適化を行い、高品質な音声合成処理を実現することができる。

なお、「単独音素」とは、テキスト解析処理においてコンテキストラベルデータを取得するときに、処理対象とした音素のことをいう。

また、「最適化」とは、厳密な意味での最適化の他に、所定の誤差範囲を許容する範囲内に収めることを含む概念である。

第２の発明は、第１の発明であって、音響特徴量は、メルスペクトログラムのデータである。

これにより、この音声合成処理装置では、入力されたテキストに対応するメルスペクトログラムのデータにより、音声合成処理を実行できる。

第３の発明は、第１または第２の発明であって、ボコーダは、ニューラルネットワークのモデルを用いた処理を実行することで、音響特徴量から音声波形データを取得する。

これにより、この音声合成処理装置では、ニューラルネットワーク処理ができるボコーダを用いて、音声合成処理を実行できる。

第４の発明は、第３の発明であって、ボコーダは、可逆変換ネットワークにより構成されたニューラルネットワークのモデルを用いた処理を実行することで、音響特徴量から音声波形データを取得する。

この音声合成処理装置では、ボコーダが、可逆変換ネットワークにより構成されたニューラルネットワークのモデルを用いた処理を行うので、ボコーダの構成をシンプルにできる。その結果、この音声合成処理装置では、ボコーダでの処理を高速化でき、音声合成処理をリアルタイムで実行できる。

第５の発明は、第１から第４のいずれかの発明であって、音素単位のコンテキストラベルデータから音素継続長を推定する音素継続長推定部をさらに備える。

フルコンテキストラベルベクトル処理部は、音素継続長推定部により推定された音素継続長である推定音素継続長に対応する期間において、当該推定音素継続長に対応する音素の最適化フルコンテキストラベルデータを継続してエンコーダ部に出力する。

この音声合成処理装置では、エンコーダ部への入力データ（最適化フルコンテキストラベルデータ）を、音素継続長推定部により取得（推定）した音素ごとの音素継続長に基づいて、引き延ばす処理（音素ｐｈ_ｋの音素継続長ｄｕｒ（ｐｈ_ｋ）に相当する期間、音素ｐｈ_ｋの最適化フルコンテキストラベルデータを、繰り返しエンコーダ部３に入力する処理）を実行する。つまり、この音声合成処理装置では、安定して音素継続長を適切に推定することができる、隠れマルコフモデル等のモデルを用いた推定処理を実行して取得した音素継続長を用いて予測処理を実行するので、注意機構予測が失敗することに起因する、合成発話が途中で止まってしまう、同じフレーズを何回も繰り返してしまう、等の問題が発生することはない。

すなわち、この音声合成処理装置では、（１）音素継続長については、安定して音素継続長を適切に推定することができる、隠れマルコフモデル等のモデルを用いた推定処理（音素継続長推定部による処理）により取得し、（２）音響特徴量については、sequence-to-sequence方式を用いたニューラルネットワークのモデルで処理することにより取得する。

したがって、この音声合成処理装置では、注意機構予測が失敗することに起因する、合成発話が途中で止まってしまう、同じフレーズを何回も繰り返してしまう、等の問題が発生することを適切に防止するとともに、高精度な音声合成処理を実行することができる。

第６の発明は、任意の言語を処理対象言語とし、エンコーダ・デコーダ方式のニューラルネットワークを用いて音声合成処理を実行する音声合成処理方法であって、テキスト解析ステップと、フルコンテキストラベルベクトル処理ステップと、エンコード処理ステップと、デコード処理ステップと、ボコーダ処理ステップと、を備える。

テキスト解析ステップは、処理対象言語のテキストデータに対してテキスト解析処理を実行し、コンテキストラベルデータを取得する。

フルコンテキストラベルベクトル処理ステップは、テキスト解析ステップにより取得されたコンテキストラベルデータから、コンテキストラベルデータを取得する処理において処理対象とされた音素である単独音素についてのコンテキストラベルを取得することで、ニューラルネットワークの学習処理に適した最適化フルコンテキストラベルデータを取得する。

エンコード処理ステップは、最適化フルコンテキストラベルデータに基づいて、ニューラルネットワークのエンコード処理を実行することで、隠れ状態データを取得する。

デコード処理ステップは、隠れ状態データに基づいて、ニューラルネットワークのデコード処理を実行することで、最適化フルコンテキストラベルデータに対応する音響特徴量データを取得する。

ボコーダ処理ステップは、デコード処理ステップにより取得された音響特徴量から音声波形データを取得する。

これにより、第１の発明と同様の効果を奏する音声合成処理方法を実現することができる。

第７の発明は、第６の発明である音声合成処理方法をコンピュータに実行させるためのプログラムである。

これにより、第１の発明と同様の効果を奏する音声合成処理方法をコンピュータに実行させるためのプログラムを実現することができる。

第８の発明は、任意の言語を処理対象言語とし、エンコーダ・デコーダ方式のニューラルネットワークを用いて音声合成処理を実行する音声合成処理装置であって、テキスト解析部と、フルコンテキストラベルベクトル処理部と、エンコーダ部と、音素継続長推定部と、強制アテンション部と、内分処理部と、コンテキスト算出部と、デコーダ部と、ボコーダと、を備える。

音素継続長推定部は、音素単位のコンテキストラベルデータから音素継続長を推定する。

強制アテンション部は、音素継続長推定部により推定された音素継続長に基づいて、第１重み付け係数データを取得する。

アテンション部は、エンコーダ部により取得された隠れ状態データに基づいて、第２重み付け係数データを取得する。

内分処理部は、第１重み付け係数データと第２重み付け係数データとに対して内分処理を行うことで、合成重み付け係数データを取得する。

コンテキスト算出部は、合成重み付け係数データにより、エンコーダ部により取得された隠れ状態データに対して重み付け合成処理を実行することで、コンテキスト状態データを取得する。

デコーダ部は、コンテキスト状態データに基づいて、ニューラルネットワークのデコード処理を実行することで、最適化フルコンテキストラベルデータに対応する音響特徴量データを取得する。

この音声合成処理装置では、音素継続長については、安定して音素継続長を適切に推定することができる、隠れマルコフモデル等のモデルを用いた推定処理（音素継続長推定部による処理）により取得した音素継続長を用いて処理することで、音素継続長の予測精度を保証する。つまり、この音声合成処理装置では、安定して音素継続長を適切に推定することができる、隠れマルコフモデル等のモデルを用いた推定処理（音素継続長推定部による処理）により取得した音素継続長を用いて強制アテンション部により取得した重み付け係数データと、アテンション部により取得された重み付け係数データとを適度に合成した重み付け係数データにより生成したコンテキスト状態データを用いて予測処理を実行する。したがって、この音声合成処理装置では、注意機構の予測が失敗する場合（アテンション部により適切な重み付け係数データが取得できない場合）であっても、強制アテンション部により取得した重み付け係数データによる重み分の重み付け係数データが取得できるため、注意機構の予測の失敗が音声合成処理に影響を及ぼさないようにできる。

さらに、この音声合成処理装置では、音響特徴量については、sequence-to-sequence方式を用いたニューラルネットワークのモデルで処理することにより取得できるので、高精度な音響特徴量の予測処理が実現できる。

なお、この音声合成処理装置において、内分処理を実行するときの内分比は、固定値であってもよいし、動的に変化する（更新される）値であってもよい。

本発明によれば、日本語等の英語以外の言語を処理対象言語とする場合においても（処理対象言語を任意の言語にできる）、sequence-to-sequence方式を用いたテキスト音声合成用のニューラルネットワークのモデルにより、学習・最適化を行い、高品質な音声合成処理を実現する音声合成処理装置、音声合成処理方法、および、プログラムを実現することができる。

第１実施形態に係る音声合成処理装置１００の概略構成図。処理対象言語を日本語とした場合のテキスト解析処理により取得されるフルコンテキストラベルデータに含まれる情報（パラメータ）（一例）を示す図。最適化フルコンテキストラベルデータに含まれる情報（パラメータ）（一例）を示す図。第１実施形態の第１変形例の音声合成処理装置のボコーダ６の概略構成を示す図。第１実施形態の第１変形例の音声合成処理装置のボコーダ６の概略構成を示す図。第１実施形態の第１変形例の音声合成処理装置によりＴＴＳ処理（処理対象言語：日本語）実行し、取得した音声波形データのメルスペクトログラム（予測データ）と、入力テキストの実際の音声波形データのメルスペクトログラム（オリジナルデータ）とを示す図。第２実施形態に係る音声合成処理装置２００の概略構成図推定された音素継続長に基づいて、エンコーダ部３に入力するデータＤｘ２を生成する処理を説明するための図。第３実施形態に係る音声合成処理装置３００の概略構成図。アテンション部４Ａにより取得された重み付け係数データｗａｔｔ（ｔ）と、強制アテンション部８により取得された重み付け係数データｗｆ（ｔ）とから取得した合成重み付け係数データｗ（ｔ）を用いてコンテキスト状態データｃ（ｔ）を取得する処理について説明するための図。アテンション部４Ａにより取得された重み付け係数データｗａｔｔ（ｔ）と、強制アテンション部８により取得された重み付け係数データｗｆ（ｔ）とから取得した合成重み付け係数データｗ（ｔ）を用いてコンテキスト状態データｃ（ｔ）を取得する処理について説明するための図（時刻ｔ２の処理）。アテンション部４Ａにより取得された重み付け係数データｗａｔｔ（ｔ）と、強制アテンション部８により取得された重み付け係数データｗｆ（ｔ）とから取得した合成重み付け係数データｗ（ｔ）を用いてコンテキスト状態データｃ（ｔ）を取得する処理について説明するための図（時刻ｔ３の処理）。時刻ｔ２においての処理で、注意機構の予測が失敗している場合を説明するための図。本発明に係る音声合成処理装置を実現するコンピュータのハードウェア構成を示すブロック図。

［第１実施形態］
第１実施形態について、図面を参照しながら、以下説明する。

＜１．１：音声合成処理装置の構成＞
図１は、第１実施形態に係る音声合成処理装置１００の概略構成図である。

音声合成処理装置１００は、図１に示すように、テキスト解析部１と、フルコンテキストラベルベクトル処理部２と、エンコーダ部３と、アテンション部４と、デコーダ部５と、ボコーダ６とを備える。

テキスト解析部１は、処理対象言語のテキストデータＤｉｎを入力とし、入力されたテキストデータＤｉｎに対して、テキスト解析処理を実行し、様々な言語情報からなるコンテキストを含む音素ラベルであるコンテキストラベルの系列を取得する。なお、日本語のように、アクセントやピッチによって、同じ文字（例えば、漢字）であっても、発音されたときの音声波形が異なる言語では、当該音素（処理対象の音素）の前後の音素についての言語情報も、コンテキストラベルに含める必要がある。テキスト解析部１は、上記のように、テキストが発音されたときの音声波形を特定するためのコンテキストラベル（処理対象言語によって必要となる先行する音素、および／または、後続する音素のデータを含めたコンテキストラベル）をフルコンテキストラベルデータＤｘ１として、フルコンテキストラベルベクトル処理部２に出力する。

フルコンテキストラベルベクトル処理部２は、テキスト解析部１から出力されるデータＤｘ１（フルコンテキストラベルのデータ）を入力する。フルコンテキストラベルベクトル処理部２は、入力されたフルコンテキストラベルデータＤｘ１から、sequence-to-sequence方式のニューラルネットワークのモデルの学習処理に適したフルコンテキストラベルデータを取得するためのフルコンテキストラベルベクトル処理を実行する。そして、フルコンテキストラベルベクトル処理部２は、フルコンテキストラベルベクトル処理により取得したデータをデータＤｘ２（最適化フルコンテキストラベルデータＤｘ２）として、エンコーダ部３のエンコーダ側プレネット処理部３１に出力する。

エンコーダ部３は、図１に示すように、エンコーダ側プレネット処理部３１と、エンコーダ側ＬＳＴＭ層３２（ＬＳＴＭ：Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ）とを備える。

エンコーダ側プレネット処理部３１は、フルコンテキストラベルベクトル処理部２から出力されるデータＤｘ２を入力する。エンコーダ側プレネット処理部３１は、入力したデータＤｘ２に対して、コンボリューション処理（コンボリューションフィルタによる処理）、データの正規化処理、活性化関数による処理（例えば、ＲｅＬＵ関数（ＲｅＬＵ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）による処理）を実行し、エンコーダ側ＬＳＴＭ層３２に入力可能なデータを取得する。そして、エンコーダ側プレネット処理部３１は、上記処理（プレネット処理）により取得したデータをデータＤｘ３としてエンコーダ側ＬＳＴＭ層３２に出力する。

エンコーダ側ＬＳＴＭ層３２は、リカーレントニューラルネットワークの隠れ層（ＬＳＴＭ層）に対応する層であり、エンコーダ側プレネット処理部３１から、現時刻ｔにおいて出力されるデータＤｘ３（これをデータＤｘ３（ｔ）と表記する）と、１つ前の時間ステップにおいて、エンコーダ側ＬＳＴＭ層３２から出力されたデータＤｘ４（これをデータＤｘ４（ｔ－１）と表記する）とを入力する。エンコーダ側ＬＳＴＭ層３２は、入力されたデータＤｘ３（ｔ）、データＤｘ４（ｔ－１）に対して、ＬＳＴＭ層による処理を実行し、処理後のデータをデータＤｘ４（データＤｘ４（ｔ））としてアテンション部４に出力する。

アテンション部４は、エンコーダ部３から出力されるデータＤｘ４と、デコーダ部５のデコーダ側ＬＳＴＭ層５２から出力されるデータｈo（出力側隠れ状態データｈo）とを入力する。アテンション部４は、エンコーダ部３から出力されるデータＤｘ４、すなわち、入力側隠れ状態データ（これをデータｈｉという。また、時刻ｔの入力側隠れ状態データをデータｈｉ（ｔ）と表記する。）を所定の時間ステップ分記憶保持する。時間ステップｔ＝１からｔ＝Ｓ（Ｓ：自然数）の期間において、エンコーダ部３により取得され、アテンション部４に出力されたデータＤｘ４（＝ｈｉ）の集合を、ｈｉ_{１．．．Ｓ}と表記する。つまり、アテンション部４は、下記に相当するデータｈｉ_{１．．．Ｓ}を記憶保持する。
ｈｉ_{１．．．Ｓ}＝｛Ｄｘ４（１），Ｄｘ４（２），・・・，Ｄｘ４（Ｓ）｝
また、アテンション部４は、デコーダ部５のデコーダ側ＬＳＴＭ層５２から出力されるデータＤｙ３、すなわち、出力側隠れ状態データ（これをデータｈｏという）を所定の時間ステップ分記憶保持する。時間ステップｔ＝１からｔ＝Ｔ（Ｔ：自然数）の期間において、デコーダ側ＬＳＴＭ層５２により取得され、アテンション部４に出力されたデータＤｙ３（＝ｈｏ）の集合を、ｈｏ_{１．．．Ｔ}と表記する。つまり、アテンション部４は、下記に相当するデータｈｏ_{１．．．Ｔ}を記憶保持する。
ｈｏ_{１．．．Ｔ}＝｛Ｄｙ３（１），Ｄｙ３（２），・・・，Ｄｙ３（Ｔ）｝
そして、アテンション部４は、入力側隠れ状態データの集合データｈｉ_{１．．．Ｓ}と、出力側隠れ状態データの集合データｈｏ_{１．．．Ｔ}と、に基づいて、例えば、
ｃ（ｔ）＝ｆ１＿ａｔｔｎ（ｈｉ_{１．．．Ｓ}，ｈｏ_{１．．．Ｔ}）
ｆ１＿ａｔｔｎ（）：コンテキスト状態データを取得する関数
に相当する処理を実行して、現時刻ｔのコンテキスト状態データｃ（ｔ）を取得する。そして、アテンション部４は、取得したコンテキスト状態データｃ（ｔ）をデコーダ側ＬＳＴＭ層５２に出力する。
デコーダ部５は、図１に示すように、デコーダ側プレネット処理部５１と、デコーダ側ＬＳＴＭ層５２と、線形予測部５３と、ポストネット処理部５４と、加算器５５と、を備える。

デコーダ側プレネット処理部５１は、線形予測部５３から出力される、１時間ステップ前のデータＤｙ４（これをＤｙ４（ｔ－１）という）を入力する。デコーダ側プレネット処理部５１は、例えば、複数層（例えば、２層）の全結合層を有しており、データの正規化処理（例えば、線形予測部５３から出力されるデータ（ベクトルデータ）の次元数が２Ｎであり、デコーダ側ＬＳＴＭ層に入力されるデータ（ベクトルデータ）の次元数がＮである場合、データの次元数をＮにするように、例えば、ドロップアウト処理を行うことを含む）、活性化関数による処理（例えば、ＲｅＬＵ関数（ＲｅＬＵ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）による処理）を実行し、デコーダ側ＬＳＴＭ層５２に入力可能なデータを取得する。そして、デコーダ側プレネット処理部５１は、上記処理（プレネット処理）により取得したデータをデータＤｙ２としてデコーダ側ＬＳＴＭ層５２に出力する。

デコーダ側ＬＳＴＭ層５２は、リカーレントニューラルネットワークの隠れ層（ＬＳＴＭ層）に対応する層である。デコーダ側ＬＳＴＭ層５２は、デコーダ側プレネット処理部５１から、現時刻ｔにおいて出力されるデータＤｙ２（これをデータＤｙ２（ｔ）と表記する）と、１つ前の時間ステップにおいて、デコーダ側ＬＳＴＭ層５２から出力されたデータＤｙ３（これをデータＤｙ３（ｔ－１）と表記する）と、アテンション部４から出力される時刻ｔのコンテキスト状態データｃ（ｔ）とを入力する。

デコーダ側ＬＳＴＭ層５２は、入力されたデータＤｙ２（ｔ）、データＤｙ３（ｔ－１）、および、コンテキスト状態データｃ（ｔ）を用いて、ＬＳＴＭ層による処理を実行し、処理後のデータをデータＤｙ３（データＤｙ３（ｔ））として線形予測部５３に出力する。また、デコーダ側ＬＳＴＭ層５２は、データＤｙ３（ｔ）、すなわち、時刻ｔの出力側隠れ状態データｈｏ（ｔ）をアテンション部４に出力する。

線形予測部５３は、デコーダ側ＬＳＴＭ層５２から出力されるデータＤｙ３を入力する。線形予測部５３は、所定の期間（例えば、メルスペクトログラムを取得するための１フレーム期間に相当する期間）内に、デコーダ側ＬＳＴＭ層５２から出力されるデータＤｙ３（複数のデータＤｙ３）を記憶保持し、当該複数のデータＤｙ３を用いて線形変換することで、所定期間におけるメルスペクトログラムの予測データＤｙ４を取得する。そして、線形予測部５３は、取得したデータＤｙ４をポストネット処理部５４、加算器５５、および、デコーダ側プレネット処理部５１に出力する。

ポストネット処理部５４は、例えば、複数層（例えば、５層）のコンボリューション層を有しており、コンボリューション処理（コンボリューションフィルタによる処理）、データの正規化処理、活性化関数による処理（例えば、ＲｅＬＵ関数（ＲｅＬＵ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）による処理やｔａｎｈ関数による処理）を実行し、予測データ（予測メルスペクトログラム）の残差データ（residual）を取得し、取得した残差データをデータＤｙ５として加算器５５に出力する。

加算器５５は、線形予測部５３から出力される予測データＤｙ４（予測メルスペクトログラムのデータ）と、ポストネット処理部５４から出力される残差データＤｙ５（予測メルスペクトログラムの残差データ）とを入力する。加算器５５は、予測データＤｙ４（予測メルスペクトログラムのデータ）と、残差データＤｙ５（予測メルスペクトログラムの残差データ）とに対して加算処理を実行し、加算処理後のデータ（予測メルスペクトログラムのデータ）をデータＤｙ６としてボコーダ６に出力する。

ボコーダ６は、音響特徴量のデータを入力とし、入力された音響特徴量のデータから、当該音響特徴量に対応する音声信号波形を出力する。本実施形態において、ボコーダ６は、ニューラルネットワークによるモデルを用いたボコーダを採用する。ボコーダ６は、入力される音響特徴量を、メルスペクトログラムのデータとし、出力を当該メルスペクトログラムに対応する音声信号波形とする。ボコーダ６は、学習時において、メルスペクトログラムと、当該メルスペクトログラムにより実現される音声信号波形（教師データ）として、ニューラルネットワークのモデルを学習させ、当該ニューラルネットワークのパラメータの最適化パラメータを取得することで、当該ニューラルネットワークのモデルを最適化する処理を行う。そして、ボコーダ６は、予測時において、最適化したニューラルネットワークのモデルを用いて、処理を行うことで、入力されるメルスペクトログラムのデータ（例えば、デコーダ部５から出力されるデータＤｙ６）から、当該メルスペクトログラムに対応する音声信号波形を予測し、予測した音声信号波形のデータをデータＤｏｕｔとして出力する。

＜１．２：音声合成処理装置の動作＞
以上のように構成された音声合成処理装置１００の動作について以下説明する。

以下では、音声合成処理装置１００の動作を、（１）学習処理（学習時の処理）と、（２）予測処理（予測時の処理）とに分けて説明する。

（１．２．１：学習処理）
まず、音声合成処理装置１００による学習処理について、説明する。なお、説明便宜のため、処理対象言語を日本語として、以下、説明する。

処理対象言語である日本語のテキストデータＤｉｎをテキスト解析部１に入力する。また、当該テキストデータＤｉｎに対応するメルスペクトログラム（音響特徴量）のデータを教師データとして用意する。

テキスト解析部１は、入力されたテキストデータＤｉｎに対して、テキスト解析処理を実行し、様々な言語情報からなるコンテキストを含む音素ラベルであるコンテキストラベルの系列を取得する。

日本語は、アクセントやピッチによって、同じ文字（例えば、漢字）であっても、発音されたときの音声波形が異なる言語であるので、当該音素（処理対象の音素）の前後の音素についての言語情報も、コンテキストラベルに含める必要がある。テキスト解析部１は、処理対象を日本語とする場合、テキストデータＤｉｎに対して、日本語用のテキスト解析処理を実行し、テキストが発音されたときの音声波形を特定するためのパラメータについて、必要に応じて、（１）当該音素のみのデータ、（２）先行する音素、および／または、後続する音素についてのデータを取得し、取得したデータをまとめてフルコンテキストラベルデータを取得する。

図２は、処理対象言語を日本語とした場合のテキスト解析処理により取得されるフルコンテキストラベルデータに含まれる情報（パラメータ）（一例）を示す図である。

図２に示す場合では、フルコンテキストラベルデータの各パラメータは、図２の「概要」に示した内容を特定するためのデータであり、図２の表に示した次元数、音素数分のデータである。

図２に示すように、テキスト解析部１は、図２の表の全てのパラメータのデータをまとめて、フルコンテキストラベルデータ（ベクトルのデータ）として、取得する。図２の場合、フルコンテキストラベルデータは、４７８次元のベクトルデータとなる。

上記のようにして取得されたフルコンテキストラベルデータＤｘ１は、テキスト解析部１からフルコンテキストラベルベクトル処理部２に出力される。

フルコンテキストラベルベクトル処理部２は、入力されたフルコンテキストラベルデータＤｘ１から、sequence-to-sequence方式のニューラルネットワークのモデルの学習処理に適したフルコンテキストラベルデータを取得するためのフルコンテキストラベルベクトル処理を実行する。具体的には、フルコンテキストラベルベクトル処理部２は、先行する音素についてのパラメータ（データ）、後続する音素についてのパラメータ（データ）を削除することで、最適化フルコンテキストラベルデータＤｘ２を取得する。例えば、フルコンテキストラベルデータＤｘ１が図２に示すパラメータを含むデータである場合、先行する音素についてのパラメータ（データ）、後続する音素についてのパラメータ（データ）を削除することで、最適化フルコンテキストラベルデータＤｘ２を取得する。

図３は、上記のようにして取得した最適化フルコンテキストラベルデータに含まれる情報（パラメータ）（一例）を示す図である。

図３の場合、最適化フルコンテキストラベルデータは、１３０次元のベクトルデータとなり、４７８次元のベクトルデータであるフルコンテキストラベルデータＤｘ１と比べると、次元数が著しく低減されていることが分かる。

音声合成処理装置１００で用いられているニューラルネットワークのモデルが、sequence-to-sequence方式のニューラルネットワーク（リカーレントニューラルネットワーク）のモデルであり、エンコーダ側ＬＳＴＭ層３２、デコーダ側ＬＳＴＭ層５２を有しているので、入力されるデータ列について、時系列の関係を考慮した学習処理、予測処理ができるため、従来技術で必要とされていた先行する音素、後続する音素のデータは、冗長となり、学習処理の効率、予測処理の精度を悪化させる原因となる。そのため、音声合成処理装置１００では、上記のように、当該音素についてのパラメータ（データ）のみを残して取得した最適化フルコンテキストラベルデータＤｘ２を取得し、取得した最適化フルコンテキストラベルデータＤｘ２を用いて、学習処理、予測処理を行うことで、高速かつ高精度に処理を実行することができる。

上記により取得されたデータＤｘ２（最適化フルコンテキストラベルデータＤｘ２）は、フルコンテキストラベルベクトル処理部２からのエンコーダ部３のエンコーダ側プレネット処理部３１に出力される。

エンコーダ側プレネット処理部３１は、フルコンテキストラベルベクトル処理部２から入力したデータＤｘ２に対して、コンボリューション処理（コンボリューションフィルタによる処理）、データの正規化処理、活性化関数による処理（例えば、ＲｅＬＵ関数（ＲｅＬＵ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）による処理）を実行し、エンコーダ側ＬＳＴＭ層３２に入力可能なデータを取得する。そして、エンコーダ側プレネット処理部３１は、上記処理（プレネット処理）により取得したデータをデータＤｘ３としてエンコーダ側ＬＳＴＭ層３２に出力する。

エンコーダ側ＬＳＴＭ層３２は、エンコーダ側プレネット処理部３１から、現時刻ｔにおいて出力されるデータＤｘ３（ｔ）と、１つ前の時間ステップにおいて、エンコーダ側ＬＳＴＭ層３２から出力されたデータＤｘ４（ｔ－１）とを入力する。そして、エンコーダ側ＬＳＴＭ層３２は、入力されたデータＤｘ３（ｔ）、データＤｘ４（ｔ－１）に対して、ＬＳＴＭ層による処理を実行し、処理後のデータをデータＤｘ４（データＤｘ４（ｔ））としてアテンション部４に出力する。

アテンション部４は、エンコーダ部３から出力されるデータＤｘ４と、デコーダ部５のデコーダ側ＬＳＴＭ層５２から出力されるデータｈo（出力側隠れ状態データｈo）とを入力する。アテンション部４は、エンコーダ部３から出力されるデータＤｘ４、すなわち、入力側隠れ状態データｈｉを所定の時間ステップ分記憶保持する。例えば、アテンション部４は、時間ステップｔ＝１からｔ＝Ｓ（Ｓ：自然数）の期間において、エンコーダ部３により取得され、アテンション部４に出力されたデータＤｘ４（＝ｈｉ）の集合を、ｈｉ_{１．．．Ｓ}（＝｛Ｄｘ４（１），Ｄｘ４（２），・・・，Ｄｘ４（Ｓ）｝）として記憶保持する。

また、アテンション部４は、デコーダ部５のデコーダ側ＬＳＴＭ層５２から出力されるデータＤｙ３、すなわち、出力側隠れ状態データｈｏを所定の時間ステップ分記憶保持する。例えば、アテンション部４は、時間ステップｔ＝１からｔ＝Ｔ（Ｔ：自然数）の期間において、デコーダ側ＬＳＴＭ層５２により取得され、アテンション部４に出力されたデータＤｙ３（＝ｈｏ）の集合を、ｈｏ_{１．．．Ｔ}（＝｛Ｄｙ３（１），Ｄｙ３（２），・・・，Ｄｙ３（Ｔ）｝）として記憶保持する。

そして、アテンション部４は、入力側隠れ状態データの集合データｈｉ_{１．．．Ｓ}と、出力側隠れ状態データの集合データｈｏ_{１．．．Ｔ}と、に基づいて、例えば、
ｃ（ｔ）＝ｆ１＿ａｔｔｎ（ｈｉ_{１．．．Ｓ}，ｈｏ_{１．．．Ｔ}）
ｆ１＿ａｔｔｎ（）：コンテキスト状態データを取得する関数
に相当する処理を実行して、現時刻ｔのコンテキスト状態データｃ（ｔ）を取得する。

そして、アテンション部４は、取得したコンテキスト状態データｃ（ｔ）をデコーダ側ＬＳＴＭ層５２に出力する。
デコーダ側プレネット処理部５１は、線形予測部５３から出力される、１時間ステップ前のデータＤｙ４（ｔ－１）を入力する。デコーダ側プレネット処理部５１は、例えば、複数層（例えば、２層）の全結合層を有しており、データの正規化処理（例えば、線形予測部５３から出力されるデータ（ベクトルデータ）の次元数が２Ｎであり、デコーダ側ＬＳＴＭ層に入力されるデータ（ベクトルデータ）の次元数がＮである場合、データの次元数をＮにするように、例えば、ドロップアウト処理を行うことを含む）、活性化関数による処理（例えば、ＲｅＬＵ関数（ＲｅＬＵ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）による処理）を実行し、デコーダ側ＬＳＴＭ層５２に入力可能なデータを取得する。そして、デコーダ側プレネット処理部５１は、上記処理（プレネット処理）により取得したデータをデータＤｙ２としてデコーダ側ＬＳＴＭ層５２に出力する。

デコーダ側ＬＳＴＭ層５２は、デコーダ側プレネット処理部５１から、現時刻ｔにおいて出力されるデータＤｙ２（ｔ）と、１つ前の時間ステップにおいて、デコーダ側ＬＳＴＭ層５２から出力されたデータＤｙ３（ｔ－１）と、アテンション部４から出力される時刻ｔのコンテキスト状態データｃ（ｔ）とを入力する。

デコーダ側ＬＳＴＭ層５２は、入力されたデータＤｙ２（ｔ）、データＤｙ３（ｔ－１）、および、コンテキスト状態データｃ（ｔ）を用いて、ＬＳＴＭ層による処理を実行し、処理後のデータをデータＤｙ３（ｔ）として線形予測部５３に出力する。また、デコーダ側ＬＳＴＭ層５２は、データＤｙ３（ｔ）、すなわち、時刻ｔの出力側隠れ状態データｈｏ（ｔ）をアテンション部４に出力する。

ポストネット処理部５４は、例えば、コンボリューション処理（コンボリューションフィルタによる処理）、データの正規化処理、活性化関数による処理（例えば、ＲｅＬＵ関数（ＲｅＬＵ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）による処理やｔａｎｈ関数による処理）を実行し、予測データ（予測メルスペクトログラム）の残差データ（residual）を取得し、取得した残差データをデータＤｙ５として加算器５５に出力する。

加算器５５は、線形予測部５３から出力される予測データＤｙ４（予測メルスペクトログラムのデータ）と、ポストネット処理部５４から出力される残差データＤｙ５（予測メルスペクトログラムの残差データ）とを入力する。加算器５５は、予測データＤｙ４（予測メルスペクトログラムのデータ）と、残差データＤｙ５（予測メルスペクトログラムの残差データ）とに対して加算処理を実行し、加算処理後のデータ（予測メルスペクトログラムのデータ）をデータＤｙ６として出力する。

そして、音声合成処理装置１００では、上記のように取得されたデータＤｙ６（予測メルスペクトログラムのデータ）と、テキストデータＤｉｎに対応するメルスペクトログラム（音響特徴量）の教師データ（正解のメルスペクトログラム）とを比較し、両者の差（比較結果）（例えば、差分ベクトルのノルムやユークリッド距離により表現する差）が小さくなるように、エンコーダ部３、デコーダ部５のニューラルネットワークのモデルのパラメータを更新する。音声合成処理装置１００では、このパラメータ更新処理を繰り返し実行し、データＤｙ６（予測メルスペクトログラムのデータ）と、テキストデータＤｉｎに対応するメルスペクトログラム（音響特徴量）の教師データ（正解のメルスペクトログラム）との差が十分小さくなる（所定の誤差範囲におさまる）、ニューラルネットワークのモデルのパラメータを最適化パラメータとして取得する。

音声合成処理装置１００では、上記のようにして取得した最適化パラメータに基づいて、エンコーダ部３、デコーダ部５のニューラルネットワークのモデルの各層に含まれるシナプス間の結合係数（重み係数）を設定することで、エンコーダ部３、デコーダ部５のニューラルネットワークのモデルを最適化モデル（学習済みモデル）とすることができる。

以上により、音声合成処理装置１００において、入力をテキストデータとし、出力をメルスペクトログラムとするニューラルネットワークの学習済みモデル（最適化モデル）を構築できる。

また、ボコーダ６として、ニューラルネットワークによるモデルを用いたボコーダを採用する場合、入力される音響特徴量を、メルスペクトログラムのデータとし、出力を当該メルスペクトログラムに対応する音声信号波形として学習処理を実行する。つまり、ボコーダ６において、メルスペクトログラムのデータを入力し、音声合成処理をニューラルネットワークによるモデルを用いた処理により実行し、音声波形データを出力させる。ボコーダ６から出力される当該音声波形データと、ボコーダに入力したメルスペクトログラムに対応する音声波形データ（正解の音声波形データ）とを比較し、両者の差（比較結果）（例えば、差分ベクトルのノルムやユークリッド距離により表現する差）が小さくなるように、ボコーダ６のニューラルネットワークのモデルのパラメータを更新する。ボコーダ６では、このパラメータ更新処理を繰り返し実行し、ボコーダの入力データ（メルスペクトログラムのデータ）と、ボコーダ６に入力されたメルスペクトログラムに対応する音声波形データ（正解の音声波形データ）との差が十分小さくなる（所定の誤差範囲におさまる）、ニューラルネットワークのモデルのパラメータを最適化パラメータとして取得する。

ボコーダ６では、上記のようにして取得した最適化パラメータに基づいて、ボコーダ６のニューラルネットワークのモデルの各層に含まれるシナプス間の結合係数（重み係数）を設定することで、ボコーダ６のニューラルネットワークのモデルの最適化モデル（学習済みモデル）とすることができる。

以上により、ボコーダ６において、入力をテキストデータとし、出力をメルスペクトログラムとするニューラルネットワークの学習済みモデル（最適化モデル）を構築できる。

なお、音声合成処理装置１００において、（１）エンコーダ部３、デコーダ部５の学習処理と、（２）ボコーダ６の学習処理とを連携させて学習処理を実行してもよいし、上記のように、個別に学習処理を実行してもよい。音声合成処理装置１００において、（１）エンコーダ部３、デコーダ部５の学習処理と、（２）ボコーダ６の学習処理とを連携させて学習処理を実行する場合、入力をテキストデータとし、当該テキストデータに対応する音声波形データ（正解の音声波形データ）とを用いて、（１）エンコーダ部３、デコーダ部５のニューラルネットワークのモデルと、（２）ボコーダ６のニューラルネットワークのモデルの最適化パラメータを取得することで学習処理を実行すればよい。

（１．２．２：予測処理）
次に、音声合成処理装置１００による予測処理について、説明する。なお、予測処理においても、説明便宜のため、処理対象言語を日本語として、以下、説明する。

予測処理を実行する場合、音声合成処理装置１００では、上記の学習処理により取得された学習済みモデル、すなわち、エンコーダ部３、デコーダ部５のニューラルネットワークの最適化モデル（最適化パラメータが設定されているモデル）、および、ボコーダ６のニューラルネットワークの最適化モデル（最適化パラメータが設定されているモデル）が構築されている。そして、音声合成処理装置１００では、当該学習済みモデルを用いて予測処理が実行される。

音声合成処理の対象とする日本語のテキストデータＤｉｎをテキスト解析部１に入力する。

テキスト解析部１は、入力されたテキストデータＤｉｎに対して、日本語用のテキスト解析処理を実行し、例えば、図２に示すパラメータを含む４７８次元のベクトルデータとして、フルコンテキストラベルデータＤｘ１を取得する。

そして、取得されたフルコンテキストラベルデータＤｘ１は、テキスト解析部１からフルコンテキストラベルベクトル処理部２に出力される。

フルコンテキストラベルベクトル処理部２は、入力されたフルコンテキストラベルデータＤｘ１に対して、フルコンテキストラベルベクトル処理を実行し、最適化フルコンテキストラベルＤｘ２を取得する。なお、ここで取得される最適化フルコンテキストラベルＤｘ２は、エンコーダ部３、デコーダ部５のsequence-to-sequence方式のニューラルネットワークのモデルの学習処理を行うときに設定した最適化フルコンテキストラベルデータＤｘ２と同じ次元数を有し、かつ、同じパラメータ（情報）を有するデータである。

上記により取得されたデータＤｘ２（最適化フルコンテキストラベルデータＤｘ２）は、フルコンテキストラベルベクトル処理部２からエンコーダ部３のエンコーダ側プレネット処理部３１に出力される。

エンコーダ側ＬＳＴＭ層３２は、エンコーダ側プレネット処理部３１から、現時刻ｔにおいて出力されるデータＤｘ３（ｔ）と、１つ前の時間ステップにおいて、エンコーダ側ＬＳＴＭ層３２から出力されたデータＤｘ４（ｔ－１）とを入力する。そして、エンコーダ側ＬＳＴＭ層３２は、入力されたデータＤｘ３（ｔ）、データＤｘ４（ｔ－１）に対して、ＬＳＴＭ層による処理（ニューラルネットワーク処理）を実行し、処理後のデータをデータＤｘ４（データＤｘ４（ｔ））としてアテンション部４に出力する。

加算器５５は、線形予測部５３から出力される予測データＤｙ４（予測メルスペクトログラムのデータ）と、ポストネット処理部５４から出力される残差データＤｙ５（予測メルスペクトログラムの残差データ）とを入力する。加算器５５は、予測データＤｙ４（予測メルスペクトログラムのデータ）と、残差データＤｙ５（予測メルスペクトログラムの残差データ）とに対して加算処理を実行し、加算処理後のデータ（予測メルスペクトログラムのデータ）をデータＤｙ６として、ボコーダ６に出力する。

ボコーダ６は、デコーダ部５の加算器５５から出力されるデータＤｙ６（予測メルスペクトログラムのデータ（音響特徴量のデータ））を入力とし、入力されたデータＤｙ６に対して、学習済みモデルを用いたニューラルネットワーク処理による音声合成処理を実行し、データＤｙ６（予測メルスペクトログラム）に対応する音声信号波形データを取得する。そして、ボコーダ６は、取得した音声信号波形データを、データＤｏｕｔとして出力する。

このように、音声合成処理装置１００では、入力されたテキストデータＤｉｎに対応する音声波形データＤｏｕｔを取得することができる。

以上のように、音声合成処理装置１００では、処理対象言語（上記では日本語）のテキストを入力とし、当該処理対象言語に応じたテキスト解析処理により、フルコンテキストラベルデータを取得し、取得したフルコンテキストラベルデータからsequence-to-sequence方式を用いたニューラルネットワークのモデルで処理（学習処理、および／または、予測処理）を実行するのに適したデータである最適化フルコンテキストラベルデータを取得する。そして、音声合成処理装置１００では、入力を最適化フルコンテキストラベルデータとし、出力をメルスペクトログラム（音響特徴量の一例）として、エンコーダ部３、アテンション部４、および、デコーダ部５において、ニューラルネットワークのモデルを用いた処理（学習処理、予測処理）を実行することで、高精度な処理を実現できる。さらに、音声合成処理装置１００では、ボコーダ６により、上記により取得したメルスペクトログラム（音響特徴量の一例）から、当該メルスペクトログラムに対応する音声信号波形データを取得し、取得したデータを出力することで、音声波形データ（データＤｏｕｔ）を取得する。これにより、音声合成処理装置１００では、入力されたテキストに相当する音声波形データを取得することができる。

つまり、音声合成処理装置１００では、sequence-to-sequence方式を用いたニューラルネットワークのモデルで処理するのに適した最適化フルコンテキストラベルデータを用いて、ニューラルネットワークによる処理が実行されるため、高精度な音声合成処理を実行することができる。また、音声合成処理装置１００では、処理対象言語に応じたテキスト解析処理を行い、当該テキスト解析処理で取得されたフルコンテキストラベルデータから、sequence-to-sequence方式を用いたニューラルネットワークのモデルで処理するのに適した最適化フルコンテキストラベルデータを取得し、取得した最適化フルコンテキストラベルデータを用いて処理を行うことで、任意の処理対象言語について、高精度な音声合成処理を行うことができる。

したがって、音声合成処理装置１００では、日本語等の英語以外の言語を処理対象言語とする場合においても（処理対象言語を任意の言語にできる）、sequence-to-sequence方式を用いたテキスト音声合成用のニューラルネットワークのモデルにより、学習・最適化を行い、高品質な音声合成処理を実現することができる。

≪第１変形例≫
次に、第１実施形態の第１変形例について、説明する。なお、上記実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。

本変形例の音声合成処理装置では、ボコーダ６が、例えば、下記先行技術文献に開示されているような、可逆変換が可能なニューラルネットワークのモデルを用いた処理を行う。この点が第１実施形態と相違し、それ以外については、本変形例の音声合成処理装置は、第１実施形態の音声合成処理装置１００と同様である。
（先行技術文献Ａ）：
R. Prenger, R. Valle, and B. Catanzaro, “WaveGlow: A flowbased generative network for speech synthesis,” in Proc. ICASSP, May 2019.
図４は、第１実施形態の第１変形例の音声合成処理装置のボコーダ６の概略構成を示す図であり、学習処理時においけるデータの流れを明示した図である。

図５は、第１実施形態の第１変形例の音声合成処理装置のボコーダ６の概略構成を示す図であり、予測処理時においけるデータの流れを明示した図である。

本変形例のボコーダ６は、図４に示すように、ベクトル処理部６１と、アップサンプリング処理部６２と、ｍ個（ｍ：自然数）の可逆処理部６３ａ～６３ｘとを備える。

まず、本変形例のボコーダ６の学習処理について、説明する。

本変形例のボコーダ６は、学習処理において、音響特徴量としてメルスペクトログラム（これをデータｈとする）と、当該メルスペクトログラムに対応する音声信号波形データ（正解データ）（これをデータｘとする）とを入力し、ガウス白色ノイズ（これをデータｚとする）を出力する。

ベクトル処理部６１は、学習処理時において、音声信号波形データｘを入力し、入力したデータｘに対して、例えば、コンボリューション処理を施して、可逆処理部６３ａ（学習処理時において最初にデータ入力される可逆処理部）に入力可能な次元数のベクトルデータＤｘ１に変換する。そして、ベクトル処理部６１は、変換したベクトルデータＤｘ_１を可逆処理部６３ａに出力する。

アップサンプリング処理部６２は、音響特徴量としてメルスペクトログラムのデータｈを入力し、入力されたメルスペクトログラムのデータｈに対して、アップサンプリング処理を実行し、処理後のデータ（アップサンプリングされたメルスペクトログラムのデータ）をデータｈ１として、可逆処理部６３ａ～６３ｘのそれぞれのＷＮ変換部６３２に出力する。

可逆処理部６３ａは、図４に示すように、可逆１×１畳み込み層と、アフィンカップリング層とを備える。

可逆１×１畳み込み層は、ベクトル処理部６１から出力されるデータＤｘ_１を入力とし、入力されたデータに対して、重み係数行列Ｗ_ｋ（ｋ＝１）（シナプス間の結合係数（重み係数）を規定する行列）により、ニューラルネットワーク処理を実行する、つまり、
ＤｘＡ_１＝Ｗ_１×Ｄｘ_１
に相当する処理を実行して、データＤｘＡ_１を取得する。

なお、重み係数行列Ｗ_ｋは、直行行列となるように設定されており、したがって、逆変換が可能となる。

このようにして取得されたデータＤｘＡ_１は、可逆１×１畳み込み層からアフィンカップリング層に出力される。

アフィンカップリング層では、データ分割部６３１により、
ｘ＝ＤｘＡ_１
ｘ_ａ，ｘ_ｂ＝ｓｐｌｉｔ（ｘ）
ｓｐｌｉｔ（）：データ分割をする関数
に相当する処理を実行し、入力データｘを２分割し、分割データｘ_ａとｘ_ｂを取得する。例えば、ｘがｎ１×２（ｎ１：自然数）のビット数のデータである場合、ｘ_ａは、ｘの上位ｎ１ビット分のデータであり、ｘ_ｂは、ｘの下位ｎ１ビット分のデータである。

そして、データｘ_ａは、ＭＮ変換部６３２およびデータ合成部６３４に出力される。また、データｘ_ｂは、アフィン変換部６３３に出力される。

ＭＮ変換部６３２は、データ分割部６３１から出力されるデータｘ_ａと、アップサンプリング処理部６２から出力されるアップサンプリングされたメルスペクトログラムのデータｈ１とを入力する。そして、ＭＮ変換部６３２は、データｘ_ａと、データｈ１とに対して、任意の変換であるＭＮ変換（例えば、ＷａｖｅＮｅｔによる変換）を実行し、アフィン変換のパラメータとするデータｓ_ｊ，ｔ_ｊ（ｓ_ｊ：アフィン変換用の行列、ｔ_ｊ：アフィン変換用のオフセット）を取得する。取得されたアフィン変換のパラメータとするデータｓ_ｊ，ｔ_ｊは、ＷＮ変換部６３２からアフィン変換部６３３に出力される。

アフィン変換部６３３は、ＭＮ変換部６３２により取得されたデータｓ_ｊ，ｔ_ｊを用いて、データ分割部６３１から入力されるデータｘ_ｂに対して、アフィン変換を行う。つまり、アフィン変換部６３３は、
ｘ_ｂ’＝Ａｆｆｉｎ（ｓ_ｊ，ｔ_ｊ，ｘ_ｂ）
＝ｓ_ｊ×ｘ_ｂ＋ｔ_ｊ
に相当する処理を実行することで、データｘ_ｂのアフィン変換後のデータｘ_ｂ’を取得し、取得したデータｘ_ｂ’をデータ合成部６３４に出力する。

データ合成部６３４では、データ分割部６３１から出力されるデータｘ_ａと、アフィン変換部６３３から出力されるデータｘ_ｂ’とを入力し、データｘ_ａと、データｘ_ｂ’とを合成する処理、すなわち、
Ｄｘ_２＝ｃｏｎｃａｔ（ｘ_ａ，ｘ_ｂ’）
に相当する処理を実行し、データＤｘ_２を取得する。なお、データ合成部６３４でのデータ合成処理は、例えば、ｘ_ａ、ｘ_ｂ’が、それぞれ、ｎ１ビットのデータである場合、上位ｎ１ビットがｘ_ａとなり、下位ｎ１ビットがｘ_ｂ’となるｎ１×２ビットのデータを取得する処理である。

このようにして取得されたデータＤｘ_２は、可逆処理部６３ａから、可逆処理部６３ｂ（２番目の可逆処理部）に出力される。

可逆処理部６３ｂ～６３ｘでは、可逆処理部６３ａと同様の処理が実行される。つまり、本変形例のボコーダ６では、図４に示すように、可逆処理部６３ａの処理がｍ回繰り返し実行される。そして、最終段の可逆処理部６３ｘからのデータｚが出力される。なお、本変形例のボコーダ６は、ｍ個の可逆処理部を備えるものとする。

そして、本変形例のボコーダ６では、出力データｚが、ガウス白色ノイズとなるように、ニューラルネットワークのモデルの学習を行う。つまり、ｘを入力としたときのｚをｚ（ｘ）とすると、ｚ（ｘ）がガウス分布Ｎ（μ，σ）（μは平均値でありμ＝０、σは標準偏差）に従うガウス確率変数となるように、本変形例のボコーダ６のニューラルネットワークのモデルのパラメータを設定する。なお、σは、例えば、入力される音響特徴量としてメルスペクトログラムのデータの情報量Ｉに相関のあるデータとする。

つまり、本変形例のボコーダ６では、ｘが入力されたときの尤度（θ：ニューラルネットワークのパラメータ）ｐ_θ（ｘ）を、下記数式により規定することができ、当該尤度ｐ_θ（ｘ）を最大にするパラメータθ_ｏｐｔを取得することで、学習処理を実行する。

ｐ_θ（ｘ）：ｘが入力されたときの尤度（θ：ニューラルネットワークのパラメータ）
ｓ_ｊ（ｘ，ｈ）：ｘ、ｈが入力されたときのｊ番目のアフィンカップリング層の出力係数ベクトル
Ｗ_ｋ：ｋ番目の可逆１×１畳み込み層の係数行列（重み付け係数の行列）
ｚ（ｘ）：ｘが入力されたときの出力値（出力ベクトル）。
ｈ：音響特徴量（ここでは、メルスペクトログラム）
σ_ＷＧ ^２：ガウス分布の予測分散値
なお、ｚ（ｘ）は、ガウス分布Ｎ（μ，σ）（μは平均値でありμ＝０、σは標準偏差）に従うガウス確率変数に相当するものである。すなわち、ｚ～Ｎ（μ，σ）＝Ｎ（０，σ）である。また、ｍ１は、アフィンカップリング層の処理の回数、ｍ２は、可逆１×１畳み込み層の処理の回数であり、本変形例のボコーダ６では、ｍ１＝ｍ２＝ｍである。

本変形例のボコーダ６では、下記数式に相当する処理を実行することで、本変形例のボコーダ６のニューラルネットワークのモデルの最適化パラメータθ_ｏｐｔを取得する。

本変形例のボコーダ６では、上記の学習処理により取得した最適化パラメータθ_ｏｐｔにより、ニューラルネットワークのモデルのパラメータが設定され（各可逆処理部６３ｂ～６３ｘのアフィンカップリング層、可逆１×１畳み込み層のパラメータが設定され）、学習済みモデルが構築される。

次に、本変形例のボコーダ６の予測処理について、説明する。

本変形例のボコーダ６は、予測処理において、音響特徴量としてメルスペクトログラム（これをデータｈとする）と、当該メルスペクトログラムの情報量Ｉに相関のあるデータを標準偏差σとし、平均値を「０」とするガウス白色ノイズｚとを入力とする。

本変形例のボコーダ６では、予測処理時において、図５に示すように、学習処理時とは、逆の処理が実行される。

メルスペクトログラムのデータ（例えば、デコーダ部５から出力されるデータＤｙ６）がアップサンプリング処理部６２に入力される。

また、ガウス白色ノイズｚ（データｚという）が可逆処理部６３ｘに入力される。

そして、可逆処理部６３ｘにおいて、入力されたデータｚに対して、アフィンカップリング層の処理、可逆１×１畳み込み層の層の処理が実行される。この処理が、図５に示すように、ｍ回繰り返し実行される。各処理は、同様であるので、可逆処理部６３ａでの処理について、説明する。

データ合成部６３４では、可逆処理部６３ｂから出力されるデータＤｘ’_２を入力し、学習処理時とは逆の処理、すなわち、データ分割処理を実行する。つまり、データ合成部６３４では、
ｘ＝Ｄｘ’_２
ｘ_ａ，ｘ_ｂ’＝ｓｐｌｉｔ（ｘ）
ｓｐｌｉｔ（）：データ分割をする関数
に相当する処理を実行し、入力データｘを２分割し、分割データｘ_ａとｘ_ｂ’を取得する。

そして、データ合成部６３４は、取得したデータｘ_ａをＭＮ変換部６３２およびデータ分割部６３１に出力し、データｘ_ｂ’をアフィン変換部６３３に出力する。

ＭＮ変換部６３２は、データ合成部６３４から出力されるデータｘ_ａと、アップサンプリング処理部６２から出力されるアップサンプリングされたメルスペクトログラムのデータｈ１とを入力する。そして、ＭＮ変換部６３２は、データｘ_ａと、データｈ１とに対して、任意の変換であるＭＮ変換（例えば、ＷａｖｅＮｅｔによる変換）を実行し、アフィン変換のパラメータとするデータｓ_ｊ，ｔ_ｊ（ｓ_ｊ：アフィン変換用の行列、ｔ_ｊ：アフィン変換用のオフセット）を取得する。取得されたアフィン変換のパラメータとするデータｓ_ｊ，ｔ_ｊは、ＷＮ変換部６３２からアフィン変換部６３３に出力される。

アフィン変換部６３３は、ＭＮ変換部６３２により取得されたデータｓ_ｊ，ｔ_ｊを用いて、データ合成部６３４から入力されるデータｘ’_ｂに対して、アフィン逆変換（学習処理時に行ったアフィン変換の逆変換）を行う。つまり、アフィン変換部６３３は、
ｘ_ｂ＝Ａｆｆｉｎ^－１（ｓ_ｊ，ｔ_ｊ，ｘ_ｂ’）
に相当する処理を実行することで、データｘ_ｂ’のアフィン逆変換後のデータｘ_ｂを取得し、取得したデータｘ_ｂをデータ分割部６３１に出力する。

データ分割部６３１は、データ合成部６３４から出力されるデータｘ_ａと、アフィン変換部６３３から出力されるデータｘ_ｂとを入力し、データｘ_ａと、データｘ_ｂとを合成する処理、すなわち、
Ｄｘ’_１＝ｃｏｎｃａｔ（ｘ_ａ，ｘ_ｂ）
に相当する処理を実行し、データＤｘ’_１を取得する。そして、データ分割部６３１は、取得したデータＤｘ’_１を出力する。

上記のようにして可逆処理部６３ｘ～６３ａにより処理されることで取得されたデータＤｘ’_１が、ベクトル処理部６１に入力される。

ベクトル処理部６１は、学習処理時と逆の処理を実行することで、データＤｘ’_１から、予測音声信号波形データｘを取得し、出力する。

以上のように処理することで、本変形例のボコーダ６では、入力ｚ（ガウス白色ノイズｚ）と、メルスペクトログラムのデータｈから、予測音声信号波形データｘを取得することができる。

本変形例のボコーダ６では、ニューラルネットワークを可逆変換できる構成を採用している。このため、本変形例のボコーダ６では、（１）ガウス白色ノイズが入力されたときに出力される音声波形データの尤度と、（２）音声波形データが入力されたときに出力されるガウス白色ノイズの尤度とを等価にし、学習処理を行いやすい（計算が容易である）後者（音声波形データが入力されたときに出力されるガウス白色ノイズの尤度）により、学習処理を行うことで、効率良く学習処理を行うことができる。

そして、本変形例のボコーダ６では、ニューラルネットワークを可逆変換できる構成を有しているので、上記学習処理により取得した学習済みモデルにより、予測処理を、学習処理時とは逆の処理（逆変換）により実現できる。

このように、本変形例のボコーダ６では、音響特徴量としてメルスペクトログラムのデータから音声波形データを直接予測（取得）できる構成をシンプルな構成で実現できる。そして、本変形例のボコーダ６では、このようなシンプルな構成を有しているので、処理精度を保ちながら、予測処理を高速に行うことができ、音声合成処理をリアルタイムで実行することが可能になる。

図６は、本変形例の音声合成処理装置によりＴＴＳ処理（処理対象言語：日本語）実行し、取得した音声波形データのメルスペクトログラム（予測データ）と、入力テキストの実際の音声波形データのメルスペクトログラム（オリジナルデータ）とを示す図である。

図６から分かるように、本変形例の音声合成処理装置によりＴＴＳ処理では、非常に高精度な音声波形データが予測（取得）できる。

［第２実施形態］
次に、第２実施形態について、説明する。なお、上記実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。

第１実施形態では、エンコーダ・デコーダ方式（sequence-to-sequence方式）を用いたの音声合成処理装置１００について、説明した。第１実施形態の音声合成処理装置１００は、注意機構（アテンション部４）を備えており、音素継続長と音響モデルとを注意機構を用いて同時に最適化するニューラル音声合成処理を実現することができる。これにより、第１実施形態の音声合成処理装置１００では、自然音声クラスの高音質なテキスト音声合成を実現できる。しかしながら、第１実施形態の音声合成処理装置１００では、推論時（予測処理時）に、まれに注意機構予測が失敗することがあり、これにより合成発話が途中で止まってしまう、同じフレーズを何回も繰り返してしまう、等の問題がある。

第２実施形態では、上記問題を解決するための技術について、説明する。

＜２．１：音声合成処理装置の構成＞
図７は、第２実施形態に係る音声合成処理装置２００の概略構成図である。

第２実施形態に係る音声合成処理装置２００は、第１実施形態の音声合成処理装置１００において、アテンション部４を削除し、音素継続長推定部７を追加した構成を有している。そして、第２実施形態に係る音声合成処理装置２００は、第１実施形態の音声合成処理装置１００において、テキスト解析部１をテキスト解析部１Ａに置換し、フルコンテキストラベルベクトル処理部２をフルコンテキストラベルベクトル処理部２Ａに置換し、デコーダ部５をデコーダ部５Ａに置換した構成を有している。

テキスト解析部１Ａは、第１実施形態のテキスト解析部１と同様の機能を有しており、さらに、音素のコンテキストラベルを取得する機能を有している。テキスト解析部１Ａは、処理対象言語のテキストデータＤｉｎから音素のコンテキストラベルを取得し、取得した音素のコンテキストラベルのデータをデータＤｘ０１として、音素継続長推定部７に出力する。

音素継続長推定部７は、テキスト解析部１Ａから出力されるデータＤｘ０１（音素のコンテキストラベルのデータ）を入力する。音素継続長推定部７は、データＤｘ０１（音素のコンテキストラベルのデータ）から、データＤｘ０１に対応する音素の音素継続長を推定（取得）する音素継続長推定処理を実行する。具体的には、音素継続長推定部７は、例えば、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）、ニューラルネットワークモデル等を用いた、音素のコンテキストラベルから当該音素の音素継続長を推定（予測）するモデル（処理システム）により、音素継続長推定処理を実行する。

そして、音素継続長推定部７は、音素継続長推定処理により取得（推定）した音素継続長のデータをデータＤｘ０２として、フルコンテキストラベルベクトル処理部２Ａに出力する。

フルコンテキストラベルベクトル処理部２Ａは、第１実施形態のフルコンテキストラベルベクトル処理部２と同様の機能を有しており、さらに、音素継続長推定部７により推定された音素継続長に相当する期間において、当該音素継続長に対応する音素についての最適化フルコンテキストラベルデータをエンコーダ部３に継続して出力する機能を有する。

フルコンテキストラベルベクトル処理部２Ａは、テキスト解析部１から出力されるデータＤｘ１（フルコンテキストラベルのデータ）と、音素継続長推定部７から出力されるデータＤｘ０２（音素の音素継続長のデータ）とを入力する。

フルコンテキストラベルベクトル処理部２Ａは、テキスト解析部１Ａから出力されるデータＤｘ１（フルコンテキストラベルのデータ）を入力する。フルコンテキストラベルベクトル処理部２Ａは、入力されたフルコンテキストラベルデータＤｘ１から、sequence-to-sequence方式のニューラルネットワークのモデルの学習処理に適したフルコンテキストラベルデータを取得するためのフルコンテキストラベルベクトル処理を実行する。そして、フルコンテキストラベルベクトル処理部２Ａは、フルコンテキストラベルベクトル処理により取得したデータをデータＤｘ２（最適化フルコンテキストラベルデータＤｘ２）として、エンコーダ部３のエンコーダ側プレネット処理部３１に出力する。このとき、フルコンテキストラベルベクトル処理部２Ａは、音素継続長推定部７により推定された音素継続長に相当する期間において、当該音素継続長に対応する音素についての最適化フルコンテキストラベルデータをエンコーダ部３に継続して出力する。

デコーダ部５Ａは、第１実施形態のデコーダ部５において、デコーダ側ＬＳＴＭ層５２をデコーダ側ＬＳＴＭ層５２Ａに置換した構成を有している。それ以外は、デコーダ部５Ａは、第１実施形態のデコーダ部５と同様である。

デコーダ側ＬＳＴＭ層５２Ａは、デコーダ側ＬＳＴＭ層５２と同様の機能を有している。デコーダ側ＬＳＴＭ層５２Ａは、デコーダ側プレネット処理部５１から、現時刻ｔにおいて出力されるデータＤｙ２（これをデータＤｙ２（ｔ）と表記する）と、１つ前の時間ステップにおいて、デコーダ側ＬＳＴＭ層５２Ａから出力されたデータＤｙ３（これをデータＤｙ３（ｔ－１）と表記する）と、エンコーダ部３から出力される時刻ｔの入力側隠れ状態データｈｉ（ｔ）を入力する。

デコーダ側ＬＳＴＭ層５２Ａは、入力されたデータＤｙ２（ｔ）、データＤｙ３（ｔ－１）、および、入力側隠れ状態データｈｉ（ｔ）を用いて、ＬＳＴＭ層による処理を実行し、処理後のデータをデータＤｙ３（データＤｙ３（ｔ））として線形予測部５３に出力する。

＜２．２：音声合成処理装置の動作＞
以上のように構成された音声合成処理装置２００の動作について以下説明する。

図８は、推定された音素継続長に基づいて、エンコーダ部３に入力するデータＤｘ２を生成する処理を説明するための図である。

以下では、音声合成処理装置２００の動作を、（１）学習処理（学習時の処理）と、（２）予測処理（予測時の処理）とに分けて説明する。

（２．２．１：学習処理）
まず、音声合成処理装置２００による学習処理について、説明する。なお、説明便宜のため、処理対象言語を日本語として、以下、説明する。

処理対象言語である日本語のテキストデータＤｉｎをテキスト解析部１Ａに入力する。また、当該テキストデータＤｉｎに対応するメルスペクトログラム（音響特徴量）のデータを教師データとして用意する。

テキスト解析部１Ａは、第１実施形態と同様に、入力されたテキストデータＤｉｎに対して、テキスト解析処理を実行し、様々な言語情報からなるコンテキストを含む音素ラベルであるコンテキストラベルの系列を取得する。

テキスト解析部１Ａは、第１実施形態と同様に、取得したフルコンテキストラベルデータをデータＤｘ１としてフルコンテキストラベルベクトル処理部２に出力する。

また、テキスト解析部１Ａは、処理対象言語のテキストデータＤｉｎから音素のコンテキストラベルを取得し、取得した音素のコンテキストラベルのデータをデータＤｘ０１として、音素継続長推定部７に出力する。

音素継続長推定部７は、テキスト解析部１Ａから出力されるデータＤｘ０１（音素のコンテキストラベルのデータ）から、データＤｘ０１に対応する音素の音素継続長を推定（取得）する音素継続長推定処理を実行する。具体的には、音素継続長推定部７は、例えば、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）、ニューラルネットワークモデル等を用いた、音素のコンテキストラベルから当該音素の音素継続長を推定（予測）するモデル（処理システム）により、音素継続長推定処理を実行する。

フルコンテキストラベルベクトル処理部２Ａは、テキスト解析部１Ａから出力されるデータＤｘ１（フルコンテキストラベルのデータ）から、sequence-to-sequence方式のニューラルネットワークのモデルの学習処理に適したフルコンテキストラベルデータを取得するためのフルコンテキストラベルベクトル処理（第１実施形態と同様のフルコンテキストラベルベクトル処理）を実行する。そして、フルコンテキストラベルベクトル処理部２Ａは、フルコンテキストラベルベクトル処理により取得したデータをデータＤｘ２（最適化フルコンテキストラベルデータＤｘ２）として、エンコーダ部３のエンコーダ側プレネット処理部３１に出力する。このとき、フルコンテキストラベルベクトル処理部２Ａは、音素継続長推定部７により推定された音素継続長に相当する期間において、当該音素継続長に対応する音素についての最適化フルコンテキストラベルデータをエンコーダ部３に継続して出力する。

フルコンテキストラベルベクトル処理部２Ａにより取得されたデータＤｘ２（最適化フルコンテキストラベルデータＤｘ２）は、フルコンテキストラベルベクトル処理部２からのエンコーダ部３のエンコーダ側プレネット処理部３１に出力される。

エンコーダ側ＬＳＴＭ層３２は、エンコーダ側プレネット処理部３１から、現時刻ｔにおいて出力されるデータＤｘ３（ｔ）と、１つ前の時間ステップにおいて、エンコーダ側ＬＳＴＭ層３２から出力されたデータＤｘ４（ｔ－１）とを入力する。そして、エンコーダ側ＬＳＴＭ層３２は、入力されたデータＤｘ３（ｔ）、データＤｘ４（ｔ－１）に対して、ＬＳＴＭ層による処理を実行し、処理後のデータをデータＤｘ４（データＤｘ４（ｔ）（＝入力側隠れ状態データｈｉ（ｔ）））としてデコーダ部５Ａのデコーダ側ＬＳＴＭ層５２Ａに出力する。

デコーダ側プレネット処理部５１は、線形予測部５３から出力される、１時間ステップ前のデータＤｙ４（ｔ－１）を入力する。デコーダ側プレネット処理部５１は、例えば、複数層（例えば、２層）の全結合層を有しており、データの正規化処理（例えば、線形予測部５３から出力されるデータ（ベクトルデータ）の次元数が２Ｎであり、デコーダ側ＬＳＴＭ層に入力されるデータ（ベクトルデータ）の次元数がＮである場合、データの次元数をＮにするように、例えば、ドロップアウト処理を行うことを含む）、活性化関数による処理（例えば、ＲｅＬＵ関数（ＲｅＬＵ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）による処理）を実行し、デコーダ側ＬＳＴＭ層５２に入力可能なデータを取得する。そして、デコーダ側プレネット処理部５１は、上記処理（プレネット処理）により取得したデータをデータＤｙ２としてデコーダ側ＬＳＴＭ層５２に出力する。

デコーダ側ＬＳＴＭ層５２Ａは、デコーダ側プレネット処理部５１から、現時刻ｔにおいて出力されるデータＤｙ２（ｔ）と、１つ前の時間ステップにおいて、デコーダ側ＬＳＴＭ層５２から出力されたデータＤｙ３（ｔ－１）と、エンコーダ部３から出力される時刻ｔの入力側隠れ状態データｈｉ（ｔ）（＝Ｄｘ４（ｔ））とを入力する。

デコーダ側ＬＳＴＭ層５２Ａは、入力されたデータＤｙ２（ｔ）、データＤｙ３（ｔ－１）、および、入力側隠れ状態データｈｉ（ｔ）を用いて、ＬＳＴＭ層による処理を実行し、処理後のデータをデータＤｙ３（ｔ）として線形予測部５３に出力する。
線形予測部５３、ポストネット処理部５４、および、加算器５５では、第１実施形態と同様の処理が実行される。

そして、音声合成処理装置２００では、上記のように取得されたデータＤｙ６（予測メルスペクトログラムのデータ）と、テキストデータＤｉｎに対応するメルスペクトログラム（音響特徴量）の教師データ（正解のメルスペクトログラム）とを比較し、両者の差（比較結果）（例えば、差分ベクトルのノルムやユークリッド距離により表現する差）が小さくなるように、エンコーダ部３、デコーダ部５Ａのニューラルネットワークのモデルのパラメータを更新する。音声合成処理装置１００では、このパラメータ更新処理を繰り返し実行し、データＤｙ６（予測メルスペクトログラムのデータ）と、テキストデータＤｉｎに対応するメルスペクトログラム（音響特徴量）の教師データ（正解のメルスペクトログラム）との差が十分小さくなる（所定の誤差範囲におさまる）、ニューラルネットワークのモデルのパラメータを最適化パラメータとして取得する。

音声合成処理装置２００では、上記のようにして取得した最適化パラメータに基づいて、エンコーダ部３、デコーダ部５Ａのニューラルネットワークのモデルの各層に含まれるシナプス間の結合係数（重み係数）を設定することで、エンコーダ部３、デコーダ部５Ａのニューラルネットワークのモデルを最適化モデル（学習済みモデル）とすることができる。

以上により、音声合成処理装置２００において、入力をテキストデータとし、出力をメルスペクトログラムとするニューラルネットワークの学習済みモデル（最適化モデル）を構築できる。

なお、音声合成処理装置２００において、第１実施形態の音声合成処理装置１００における学習処理により取得したニューラルネットワークの学習済みモデル（最適化モデル）を用いてもよい。つまり、音声合成処理装置２００において、第１実施形態の音声合成処理装置１００における学習処理により取得したニューラルネットワークの学習済みモデルのエンコーダ部３およびデコーダ部５の最適パラメータを用いて、音声合成処理装置２００のエンコーダ部３およびデコーダ部５Ａのパラメータを設定することで、音声合成処理装置２００において、学習済みモデルを構築するようにしてもよい。

また、ボコーダ６として、ニューラルネットワークによるモデルを用いたボコーダを採用する場合、その学習処理は、第１実施形態と同様である。

これにより、第１実施形態と同様に、ボコーダ６において、入力をテキストデータとし、出力をメルスペクトログラムとするニューラルネットワークの学習済みモデル（最適化モデル）を構築できる。

なお、音声合成処理装置２００において、（１）エンコーダ部３、デコーダ部５Ａの学習処理と、（２）ボコーダ６の学習処理とを連携させて学習処理を実行してもよいし、上記のように、個別に学習処理を実行してもよい。音声合成処理装置２００において、（１）エンコーダ部３、デコーダ部５Ａの学習処理と、（２）ボコーダ６の学習処理とを連携させて学習処理を実行する場合、入力をテキストデータとし、当該テキストデータに対応する音声波形データ（正解の音声波形データ）とを用いて、（１）エンコーダ部３、デコーダ部５Ａのニューラルネットワークのモデルと、（２）ボコーダ６のニューラルネットワークのモデルの最適化パラメータを取得することで学習処理を実行すればよい。

（２．２．２：予測処理）
次に、音声合成処理装置２００による予測処理について、説明する。なお、予測処理においても、説明便宜のため、処理対象言語を日本語として、以下、説明する。

予測処理を実行する場合、音声合成処理装置２００では、上記の学習処理により取得された学習済みモデル、すなわち、エンコーダ部３、デコーダ部５Ａのニューラルネットワークの最適化モデル（最適化パラメータが設定されているモデル）、および、ボコーダ６のニューラルネットワークの最適化モデル（最適化パラメータが設定されているモデル）が構築されている。そして、音声合成処理装置２００では、当該学習済みモデルを用いて予測処理が実行される。

音声合成処理の対象とする日本語のテキストデータＤｉｎをテキスト解析部１Ａに入力する。

テキスト解析部１Ａは、入力されたテキストデータＤｉｎに対して、日本語用のテキスト解析処理を実行し、例えば、図２に示すパラメータを含む４７８次元のベクトルデータとして、フルコンテキストラベルデータＤｘ１を取得する。

そして、取得されたフルコンテキストラベルデータＤｘ１は、テキスト解析部１Ａからフルコンテキストラベルベクトル処理部２Ａに出力される。

例えば、図８に示すように、入力データＤｉｎが「今日の天気は．．．」である場合、データＤｘ０１に含まれる各音素のデータを、
（１）ｐｈ_０＝「ｋ」、（２）ｐｈ_１＝「ｙ」、（３）ｐｈ_２＝「ｏｕ」、（４）ｐｈ_３＝「ｎ」、（５）ｐｈ_０４＝「ｏ」、（６）ｐｈ_ｓｉｌ＝無音状態、（７）ｐｈ_５＝「ｔ」、（８）ｐｈ_６＝「ｅ」、（９）ｐｈ_０７＝「ｎ」、・・・
とし、音素ｐｈ_ｋ（ｋ：整数）の推定された音素継続長をｄｕｒ（ｐｈ_ｋ）とすると、音素継続長推定部７は、音素ｐｈ_ｋ（ｋ：整数）のコンテキストラベルを用いて、音素継続長推定処理を実行することで、音素ｐｈ_ｋの推定された音素継続長ｄｕｒ（ｐｈ_ｋ）を取得する。例えば、上記の各音素（音素ｐｈ_ｋ）について、音素継続長推定部７により取得（推定）された音素継続長ｄｕｒ（ｐｈ_ｋ）が、図８に示す時間の長さ（継続長）を有するものとする。

そして、音素継続長推定部７は、音素継続長推定処理により取得（推定）した音素継続長のデータ（図８の場合、ｄｕｒ（ｐｈ_ｋ））をデータＤｘ０２として、フルコンテキストラベルベクトル処理部２Ａに出力する。

フルコンテキストラベルベクトル処理部２Ａは、入力されたフルコンテキストラベルデータＤｘ１に対して、フルコンテキストラベルベクトル処理を実行し、最適化フルコンテキストラベルＤｘ２を取得する。なお、ここで取得される最適化フルコンテキストラベルＤｘ２は、エンコーダ部３、デコーダ部５Ａのsequence-to-sequence方式のニューラルネットワークのモデルの学習処理を行うときに設定した最適化フルコンテキストラベルデータＤｘ２と同じ次元数を有し、かつ、同じパラメータ（情報）を有するデータである。

上記により取得されたデータＤｘ２（最適化フルコンテキストラベルデータＤｘ２）は、フルコンテキストラベルベクトル処理部２からエンコーダ部３のエンコーダ側プレネット処理部３１に出力される。このとき、フルコンテキストラベルベクトル処理部２Ａは、音素継続長推定部７により推定された音素継続長に相当する期間において、当該音素継続長に対応する音素についての最適化フルコンテキストラベルデータをエンコーダ部３に継続して出力する。例えば、図８に示すように、音素ｐｈ_ｋについての最適化フルコンテキストラベルデータをデータＤｘ２（ｐｈ_ｋ）とすると、フルコンテキストラベルベクトル処理部２Ａは、音素ｐｈ_ｋについての最適化フルコンテキストラベルデータＤｘ２（ｐｈ_ｋ）を、当該音素ｐｈ_ｋの推定された音素継続長ｄｕｒ（ｐｈ_ｋ）に相当する期間において、継続してエンコーダ部３に出力する。

つまり、音素ｐｈ_ｋについての最適化フルコンテキストラベルデータＤｘ２（ｐｈ_ｋ）は、推定された音素継続長ｄｕｒ（ｐｈ_ｋ）に相当する期間、繰り返しエンコーダ部３に出力される。すなわち、フルコンテキストラベルベクトル処理部２Ａでは、推定された音素継続長ｄｕｒ（ｐｈ_ｋ）に基づいて、エンコーダ部３へ入力するデータ（最適化フルコンテキストラベルデータＤｘ２（ｐｈ_ｋ））の時間引き延ばし処理が実行される。

エンコーダ側プレネット処理部３１は、フルコンテキストラベルベクトル処理部２Ａから入力したデータＤｘ２に対して、コンボリューション処理（コンボリューションフィルタによる処理）、データの正規化処理、活性化関数による処理（例えば、ＲｅＬＵ関数（ＲｅＬＵ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）による処理）を実行し、エンコーダ側ＬＳＴＭ層３２に入力可能なデータを取得する。そして、エンコーダ側プレネット処理部３１は、上記処理（プレネット処理）により取得したデータをデータＤｘ３としてエンコーダ側ＬＳＴＭ層３２に出力する。

エンコーダ側ＬＳＴＭ層３２は、エンコーダ側プレネット処理部３１から、現時刻ｔにおいて出力されるデータＤｘ３（ｔ）と、１つ前の時間ステップにおいて、エンコーダ側ＬＳＴＭ層３２から出力されたデータＤｘ４（ｔ－１）とを入力する。そして、エンコーダ側ＬＳＴＭ層３２は、入力されたデータＤｘ３（ｔ）、データＤｘ４（ｔ－１）に対して、ＬＳＴＭ層による処理（ニューラルネットワーク処理）を実行し、処理後のデータをデータＤｘ４（データＤｘ４（ｔ）（＝入力側隠れ状態データｈｉ（ｔ）））としてデコーダ部５Ａのデコーダ側ＬＳＴＭ層５２Ａに出力する。

ボコーダ６は、デコーダ部５Ａの加算器５５から出力されるデータＤｙ６（予測メルスペクトログラムのデータ（音響特徴量のデータ））を入力とし、入力されたデータＤｙ６に対して、学習済みモデルを用いたニューラルネットワーク処理による音声合成処理を実行し、データＤｙ６（予測メルスペクトログラム）に対応する音声信号波形データを取得する。そして、ボコーダ６は、取得した音声信号波形データを、データＤｏｕｔとして出力する。

このように、音声合成処理装置２００では、入力されたテキストデータＤｉｎに対応する音声波形データＤｏｕｔを取得することができる。

以上のように、音声合成処理装置２００では、処理対象言語（上記では日本語）のテキストを入力とし、当該処理対象言語に応じたテキスト解析処理により、フルコンテキストラベルデータを取得し、取得したフルコンテキストラベルデータからsequence-to-sequence方式を用いたニューラルネットワークのモデルで処理（学習処理、および／または、予測処理）を実行するのに適したデータである最適化フルコンテキストラベルデータを取得する。そして、音声合成処理装置２００では、入力を最適化フルコンテキストラベルデータとし、出力をメルスペクトログラム（音響特徴量の一例）として、エンコーダ部３、および、デコーダ部５Ａにおいて、ニューラルネットワークのモデルを用いた処理（学習処理、予測処理）を実行することで、高精度な処理を実現できる。さらに、音声合成処理装置２００では、ボコーダ６により、上記により取得したメルスペクトログラム（音響特徴量の一例）から、当該メルスペクトログラムに対応する音声信号波形データを取得し、取得したデータを出力することで、音声波形データ（データＤｏｕｔ）を取得する。これにより、音声合成処理装置２００では、入力されたテキストに相当する音声波形データを取得することができる。

さらに、音声合成処理装置２００では、エンコーダ部３への入力データ（最適化フルコンテキストラベルデータ）を、音素継続長推定部７により取得（推定）した音素ごとの音素継続長に基づいて、引き延ばす処理（音素ｐｈ_ｋの音素継続長ｄｕｒ（ｐｈ_ｋ）に相当する期間、音素ｐｈ_ｋの最適化フルコンテキストラベルデータを、繰り返しエンコーダ部３に入力する処理）を実行する。つまり、音声合成処理装置２００では、安定して音素継続長を適切に推定することができる、隠れマルコフモデル等のモデルを用いた推定処理を実行して取得した音素継続長を用いて予測処理を実行するので、注意機構予測が失敗することに起因する、合成発話が途中で止まってしまう、同じフレーズを何回も繰り返してしまう、等の問題が発生することはない。

すなわち、音声合成処理装置２００では、（１）音素継続長については、安定して音素継続長を適切に推定することができる、隠れマルコフモデル等のモデルを用いた推定処理（音素継続長推定部７による処理）により取得し、（２）音響特徴量については、sequence-to-sequence方式を用いたニューラルネットワークのモデルで処理することにより取得する。

したがって、音声合成処理装置２００では、注意機構予測が失敗することに起因する、合成発話が途中で止まってしまう、同じフレーズを何回も繰り返してしまう、等の問題が発生することを適切に防止するとともに、高精度な音声合成処理を実行することができる。

［第３実施形態］
次に、第３実施形態について、説明する。なお、上記実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。

＜３．１：音声合成処理装置の構成＞
図９は、第３実施形態に係る音声合成処理装置３００の概略構成図である。

第３実施形態に係る音声合成処理装置３００は、第１実施形態の音声合成処理装置１００において、テキスト解析部１をテキスト解析部１Ａに置換し、アテンション部４をアテンション部４Ａに置換し、デコーダ部５をデコーダ部５Ｂに置換した構成を有している。そして、音声合成処理装置３００は、音声合成処理装置１００において、音素継続長推定部７と、強制アテンション部８と、内分処理部９と、コンテキスト算出部１０とを追加した構成を有している。

テキスト解析部１Ａ、および、音素継続長推定部７は、第２実施形態のテキスト解析部１Ａと同様の構成、機能を有している。

なお、音素継続長推定部７は、音素継続長推定処理により取得（推定）した音素継続長のデータをデータＤｘ０２として、強制アテンション部８に出力する。

アテンション部４Ａは、エンコーダ部３から出力されるデータＤｘ４と、デコーダ部５Ｂのデコーダ側ＬＳＴＭ層５２Ｂから出力されるデータｈo（出力側隠れ状態データｈo）とを入力する。アテンション部４Ａは、エンコーダ部３から出力されるデータＤｘ４、すなわち、入力側隠れ状態データｈｉを所定の時間ステップ分記憶保持する。時間ステップｔ＝１からｔ＝Ｓ（Ｓ：自然数）の期間において、エンコーダ部３により取得され、アテンション部４Ａに出力されたデータＤｘ４（＝ｈｉ）の集合を、ｈｉ_{１．．．Ｓ}と表記する。つまり、アテンション部４Ａは、下記に相当するデータｈｉ_{１．．．Ｓ}を記憶保持する。
ｈｉ_{１．．．Ｓ}＝｛Ｄｘ４（１），Ｄｘ４（２），・・・，Ｄｘ４（Ｓ）｝
また、アテンション部４Ａは、デコーダ部５Ｂのデコーダ側ＬＳＴＭ層５２Ｂから出力されるデータＤｙ３、すなわち、出力側隠れ状態データｈｏを所定の時間ステップ分記憶保持する。時間ステップｔ＝１からｔ＝Ｔ（Ｔ：自然数）の期間において、デコーダ側ＬＳＴＭ層５２Ｂにより取得され、アテンション部４Ａに出力されたデータＤｙ３（＝ｈｏ）の集合を、ｈｏ_{１．．．Ｔ}と表記する。つまり、アテンション部４Ａは、下記に相当するデータｈｏ_{１．．．Ｔ}を記憶保持する。
ｈｏ_{１．．．Ｔ}＝｛Ｄｙ３（１），Ｄｙ３（２），・・・，Ｄｙ３（Ｔ）｝
そして、アテンション部４Ａは、入力側隠れ状態データの集合データｈｉ_{１．．．Ｓ}と、出力側隠れ状態データの集合データｈｏ_{１．．．Ｔ}と、に基づいて、例えば、
ｗ_ａｔｔ（ｔ）_{１．．．Ｓ}＝ｆ２＿ａｔｔｎ（ｈｉ_{１．．．Ｓ}，ｈｏ_{１．．．Ｔ}）
ｆ２＿ａｔｔｎ（）：重み付け係数データを取得する関数
に相当する処理を実行して、現時刻ｔの重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}を取得する。そして、アテンション部４Ａは、取得した重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}を内分処理部９に出力する。なお、入力側隠れ状態データの集合データｈｉ_{１．．．Ｓ}の各要素データに対する重み付け係数データの集合データを重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}と表記する。

また、アテンション部４Ａは、データＤｘ４（＝ｈｉ）の集合データｈｉ_{１．．．Ｓ}をコンテキスト算出部１０に出力する。

強制アテンション部８は、音素継続長推定部７から出力される推定された音素継続長のデータＤｘ０２を入力する。強制アテンション部８は、音素継続長データＤｘ０２に対応する音素についてのエンコーダ部３により処理されたデータが出力されるとき、当該音素の推定された音素継続長（音素継続長データＤｘ０２）に相当する期間、重み付け係数を強制的に所定の値（例えば、「１」）にした重み付け係数データｗ_ｆ（ｔ）を生成する。なお、入力側隠れ状態データの集合データｈｉ_{１．．．Ｓ}の各要素データに対する重み付け係数データと対応づけるために、時刻ｔを中心として、Ｓ個にデータを拡張（同一データを複製して拡張）した重み付け係数データｗ_ｆ（ｔ）を重み付け係数データｗ_ｆ（ｔ）_{１．．．Ｓ}と表記する。

強制アテンション部８は、上記により生成した重み付け係数データｗ_ｆ（ｔ）_{１．．．Ｓ}を内分処理部９に出力する。

内分処理部９は、アテンション部４Ａから出力される重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}と、強制アテンション部８から出力される重み付け係数データｗ_ｆ（ｔ）_{１．．．Ｓ}とを入力する。そして、内分処理部９は、重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}と、重み付け係数データｗ_ｆ（ｔ）_{１．．．Ｓ}とに対して、内分処理を実行することで、合成重み付け係数データｗ（ｔ）を取得する。具体的には、内分処理部９は、
ｗ（ｔ）_{１．．．Ｓ}＝（１－α）×ｗ_ａｔｔ（ｔ）_{１．．．Ｓ}＋α×ｗ_ｆ（ｔ）_{１．．．Ｓ}
０≦α≦１
に相当する処理を実行することで、合成重み付け係数データｗ（ｔ）を取得する。なお、上記数式（内分処理）は、それぞれ対応する要素ごとに、内分処理を実行することを表している。つまり、ｊ番目（１≦ｊ≦Ｓ）のデータについては、
ｗ（ｔ）_ｊ＝（１－α）×ｗ_ａｔｔ（ｔ）_ｊ＋α×ｗ_ｆ（ｔ）_ｊ
に相当する処理が実行されることで、ｊ番目の合成重み付け係数データｗ（ｔ）_ｊが取得される。

そして、内分処理部９は、取得した合成重み付け係数データｗ（ｔ）_{１．．．Ｓ}をコンテキスト算出部１０に出力する。

コンテキスト算出部１０は、アテンション部４Ａから出力されるデータＤｘ４（＝ｈｉ）の集合データｈｉ_{１．．．Ｓ}と、内分処理部９から出力される合成重み付け係数データｗ（ｔ）_{１．．．Ｓ}とを入力する。そして、コンテキスト算出部１０は、合成重み付け係数データｗ（ｔ）_{１．．．Ｓ}に基づいて、データＤｘ４（＝ｈｉ）の集合データｈｉ_{１．．．Ｓ}に対して、重み付け加算処理を実行することで、コンテキスト状態データｃ（ｔ）を取得する。そして、コンテキスト算出部１０は、取得したコンテキスト状態データｃ（ｔ）をデコーダ部５Ｂのデコーダ側ＬＳＴＭ層５２Ｂに出力する。

デコーダ部５Ｂは、第１実施形態のデコーダ部５において、デコーダ側ＬＳＴＭ層５２をデコーダ側ＬＳＴＭ層５２Ｂに置換した構成を有している。それ以外は、デコーダ部５Ｂは、第１実施形態のデコーダ部５と同様である。

デコーダ側ＬＳＴＭ層５２Ｂは、デコーダ側ＬＳＴＭ層５２と同様の機能を有している。デコーダ側ＬＳＴＭ層５２Ｂは、デコーダ側プレネット処理部５１から、現時刻ｔにおいて出力されるデータＤｙ２（これをデータＤｙ２（ｔ）と表記する）と、１つ前の時間ステップにおいて、デコーダ側ＬＳＴＭ層５２Ｂから出力されたデータＤｙ３（これをデータＤｙ３（ｔ－１）と表記する）と、コンテキスト算出部１０から出力される時刻ｔのコンテキスト状態データｃ（ｔ）とを入力する。

デコーダ側ＬＳＴＭ層５２Ｂは、入力されたデータＤｙ２（ｔ）、データＤｙ３（ｔ－１）、および、コンテキスト状態データｃ（ｔ）を用いて、ＬＳＴＭ層による処理を実行し、処理後のデータをデータＤｙ３（データＤｙ３（ｔ））として線形予測部５３に出力する。また、デコーダ側ＬＳＴＭ層５２Ｂは、データＤｙ３（ｔ）、すなわち、時刻ｔの出力側隠れ状態データｈｏ（ｔ）をアテンション部４Ａに出力する。

＜３．２：音声合成処理装置の動作＞
以上のように構成された音声合成処理装置３００の動作について以下説明する。

図１０～図１２は、アテンション部４Ａにより取得された重み付け係数データｗ_ａｔｔ（ｔ）と、強制アテンション部８により取得された重み付け係数データｗ_ｆ（ｔ）とから取得した合成重み付け係数データｗ（ｔ）を用いてコンテキスト状態データｃ（ｔ）を取得する処理について説明するための図である。

（３．２．１：学習処理）
まず、音声合成処理装置３００による学習処理について、説明する。なお、説明便宜のため、処理対象言語を日本語として、以下、説明する。

そして、音素継続長推定部７は、音素継続長推定処理により取得（推定）した音素継続長のデータをデータＤｘ０２として、強制アテンション部８に出力する。

フルコンテキストラベルベクトル処理部２Ａは、テキスト解析部１Ａから出力されるデータＤｘ１（フルコンテキストラベルのデータ）から、sequence-to-sequence方式のニューラルネットワークのモデルの学習処理に適したフルコンテキストラベルデータを取得するためのフルコンテキストラベルベクトル処理（第１実施形態と同様のフルコンテキストラベルベクトル処理）を実行する。そして、フルコンテキストラベルベクトル処理部２Ａは、フルコンテキストラベルベクトル処理により取得したデータをデータＤｘ２（最適化フルコンテキストラベルデータＤｘ２）として、エンコーダ部３のエンコーダ側プレネット処理部３１に出力する。

エンコーダ側ＬＳＴＭ層３２は、エンコーダ側プレネット処理部３１から、現時刻ｔにおいて出力されるデータＤｘ３（ｔ）と、１つ前の時間ステップにおいて、エンコーダ側ＬＳＴＭ層３２から出力されたデータＤｘ４（ｔ－１）とを入力する。そして、エンコーダ側ＬＳＴＭ層３２は、入力されたデータＤｘ３（ｔ）、データＤｘ４（ｔ－１）に対して、ＬＳＴＭ層による処理を実行し、処理後のデータをデータＤｘ４（データＤｘ４（ｔ）（＝入力側隠れ状態データｈｉ（ｔ）））としてアテンション部４Ａに出力する。

アテンション部４Ａは、エンコーダ部３から出力されるデータＤｘ４と、デコーダ部５Ｂのデコーダ側ＬＳＴＭ層５２Ｂから出力されるデータｈo（出力側隠れ状態データｈo）とを入力する。アテンション部４Ａは、エンコーダ部３から出力されるデータＤｘ４、すなわち、入力側隠れ状態データｈｉを所定の時間ステップ分記憶保持する。例えば、アテンション部４Ａは、時間ステップｔ＝１からｔ＝Ｓ（Ｓ：自然数）の期間において、エンコーダ部３により取得され、アテンション部４Ａに出力されたデータＤｘ４（＝ｈｉ）の集合を、ｈｉ_{１．．．Ｓ}（＝｛Ｄｘ４（１），Ｄｘ４（２），・・・，Ｄｘ４（Ｓ）｝）として記憶保持する。

また、アテンション部４Ａは、デコーダ部５Ｂのデコーダ側ＬＳＴＭ層５２Ｂから出力されるデータＤｙ３、すなわち、出力側隠れ状態データｈｏを所定の時間ステップ分記憶保持する。例えば、アテンション部４Ａは、時間ステップｔ＝１からｔ＝Ｔ（Ｔ：自然数）の期間において、デコーダ側ＬＳＴＭ層５２Ｂにより取得され、アテンション部４Ａに出力されたデータＤｙ３（＝ｈｏ）の集合を、ｈｏ_{１．．．Ｔ}（＝｛Ｄｙ３（１），Ｄｙ３（２），・・・，Ｄｙ３（Ｔ）｝）として記憶保持する。

そして、アテンション部４Ａは、入力側隠れ状態データの集合データｈｉ_{１．．．Ｓ}と、出力側隠れ状態データの集合データｈｏ_{１．．．Ｔ}と、に基づいて、例えば、
ｗ_ａｔｔ（ｔ）_{１．．．Ｓ}＝ｆ２＿ａｔｔｎ（ｈｉ_{１．．．Ｓ}，ｈｏ_{１．．．Ｔ}）
ｆ２＿ａｔｔｎ（）：重み付け係数データを取得する関数
に相当する処理を実行して、現時刻ｔの重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}を取得する。

そして、アテンション部４Ａは、取得した重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}を内分処理部９に出力する。また、アテンション部４Ａは、データＤｘ４（＝ｈｉ）の集合データｈｉ_{１．．．Ｓ}をコンテキスト算出部１０に出力する。

強制アテンション部８は、音素継続長データＤｘ０２に対応する音素についてのエンコーダ部３により処理されたデータが出力されるとき、当該音素の推定された音素継続長（音素継続長データＤｘ０２）に相当する期間、重み付け係数を強制的に所定の値（例えば、「１」）にした重み付け係数データｗ_ｆ（ｔ）を生成する。そして、強制アテンション部８は、入力側隠れ状態データの集合データｈｉ_{１．．．Ｓ}の各要素データに対する重み付け係数データと対応づけるために（内分処理ができるようにするために）、時刻ｔを中心として、Ｓ個にデータを拡張（同一データを複製して拡張）した重み付け係数データｗ_ｆ（ｔ）_{１．．．Ｓ}を生成する。

内分処理部９は、アテンション部４Ａから出力される重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}と、強制アテンション部８から出力される重み付け係数データｗ_ｆ（ｔ）_{１．．．Ｓ}とを入力する。そして、内分処理部９は、重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}と、重み付け係数データｗ_ｆ（ｔ）_{１．．．Ｓ}とに対して、内分処理を実行することで、合成重み付け係数データｗ（ｔ）を取得する。具体的には、内分処理部９は、
ｗ（ｔ）_{１．．．Ｓ}＝（１－α）×ｗ_ａｔｔ（ｔ）_{１．．．Ｓ}＋α×ｗ_ｆ（ｔ）_{１．．．Ｓ}
０≦α≦１
に相当する処理を実行することで、合成重み付け係数データｗ（ｔ）_{１．．．Ｓ}を取得する。そして、内分処理部９は、取得した合成重み付け係数データｗ（ｔ）_{１．．．Ｓ}をコンテキスト算出部１０に出力する。

なお、学習処理時において、内分比αを「０」に固定してもよい。この場合（内分比αを「０」に固定した場合）、音声合成処理装置３００では、第１実施形態と同様の構成により学習処理が実行されることになる。また、学習処理時において、内分比αを所定の値（例えば、０．５）に固定して、音声合成処理装置３００において、学習処理を実行してもよい。

ここで、学習処理時において、内分比αを所定の値に固定する場合について、図１０～図１２を用いて説明する。なお、説明便宜のため、内分比αを「０．５」に固定する場合について、説明する。以下では、（１）音素に対応する音声が出力される期間内の処理（図１１の場合）と、（２）無音状態である期間内の処理（図１２の場合）とについて説明する。

まず、「（１）音素に対応する音声が出力される期間内の処理（図１１の場合）」について、説明する。

例えば、図１０に示すように、入力データＤｉｎが「今日の天気は．．．」である場合、データＤｘ０１に含まれる各音素のデータを、
（１）ｐｈ_０＝「ｋ」、（２）ｐｈ_１＝「ｙ」、（３）ｐｈ_２＝「ｏｕ」、（４）ｐｈ_３＝「ｎ」、（５）ｐｈ_０４＝「ｏ」、（６）ｐｈ_ｓｉｌ＝無音状態、（７）ｐｈ_５＝「ｔ」、（８）ｐｈ_６＝「ｅ」、（９）ｐｈ_０７＝「ｎ」、・・・
とし、音素ｐｈ_ｋ（ｋ：整数）の推定された音素継続長をｄｕｒ（ｐｈ_ｋ）とすると、音素継続長推定部７は、音素ｐｈ_ｋ（ｋ：整数）のコンテキストラベルを用いて、音素継続長推定処理を実行することで、音素ｐｈ_ｋの推定された音素継続長ｄｕｒ（ｐｈ_ｋ）を取得する。例えば、上記の各音素（音素ｐｈ_ｋ）について、音素継続長推定部７により取得（推定）された音素継続長ｄｕｒ（ｐｈ_ｋ）が、図１０に示す時間の長さ（継続長）を有するものとする。

強制アテンション部８は、音素継続長データＤｘ０２に対応する音素についてのエンコーダ部３により処理されたデータが出力されるとき、当該音素の推定された音素継続長（音素継続長データＤｘ０２）に相当する期間、重み付け係数を強制的に所定の値（例えば、「１」）にした重み付け係数データｗ_ｆ（ｔ）を生成する。図１０の場合、強制アテンション部８は、音素ｐｈ_ｋについてのエンコーダ部３により処理されたデータが出力されるとき、音素ｐｈ_ｋの音素継続長ｄｕｒ（ｐｈ_ｋ）に相当する期間、重み付け係数を強制的に所定の値（例えば、「１」）にした重み付け係数データｗ_ｆ（ｔ）を内分処理部９に出力し続ける（図１０において、ｗ_ｆ（ｔ）［ｐｈ_ｋ］と表記した部分に相当）。

また、図１０において、処理対象の音素に対応付けて、アテンション部４Ａにより取得された重み付け係数データｗ_ａｔｔ（ｔ）を示している。具体的には、図１０において、音素ｐｈ_ｋに対応する、アテンション部４Ａにより取得された重み付け係数データｗ_ａｔｔ（ｔ）が出力される期間を「ｗ_ａｔｔ（ｔ）［ｐｈ_ｋ］」として示している。なお、説明便宜のため、図１０では、アテンション部４Ａによる音素継続長の予測が正しくなされた場合を示している。

また、図１０において、音素ｐｈ_ｋに対応する合成重み付け係数データｗ（ｔ）を「ｗ（ｔ）［ｐｈ_ｋ］」として示している。

図１１は、時刻ｔ２（時間ステップｔ２）における処理を説明するための図であり、図１０において処理対象音素が「ｏｕ」であるときの期間の一部を時間軸方向に拡大して示した図である。なお、説明便宜のため、音声合成処理装置３００において、データＤｘ４（＝ｈｉ）の集合データｈｉ_{１．．．Ｓ}は、９個のデータ（すなわち、Ｓ＝９）（図１１において、期間Ｔ（ｔ２）において取得され、記憶保持されているデータ）であるものとする（以下、同様）。

ここで、時刻ｔ２における処理について、説明する。

強制アテンション部８は、時刻ｔ２において、音素継続長Ｄｘ０２から、音素「ｏｕ」に相当する音声が出力継続される期間であることを認識し、時刻ｔ２の重み付け係数データｗ_ｆ（ｔ）を「１」に設定する。さらに、強制アテンション部８は、入力側隠れ状態データの集合データｈｉ_{１．．．Ｓ}の各要素データに対する重み付け係数データと対応づけるために（内分処理ができるようにするために）、時刻ｔ２を中心として、Ｓ（＝９）個にデータを拡張（同一データを複製して拡張）した重み付け係数データｗ_ｆ（ｔ）_{１．．．Ｓ}を生成する。なお、ｗ_ｆ（ｔ）_{１．．．Ｓ}は、
ｗ_ｆ（ｔ）_{１．．．Ｓ}＝｛ｗ_０１，ｗ_０２，ｗ_０３，ｗ_０４，ｗ_０５，ｗ_０６，ｗ_０７，ｗ_０８，ｗ_０９｝
０≦ｗ_０ｊ≦１（１≦ｊ≦Ｓ）
ｔ＝ｔ２
であるものとし、ｗ_ｆ（ｔ２）_{１．．．Ｓ}において、ｗ_０１～ｗ_０９は、すべて「１」に設定される（図１１参照）。

強制アテンション部８は、上記により生成した重み付け係数データｗ_ｆ（ｔ２）_{１．．．Ｓ}を内分処理部９に出力する。

アテンション部４Ａは、入力側隠れ状態データの集合データｈｉ_{１．．．Ｓ}と、出力側隠れ状態データの集合データｈｏ_{１．．．Ｔ}と、に基づいて、例えば、
ｗ_ａｔｔ（ｔ）_{１．．．Ｓ}＝ｆ２＿ａｔｔｎ（ｈｉ_{１．．．Ｓ}，ｈｏ_{１．．．Ｔ}）
ｆ２＿ａｔｔｎ（）：重み付け係数データを取得する関数
に相当する処理を実行して、時刻ｔ２の重み付け係数データｗ_ａｔｔ（ｔ２）_{１．．．Ｓ}を取得する。時刻ｔ２の重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}が図１１に示すデータ（一例）であるものとする。なお、ｗ_ａｔｔ（ｔ）_{１．．．Ｓ}は、
ｗ_ａｔｔ（ｔ）_{１．．．Ｓ}＝｛ｗ_１１，ｗ_１２，ｗ_１３，ｗ_１４，ｗ_１５，ｗ_１６，ｗ_１７，ｗ_１８，ｗ_１９｝
０≦ｗ_１ｊ≦１（１≦ｊ≦Ｓ）
ｔ＝ｔ２
であるものとし、ｗ_１１～ｗ_１９は、例えば、アテンション部４Ａにより、以下の値として、取得されたものとする（図１１参照）。
ｗ_１１＝０．０、ｗ_１２＝０．２、ｗ_１３＝０．４、ｗ_１４＝０．８、ｗ_１５＝１．０
ｗ_１６＝０．８、ｗ_１７＝０．４、ｗ_１８＝０．２、ｗ_１９＝０．０
アテンション部４Ａは、上記により取得された重み付け係数データｗ_ａｔｔ（ｔ２）_{１．．．Ｓ}を内分処理部９に出力する。

内分処理部９は、アテンション部４Ａから出力される重み付け係数データｗ_ａｔｔ（ｔ２）_{１．．．Ｓ}と、強制アテンション部８から出力される重み付け係数データｗ_ｆ（ｔ２）_{１．．．Ｓ}とを入力する。そして、内分処理部９は、重み付け係数データｗ_ａｔｔ（ｔ２）_{１．．．Ｓ}と、重み付け係数データｗ_ｆ（ｔ２）_{１．．．Ｓ}とに対して、内分処理を実行することで、合成重み付け係数データｗ（ｔ２）_{１．．．Ｓ}を取得する。具体的には、内分処理部９は、
ｗ（ｔ２）_{１．．．Ｓ}＝（１－α）×ｗ_ａｔｔ（ｔ２）_{１．．．Ｓ}＋α×ｗ_ｆ（ｔ２）_{１．．．Ｓ}
０≦α≦１
に相当する処理を実行することで、合成重み付け係数データｗ（ｔ２）_{１．．．Ｓ}を取得する。

ここでは、α＝０．５であるので、ｗ_ａｔｔ（ｔ２）_{１．．．Ｓ}と、ｗ_ｆ（ｔ２）_{１．．．Ｓ}との平均値が合成重み付け係数データｗ（ｔ）_{１．．．Ｓ}となる。なお、ｗ（ｔ）_{１．．．Ｓ}は、
ｗ（ｔ）_{１．．．Ｓ}＝｛ｗ_１，ｗ_２，ｗ_３，ｗ_４，ｗ_５，ｗ_６，ｗ_７，ｗ_８，ｗ_９｝
０≦ｗ_１ｊ≦１（１≦ｊ≦Ｓ）
ｔ＝ｔ２
であるものとすると、ｗ_１～ｗ_９は、内分処理部９により、以下の値として、取得される（図１１参照）。
ｗ_１＝０．５×ｗ_０１＋０．５×ｗ_１１＝０．５＋０＝０．５
ｗ_２＝０．５×ｗ_０２＋０．５×ｗ_１２＝０．５＋０．１＝０．６
ｗ_３＝０．５×ｗ_０３＋０．５×ｗ_１３＝０．５＋０．２＝０．７
ｗ_４＝０．５×ｗ_０４＋０．５×ｗ_１４＝０．５＋０．４＝０．９
ｗ_５＝０．５×ｗ_０５＋０．５×ｗ_１５＝０．５＋０．５＝１．０
ｗ_６＝０．５×ｗ_０６＋０．５×ｗ_１６＝０．５＋０．４＝０．９
ｗ_７＝０．５×ｗ_０７＋０．５×ｗ_１７＝０．５＋０．２＝０．７
ｗ_８＝０．５×ｗ_０８＋０．５×ｗ_１８＝０．５＋０．１＝０．６
ｗ_９＝０．５×ｗ_０９＋０．５×ｗ_１９＝０．５＋０＝０．５
そして、内分処理部９は、取得した合成重み付け係数データｗ（ｔ２）_{１．．．Ｓ}をコンテキスト算出部１０に出力する。

コンテキスト算出部１０は、アテンション部４Ａから出力されるデータＤｘ４（＝ｈｉ）の集合データｈｉ_{１．．．Ｓ}と、内分処理部９から出力される合成重み付け係数データｗ（ｔ２）_{１．．．Ｓ}とを入力する。そして、コンテキスト算出部１０は、合成重み付け係数データｗ（ｔ２）_{１．．．Ｓ}に基づいて、データＤｘ４（＝ｈｉ）の集合データｈｉ_{１．．．Ｓ}に対して、重み付け加算処理を実行することで、コンテキスト状態データｃ（ｔ）を取得する。つまり、コンテキスト算出部１０は、以下の数式に相当する処理を実行することで、コンテキスト状態データｃ（ｔ）を取得する。

ｔ＝ｔ２
ｗ_ｊ：合成重み付け係数データｗ（ｔ２）_{１．．．Ｓ}のｊ番目の要素データ（１≦ｊ≦Ｓ）
そして、コンテキスト算出部１０は、取得したコンテキスト状態データｃ（ｔ２）をデコーダ部５Ｂのデコーダ側ＬＳＴＭ層５２Ｂに出力する。

次に、「（２）無音状態である期間内の処理（図１２の場合）」について、説明する。

図１２は、時刻ｔ３（時間ステップｔ３）における処理を説明するための図であり、図１０において無音状態の期間（図１０において、「ｓｉｌｅｎｔ（無音状態）」で示した期間）の一部を時間軸方向に拡大して示した図である。

ここで、時刻ｔ３における処理について、説明する。

強制アテンション部８は、時刻ｔ３において、音素継続長Ｄｘ０２から、無音状態（発声すべき音素がない状態）の期間であることを認識し、時刻ｔ３の重み付け係数データｗ_ｆ（ｔ）を「０」に設定する。さらに、強制アテンション部８は、入力側隠れ状態データの集合データｈｉ_{１．．．Ｓ}の各要素データに対する重み付け係数データと対応づけるために（内分処理ができるようにするために）、時刻ｔ２を中心として、Ｓ（＝９）個にデータを拡張（同一データを複製して拡張）した重み付け係数データｗ_ｆ（ｔ）_{１．．．Ｓ}を生成する。なお、ｗ_ｆ（ｔ）_{１．．．Ｓ}は、
ｗ_ｆ（ｔ）_{１．．．Ｓ}＝｛ｗ_０１，ｗ_０２，ｗ_０３，ｗ_０４，ｗ_０５，ｗ_０６，ｗ_０７，ｗ_０８，ｗ_０９｝
０≦ｗ_０ｊ≦１（１≦ｊ≦Ｓ）
ｔ＝ｔ２
であるものとし、ｗ_ｆ（ｔ３）_{１．．．Ｓ}において、ｗ_０１～ｗ_０９は、すべて「０」に設定される（図１２参照）。

強制アテンション部８は、上記により生成した重み付け係数データｗ_ｆ（ｔ３）_{１．．．Ｓ}を内分処理部９に出力する。

アテンション部４Ａは、入力側隠れ状態データの集合データｈｉ_{１．．．Ｓ}と、出力側隠れ状態データの集合データｈｏ_{１．．．Ｔ}と、に基づいて、例えば、
ｗ_ａｔｔ（ｔ）_{１．．．Ｓ}＝ｆ２＿ａｔｔｎ（ｈｉ_{１．．．Ｓ}，ｈｏ_{１．．．Ｔ}）
ｆ２＿ａｔｔｎ（）：重み付け係数データを取得する関数
に相当する処理を実行して、時刻ｔ３の重み付け係数データｗ_ａｔｔ（ｔ３）_{１．．．Ｓ}を取得する。時刻ｔ３の重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}が図１２に示すデータ（一例）であるものとする。なお、ｗ_ａｔｔ（ｔ）_{１．．．Ｓ}は、
ｗ_ａｔｔ（ｔ）_{１．．．Ｓ}＝｛ｗ_１１，ｗ_１２，ｗ_１３，ｗ_１４，ｗ_１５，ｗ_１６，ｗ_１７，ｗ_１８，ｗ_１９｝
０≦ｗ_１ｊ≦１（１≦ｊ≦Ｓ）
ｔ＝ｔ２
であるものとし、ｗ_１１～ｗ_１９は、例えば、アテンション部４Ａにより、すべて値が「０」として、取得されたものとする（図１２参照）。

アテンション部４Ａは、上記により取得された重み付け係数データｗ_ａｔｔ（ｔ３）_{１．．．Ｓ}を内分処理部９に出力する。

内分処理部９は、アテンション部４Ａから出力される重み付け係数データｗ_ａｔｔ（ｔ３）_{１．．．Ｓ}と、強制アテンション部８から出力される重み付け係数データｗ_ｆ（ｔ３）_{１．．．Ｓ}とを入力する。そして、内分処理部９は、重み付け係数データｗ_ａｔｔ（ｔ３）_{１．．．Ｓ}と、重み付け係数データｗ_ｆ（ｔ３）_{１．．．Ｓ}とに対して、内分処理を実行することで、合成重み付け係数データｗ（ｔ３）_{１．．．Ｓ}を取得する。具体的には、内分処理部９は、
ｗ（ｔ３）_{１．．．Ｓ}＝（１－α）×ｗ_ａｔｔ（ｔ３）_{１．．．Ｓ}＋α×ｗ_ｆ（ｔ３）_{１．．．Ｓ}
０≦α≦１
に相当する処理を実行することで、合成重み付け係数データｗ（ｔ３）_{１．．．Ｓ}を取得する。

ここでは、α＝０．５であるので、ｗ_ａｔｔ（ｔ３）_{１．．．Ｓ}と、ｗ_ｆ（ｔ３）_{１．．．Ｓ}との平均値が合成重み付け係数データｗ（ｔ）_{１．．．Ｓ}となる。なお、ｗ（ｔ）_{１．．．Ｓ}は、
ｗ（ｔ）_{１．．．Ｓ}＝｛ｗ_１，ｗ_２，ｗ_３，ｗ_４，ｗ_５，ｗ_６，ｗ_７，ｗ_８，ｗ_９｝
０≦ｗ_１ｊ≦１（１≦ｊ≦Ｓ）
ｔ＝ｔ２
であるものとすると、ｗ_１～ｗ_９は、内分処理部９により、すべて値が「０」として、取得される（図１２参照）。

そして、内分処理部９は、取得した合成重み付け係数データｗ（ｔ２）_{１．．．Ｓ}をコンテキスト算出部１０に出力する。

コンテキスト算出部１０は、アテンション部４Ａから出力されるデータＤｘ４（＝ｈｉ）の集合データｈｉ_{１．．．Ｓ}と、内分処理部９から出力される合成重み付け係数データｗ（ｔ３）_{１．．．Ｓ}とを入力する。そして、コンテキスト算出部１０は、合成重み付け係数データｗ（ｔ２）_{１．．．Ｓ}に基づいて、データＤｘ４（＝ｈｉ）の集合データｈｉ_{１．．．Ｓ}に対して、重み付け加算処理を実行することで、コンテキスト状態データｃ（ｔ）を取得する。つまり、コンテキスト算出部１０は、以下の数式に相当する処理を実行することで、コンテキスト状態データｃ（ｔ）を取得する。

ｔ＝ｔ２
ｗ_ｊ：合成重み付け係数データｗ（ｔ３）_{１．．．Ｓ}のｊ番目の要素データ（１≦ｊ≦Ｓ）
そして、コンテキスト算出部１０は、取得したコンテキスト状態データｃ（ｔ３）をデコーダ部５Ｂのデコーダ側ＬＳＴＭ層５２Ｂに出力する。

図１２の場合、無音状態であるので、アテンション部４Ａ、および、強制アテンション部８により取得される重み付け係数データがすべて０であるので、コンテキスト状態データｃ（ｔ３）も「０」となる。つまり、上記により、無音状態であることを適切に示すコンテキスト状態データｃ（ｔ３）が取得される。

上記のように取得されたコンテキスト状態データｃ（ｔ）がデコーダ部５Ｂのデコーダ側ＬＳＴＭ層５２Ｂに出力される。

デコーダ側プレネット処理部５１での処理は、第１実施形態と同様である。

デコーダ側ＬＳＴＭ層５２Ｂは、デコーダ側プレネット処理部５１から、現時刻ｔにおいて出力されるデータＤｙ２（ｔ）と、１つ前の時間ステップにおいて、デコーダ側ＬＳＴＭ層５２から出力されたデータＤｙ３（ｔ－１）と、コンテキスト算出部１０から出力される時刻ｔのコンテキスト状態データｃ（ｔ）とを入力する。

デコーダ側ＬＳＴＭ層５２Ａは、入力されたデータＤｙ２（ｔ）、データＤｙ３（ｔ－１）、および、コンテキスト状態データｃ（ｔ）を用いて、ＬＳＴＭ層による処理を実行し、処理後のデータをデータＤｙ３（ｔ）として線形予測部５３に出力する。
線形予測部５３、ポストネット処理部５４、および、加算器５５では、第１実施形態と同様の処理が実行される。

そして、音声合成処理装置２００では、上記のように取得されたデータＤｙ６（予測メルスペクトログラムのデータ）と、テキストデータＤｉｎに対応するメルスペクトログラム（音響特徴量）の教師データ（正解のメルスペクトログラム）とを比較し、両者の差（比較結果）（例えば、差分ベクトルのノルムやユークリッド距離により表現する差）が小さくなるように、エンコーダ部３、デコーダ部５Ｂのニューラルネットワークのモデルのパラメータを更新する。音声合成処理装置１００では、このパラメータ更新処理を繰り返し実行し、データＤｙ６（予測メルスペクトログラムのデータ）と、テキストデータＤｉｎに対応するメルスペクトログラム（音響特徴量）の教師データ（正解のメルスペクトログラム）との差が十分小さくなる（所定の誤差範囲におさまる）、ニューラルネットワークのモデルのパラメータを最適化パラメータとして取得する。

音声合成処理装置３００では、上記のようにして取得した最適化パラメータに基づいて、エンコーダ部３、デコーダ部５Ｂのニューラルネットワークのモデルの各層に含まれるシナプス間の結合係数（重み係数）を設定することで、エンコーダ部３、デコーダ部５Ａのニューラルネットワークのモデルを最適化モデル（学習済みモデル）とすることができる。

以上により、音声合成処理装置３００において、入力をテキストデータとし、出力をメルスペクトログラムとするニューラルネットワークの学習済みモデル（最適化モデル）を構築できる。

なお、音声合成処理装置３００において、第１実施形態の音声合成処理装置１００における学習処理により取得したニューラルネットワークの学習済みモデル（最適化モデル）を用いてもよい。つまり、音声合成処理装置２００において、第１実施形態の音声合成処理装置１００における学習処理により取得したニューラルネットワークの学習済みモデルのエンコーダ部３およびデコーダ部５の最適パラメータを用いて、音声合成処理装置２００のエンコーダ部３およびデコーダ部５Ｂのパラメータを設定することで、音声合成処理装置３００において、学習済みモデルを構築するようにしてもよい。

なお、音声合成処理装置３００において、（１）エンコーダ部３、デコーダ部５Ｂの学習処理と、（２）ボコーダ６の学習処理とを連携させて学習処理を実行してもよいし、上記のように、個別に学習処理を実行してもよい。音声合成処理装置３００において、（１）エンコーダ部３、デコーダ部５Ｂの学習処理と、（２）ボコーダ６の学習処理とを連携させて学習処理を実行する場合、入力をテキストデータとし、当該テキストデータに対応する音声波形データ（正解の音声波形データ）とを用いて、（１）エンコーダ部３、デコーダ部５Ｂのニューラルネットワークのモデルと、（２）ボコーダ６のニューラルネットワークのモデルの最適化パラメータを取得することで学習処理を実行すればよい。

（３．２．２：予測処理）
次に、音声合成処理装置３００による予測処理について、説明する。なお、予測処理においても、説明便宜のため、処理対象言語を日本語として、以下、説明する。

予測処理を実行する場合、音声合成処理装置３００では、上記の学習処理により取得された学習済みモデル、すなわち、エンコーダ部３、デコーダ部５Ｂのニューラルネットワークの最適化モデル（最適化パラメータが設定されているモデル）、および、ボコーダ６のニューラルネットワークの最適化モデル（最適化パラメータが設定されているモデル）が構築されている。そして、音声合成処理装置３００では、当該学習済みモデルを用いて予測処理が実行される。

そして、取得されたフルコンテキストラベルデータＤｘ１は、テキスト解析部１Ａからフルコンテキストラベルベクトル処理部２に出力される。

そして、音素継続長推定部７は、音素継続長推定処理により取得（推定）した音素継続長のデータ（図８の場合、ｄｕｒ（ｐｈ_ｋ））をデータＤｘ０２として、強制アテンション部８に出力する。

エンコーダ部３では、第１実施形態と同様の処理が実行される。

デコーダ側ＬＳＴＭ層５２Ｂは、入力されたデータＤｙ２（ｔ）、データＤｙ３（ｔ－１）、および、コンテキスト状態データｃ（ｔ）を用いて、ＬＳＴＭ層による処理を実行し、処理後のデータをデータＤｙ３（ｔ）として線形予測部５３に出力する。

線形予測部５３、ポストネット処理部５４、および、加算器５５では、第１実施形態と同様の処理が実行される。

ボコーダ６は、デコーダ部５Ｂの加算器５５から出力されるデータＤｙ６（予測メルスペクトログラムのデータ（音響特徴量のデータ））を入力とし、入力されたデータＤｙ６に対して、学習済みモデルを用いたニューラルネットワーク処理による音声合成処理を実行し、データＤｙ６（予測メルスペクトログラム）に対応する音声信号波形データを取得する。そして、ボコーダ６は、取得した音声信号波形データを、データＤｏｕｔとして出力する。

このように、音声合成処理装置３００では、入力されたテキストデータＤｉｎに対応する音声波形データＤｏｕｔを取得することができる。

音声合成処理装置３００では、図１０～図１２を用いて説明したのと同様に、予測処理時においても、アテンション部４Ａにより取得された重み付け係数データｗ_ａｔｔ（ｔ）と、強制アテンション部８により取得された重み付け係数データｗ_ｆ（ｔ）とを内分処理により合成した重み付け係数データを用いて、コンテキスト状態データｃ（ｔ）を生成する。そして、音声合成処理装置３００では、上記のようにして生成されたコンテキスト状態データｃ（ｔ）を用いて、デコーダ部５Ｂ、ボコーダ６による処理が実行されるため、注意機構予測が失敗することに起因する、合成発話が途中で止まってしまう、同じフレーズを何回も繰り返してしまう、等の問題が発生することを適切に防止できる。

例えば、図１３に示すように、時刻ｔ２においての処理で、注意機構の予測が失敗している場合、すなわち、図１３に示すように、アテンション部４により取得された重み付け係数データが「０」（あるいは所定の値以下）である場合（ｗ_ａｔｔ（ｔ）_{１．．．Ｓ}のすべての要素データの値が「０」（あるいは所定の値以下）である場合）であっても、音声合成処理装置３００では、強制アテンション部８により取得された重み付け係数データｗ_ｆ（ｔ）の重みにより、注意機構の予測の失敗が音声合成処理に影響を及ぼさないようにできる合成重み付け係数データｗ（ｔ）_{１．．．Ｓ}を取得することができる（図１３の場合。合成重み付け係数データｗ（ｔ）_{１．．．Ｓ}の各要素データの値は、すべて「０．５」）。

このように、音声合成処理装置３００では、音素継続長については、安定して音素継続長を適切に推定することができる、隠れマルコフモデル等のモデルを用いた推定処理（音素継続長推定部７による処理）により取得した音素継続長を用いて処理することで、音素継続長の予測精度を保証する。つまり、音声合成処理装置３００では、安定して音素継続長を適切に推定することができる、隠れマルコフモデル等のモデルを用いた推定処理（音素継続長推定部７による処理）により取得した音素継続長を用いて強制アテンション部８により取得した重み付け係数データと、アテンション部４Ａにより取得された重み付け係数データとを適度に合成した重み付け係数データにより生成したコンテキスト状態データｃ（ｔ）を用いて予測処理を実行する。したがって、音声合成処理装置３００では、注意機構の予測が失敗する場合（アテンション部４により適切な重み付け係数データが取得できない場合）であっても、強制アテンション部８により取得した重み付け係数データによる重み分の重み付け係数データが取得できるため、注意機構の予測の失敗が音声合成処理に影響を及ぼさないようにできる。

さらに、音声合成処理装置３００では、音響特徴量については、sequence-to-sequence方式を用いたニューラルネットワークのモデルで処理することにより取得できるので、高精度な音響特徴量の予測処理が実現できる。

したがって、音声合成処理装置３００では、注意機構予測が失敗することに起因する、合成発話が途中で止まってしまう、同じフレーズを何回も繰り返してしまう、等の問題が発生することを適切に防止するとともに、高精度な音声合成処理を実行することができる。

なお、上記では、内分比αを固定値（例えば、０．５）に設定した場合について、説明したが、これに限定されることはなく、内分比αは動的に更新されるものであってもよい。例えば、内分処理部９において、アテンション部４Ａから入力される重み付け係数データｗ_ａｔｔ（ｔ）_{１．．．Ｓ}が所定の期間、継続して、所定の値よりも小さい、あるいは、略０であり、かつ、強制アテンション部８から入力される重み付け係数データｗ_ｆ（ｔ）_{１．．．Ｓ}が「１」である場合、アテンション部４による処理が失敗している（注意機構予測が失敗している）と判定し、αの値をより大きな値（重み付け係数データｗ_ｆ（ｔ）_{１．．．Ｓ}の重みが大きくなる値）に調整（更新）するようにしてもよい。

また、音声合成処理装置３００において、エンコーダ部３、デコーダ部５は、上記の構成に限定されるものではなく、他の構成のものであってよい。例えば、下記文献Ａに開示されているトランスフォーマーモデルのアーキテクチャによるエンコーダ、デコーダの構成を採用して、エンコーダ部３、デコーダ部５を構成するようにしてもよい。この場合、トランスフォーマーモデルのアーキテクチャによるエンコーダとデコーダの間に設置されるアテンション機構を、本実施形態で説明した機構、すなわち、アテンション部４、強制アテンション部８、内分処理部９、コンテキスト算出部１０により、アテンション機構が取得した重み付け係数データと、強制アテンション部８が取得した重み付け係数データとを内分処理により合成し、合成した重み付け係数データによりコンテキスト状態データを取得する機構に置換する構成を採用すればよい。
（文献Ａ）：A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, AN. Gomez, L. Kaiser, I. Polosukhin, “Attention is all you need”31^st Conference on Nural information Processing System (NIPS 2017), Long Beach, CA, USA.
［他の実施形態］
上記実施形態（変形例を含む）の音声合成処理装置において、エンコーダ側ＬＳＴＭ層３２、デコーダ側ＬＳＴＭ層５２は、それぞれ、複数のＬＳＴＭ層を備えるものであってもよい。また、エンコーダ側ＬＳＴＭ層３２、デコーダ側ＬＳＴＭ層５２は、それぞれ、双方向ＬＳＴＭ層（順伝搬、逆伝搬をＬＳＴＭ層）で構成されるものであってもよい。

また、上記実施形態（変形例を含む）では、音声合成処理装置が、テキスト解析部１と、フルコンテキストラベルベクトル処理部２とを備え、テキスト解析部１で取得したフルコンテキストラベルデータから、フルコンテキストラベルベクトル処理部２により、最適化フルコンテキストラベルデータを取得する場合について説明したが、これに限定されることはなく、例えば、音声合成処理装置において、最適化フルコンテキストラベルデータを取得する、テキスト解析部を設け、フルコンテキストラベルベクトル処理部を省略する構成としてもよい。

また、上記実施形態（変形例を含む）を適宜組み合わせてもよい。

また上記実施形態（変形例を含む）で説明した音声合成処理装置において、各ブロックは、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部または全部を含むように１チップ化されても良い。

なおここではＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

また上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

また上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらにソフトウェアおよびハードウェアの混在処理により実現しても良い。

例えば上記実施形態の各機能部をソフトウェアにより実現する場合、図１４に示したハードウェア構成（例えばＣＰＵ、ＧＰＵ、ＲＯＭ、ＲＡＭ、入力部、出力部、通信部、記憶部（例えば、ＨＤＤ、ＳＳＤ等により実現される記憶部）、外部メディア用ドライブ等をバスＢｕｓにより接続したハードウェア構成）を用いて各機能部をソフトウェア処理により実現するようにしてもよい。

また上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図１４に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。

また上記実施形態における処理方法の実行順序は、必ずしも上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。

前述した方法をコンピュータに実行させるコンピュータプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここでコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

上記コンピュータプログラムは、上記記録媒体に記録されたものに限らず、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

なお本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

１００、２００、３００音声合成処理装置
１テキスト解析部
２、２Ａフルコンテキストラベルベクトル処理部
３エンコーダ部
４、４Ａアテンション部
５デコーダ部
６ボコーダ
７音素継続長推定部
８強制アテンション部
９内分処理部
１０コンテキスト算出部

Claims

任意の言語を処理対象言語とし、エンコーダ・デコーダ方式のニューラルネットワークを用いて音声合成処理を実行する音声合成処理装置であって、
前記処理対象言語のテキストデータに対してテキスト解析処理を実行し、コンテキストラベルデータを取得するテキスト解析部と、
前記テキスト解析部により取得された前記コンテキストラベルデータから、コンテキストラベルデータを取得する処理において処理対象とされた音素である単独音素についてのコンテキストラベルを取得することで、前記ニューラルネットワークの学習処理に適した最適化フルコンテキストラベルデータを取得するフルコンテキストラベルベクトル処理部と、
前記最適化フルコンテキストラベルデータに基づいて、ニューラルネットワークのエンコード処理を実行することで、隠れ状態データを取得するエンコーダ部と、
前記隠れ状態データに基づいて、ニューラルネットワークのデコード処理を実行することで、前記最適化フルコンテキストラベルデータに対応する音響特徴量データを取得するデコーダ部と、
前記デコーダ部により取得された音響特徴量から音声波形データを取得するボコーダと、
を備える音声合成処理装置。
前記音響特徴量は、メルスペクトログラムのデータである、
請求項１に記載の音声合成処理装置。
前記ボコーダは、
ニューラルネットワークのモデルを用いた処理を実行することで、音響特徴量から音声波形データを取得する、
請求項１または２に記載の音声合成処理装置。
前記ボコーダは、
可逆変換ネットワークにより構成されたニューラルネットワークのモデルを用いた処理を実行することで、音響特徴量から音声波形データを取得する、
請求項３に記載の音声合成処理装置。
音素単位のコンテキストラベルデータから音素継続長を推定する音素継続長推定部をさらに備え、
前記フルコンテキストラベルベクトル処理部は、前記音素継続長推定部により推定された音素継続長である推定音素継続長に対応する期間において、当該推定音素継続長に対応する音素の前記最適化フルコンテキストラベルデータを継続して前記エンコーダ部に出力する、
請求項１から４のいずれかに記載の音声合成処理装置。
任意の言語を処理対象言語とし、エンコーダ・デコーダ方式のニューラルネットワークを用いて音声合成処理を実行する音声合成処理方法であって、
前記処理対象言語のテキストデータに対してテキスト解析処理を実行し、コンテキストラベルデータを取得するテキスト解析ステップと、
前記テキスト解析ステップにより取得された前記コンテキストラベルデータから、コンテキストラベルデータを取得する処理において処理対象とされた音素である単独音素についてのコンテキストラベルを取得することで、前記ニューラルネットワークの学習処理に適した最適化フルコンテキストラベルデータを取得するフルコンテキストラベルベクトル処理ステップと、
前記最適化フルコンテキストラベルデータに基づいて、ニューラルネットワークのエンコード処理を実行することで、隠れ状態データを取得するエンコード処理ステップと、
前記隠れ状態データに基づいて、ニューラルネットワークのデコード処理を実行することで、前記最適化フルコンテキストラベルデータに対応する音響特徴量データを取得するデコード処理ステップと、
前記デコード処理ステップにより取得された音響特徴量から音声波形データを取得するボコーダ処理ステップと、
を備える音声合成処理方法。
請求項６に記載の音声合成処理方法をコンピュータに実行させるためのプログラム。
任意の言語を処理対象言語とし、エンコーダ・デコーダ方式のニューラルネットワークを用いて音声合成処理を実行する音声合成処理装置であって、
前記処理対象言語のテキストデータに対してテキスト解析処理を実行し、コンテキストラベルデータを取得するテキスト解析部と、
前記テキスト解析部により取得された前記コンテキストラベルデータから、コンテキストラベルデータを取得する処理において処理対象とされた音素である単独音素についてのコンテキストラベルを取得することで、前記ニューラルネットワークの学習処理に適した最適化フルコンテキストラベルデータを取得するフルコンテキストラベルベクトル処理部と、
前記最適化フルコンテキストラベルデータに基づいて、ニューラルネットワークのエンコード処理を実行することで、隠れ状態データを取得するエンコーダ部と、
音素単位のコンテキストラベルデータから音素継続長を推定する音素継続長推定部と、
前記音素継続長推定部により推定された音素継続長に基づいて、第１重み付け係数データを取得する強制アテンション部と、
前記エンコーダ部により取得された隠れ状態データに基づいて、第２重み付け係数データを取得するアテンション部と、
前記第１重み付け係数データと第２重み付け係数データとに対して内分処理を行うことで、合成重み付け係数データを取得する内分処理部と、
前記合成重み付け係数データにより、前記エンコーダ部により取得された前記隠れ状態データに対して重み付け合成処理を実行することで、コンテキスト状態データを取得するコンテキスト算出部と、
前記コンテキスト状態データに基づいて、ニューラルネットワークのデコード処理を実行することで、前記最適化フルコンテキストラベルデータに対応する音響特徴量データを取得するデコーダ部と、
前記デコーダ部により取得された音響特徴量から音声波形データを取得するボコーダと、
を備える音声合成処理装置。