JP7336135B2

JP7336135B2 - 音声合成装置

Info

Publication number: JP7336135B2
Application number: JP2019149823A
Authority: JP
Inventors: 裕介安田; 集平加藤; 順一山岸
Original assignee: Inter University Research Institute Corp Research Organization of Information and Systems
Current assignee: Inter University Research Institute Corp Research Organization of Information and Systems
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2023-08-31
Anticipated expiration: 2039-08-19
Also published as: JP2021032937A

Description

本発明は、一般に音声合成技術に関し、より詳細には、ニューラルネットワークを利用したエンコーダ－デコーダ型音声合成技術に関する。

従来の音声合成では、テキスト解析処理、音韻継続長決定（アライメント）処理、音響処理、ボコーダ処理などの個別の各処理をパイプライン処理として実行することによって、テキスト入力から音声出力が生成される。例えば、図１に示されるように、変換対象のテキスト系列が入力されると、言語モデルが当該テキスト系列を言語特徴量に変換し、次に、アライメントモデルが当該言語特徴量をアライメントされた言語特徴量に変換する。さらに、音響モデルが当該アライメントされた言語特徴量を音響特徴量に変換し、最終的に、ボコーダが当該音響特徴量から音声系列を出力する。しかしながら、上述したような従来の音声合成では、前段の処理におけるエラーが後段の処理に増幅し、音声合成の品質を劣化させるという問題がある。

一方、近年の深層学習の進展によって、ニューラルネットワークを利用した音声合成システムの研究開発が進められている。従来の音声合成における問題を解消するため、例えば、Ｅｎｄ－ｔｏ－Ｅｎｄタイプのエンコーダ－デコーダ型の音声合成に関する研究開発が盛んにされている。典型的なエンコーダ－デコーダ型の音声合成では、従来の音声合成におけるテキスト解析処理、アライメント処理、音響処理及びボコーダ処理の個別処理がニューラルネットワークによって実現される。例えば、図２に示されるように、テキスト解析処理、アライメント処理、音響処理及びボコーダ処理はそれぞれ、エンコーダニューラルネットワーク、アテンション機構、デコーダニューラルネットワーク及びボコーダニューラルネットワークによって実現される。

ここで、アテンション機構は、テキスト入力の各文字又は音素と音声との時間的対応関係を示すアライメントを決定するニューラルネットワークにより実現される。例えば、アテンション機構は、図３の上側に示されるようなテキスト入力の各音素と音声出力との時間的対応関係を決定する。例えば、５０番目の音素は、１００～１２５番目の時間フレームにおいて出力されるようアテンション機構によって決定される。図示された具体例では、各音素と時間フレームとの対応付けにグレースケールにより示される確率が関連付けされている。このようにして、アテンション機構によってアライメントが予測されると、図３の下側に示されるように、テキスト入力に対応する音声出力の周波数表現を予測することができる。

Jose Sotelo, Soroush Mehri, Kundan Kumar, Joao Felipe Santos, Kyle Kastner, Aaron Courville, Yoshua Bengio, "Char2Wav: End-to-End Speech Synthesis", ICLR 2017 (https://openreview.net/forum?id=B1VWyySKx). Yuxuan Wang, R. J. Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc V. Le, Yannis Agiomyrgiannakis, Rob Clark, Rif A. Saurous, "Tacotron: Towards End-to-End Speech Synthesis", INTERSPEECH 2017: 4006-4010 (https://arxiv.org/abs/1703.10135).

しかしながら、上述したアテンション機構の学習は容易でなく失敗するケースもある。すなわち、テキスト入力と対応する音声出力との対応位置は、基本的には時間の経過に従って前進する一方、アテンション機構では、各時点でテキスト入力のどの部分を発話するかについて任意の確率が割り当てられるというフレキシブルな構成となっている。このようなフレキシビリティのため、確率分布が不明瞭になったり、単調増加にならなかったりすることがあり、これらの場合、例えば、言いよどみ、読み飛ばし、読み戻し、遅すぎる又は早すぎる読み終わりが発生するなど、アテンション機構の学習は失敗する。

例えば、言いよどみでは、図４（ａ）に示されるように、複数の入力部分が同時に発話される。読み飛ばしでは、図４（ｂ）に示されるように、垂直方向に関するギャップ部分がアライメントに出現し、発話されない入力部分が発生する。読み戻しでは、図４（ｃ）に示されるように、既に発話された入力部分が再度発話される。早すぎる読み終わりでは、図４（ｄ）の左側に示されるように、時間軸の途中で入力系列の全てが発話されてしまい、遅すぎる読み終わりでは、図４（ｄ）の右側に示されるように、最終時間フレームまでに全ての入力系列の発話が完了しない。

上述した問題点を鑑み、本発明の課題は、エンコーダ－デコーダ型音声合成に適したアライメント技術を提供することである。

上記課題を解決するため、本発明の一態様は、エンコーダニューラルネットワークによってテキスト系列から言語特徴量を生成するエンコーダと、デコーダニューラルネットワークによって前記言語特徴量から音声系列を生成するデコーダと、を有し、前記デコーダは、第１のデコーダニューラルネットワークによって前記言語特徴量から遷移確率を予測する遷移確率予測部と、第２のデコーダニューラルネットワークによって前記言語特徴量から音響特徴量の出力確率を予測する出力確率予測部と、前記遷移確率と前記出力確率とを掛け合わせた同時確率に基づき前記音声系列を連続時系列として生成する音声系列生成部と、を有し、前記第２のデコーダニューラルネットワークは、ジャコビアンが存在する可逆なニューラルネットワークであり、前記出力確率予測部は、前記第２のデコーダニューラルネットワークによって周波数スペクトルを無相関化及び低次元化する音声合成装置に関する。

本発明によると、エンコーダ－デコーダ型音声合成に適したアライメント技術を提供することができる。

従来の音声合成処理を示す概略図である。Ｅｎｄ－ｔｏ－Ｅｎｄエンコーダ－デコーダ型音声合成処理を示す概略図である。アテンション機構によるテキスト入力と音声出力との間のアライメントを示す図である。アテンション機構による各種失敗例を示す図である。本発明の一実施例による音声合成装置の機能構成を示すブロック図である。本発明の一実施例による音声合成装置のハードウェア構成を示すブロック図である。本発明の一実施例によるエンコーダニューラルネットワークのアーキテクチャを示す図である。本発明の一実施例によるＳＳＮＴによるアライメントを示す概略図である。本発明の一実施例による音声合成装置のアーキテクチャを示す図である。本発明の一実施例による音声合成装置の学習時のデータフローを示す概略図である。本発明の一実施例による音声合成装置の推論時のデータフローを示す概略図である。本発明の一実施例による実験結果を示す図である。本発明の他の実施例による音声合成装置のアーキテクチャを示す図である。本発明の一実施例による実験結果を示す図である。本発明の一実施例による実験結果を示す図である。本発明の一実施例による実験結果を示す図である。本発明の一実施例による実験結果を示す図である。本発明の一実施例による実験結果を示す図である。

以下の実施例では、ＳＳＮＴ（Ｓｅｇｍｅｎｔ－ｔｏ－ＳｅｇｍｅｎｔＮｅｕｒａｌＴｒａｎｓｄｕｃｔｉｏｎ）ベースアライメント機構を備えた音声合成装置が開示される。
［概略］
本発明の実施例による音声合成装置は、テキスト入力を言語特徴量に変換するエンコーダと、言語特徴量から音声出力を生成するデコーダとを備えることによって、Ｅｎｄ－ｔｏ－Ｅｎｄタイプのエンコーダ－デコーダ型音声合成を実現する。ここで、エンコーダ及びデコーダはニューラルネットワークとして実現され、デコーダは、エンコーダから取得した言語特徴量から音声の出力確率を予測するニューラルネットワークと、言語特徴量からテキスト入力の各文字又は音素と音声又は周波数スペクトルとの間のアライメントに関する遷移確率を予測するニューラルネットワークとから構成される。

本発明によるＳＳＮＴベースアライメント機構は、Lei Yu, Jan Buys and Phil Blunsom, "Online Segment to Segment Neural Transduction" Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing", pages 1307-1316, Austin, Texas, November 1-5, 2016（以降、Leiと呼ぶ）におけるＳＳＮＴに基づくものであるが、Leiでは、ＳＳＮＴは、離散時系列である入力情報と離散時系列である出力情報との時間的対応関係を予測する一方、本発明によるＳＳＮＴベースアライメント機構は、離散時系列であるテキスト入力と連続時系列である音声出力との時間的対応関係を予測する。このようなＳＳＮＴベースアライメント機構を実現するため、音声出力確率を予測するニューラルネットワークは、周波数スペクトルに対して無相関化及び低次元化を実行することが可能なジャコビアンが存在する可逆なニューラルネットワークとして実現される。
［音声合成装置］
まず、図５～１２を参照して、本発明の一実施例による音声合成装置を説明する。図５は、本発明の一実施例による音声合成装置の機能構成を示すブロック図である。

図５に示されるように、音声合成装置１００は、エンコーダ１１０及びデコーダ１２０を有し、また、デコーダ１２０は、遷移確率予測部１２１、出力確率予測部１２２及び音声系列生成部１２３を有する。

ここで、音声合成装置１００は、例えば、図６に示されるように、CPU (Central Processing unit)、GPU (Graphics Processing Unit)などのプロセッサ１０１、RAM (Random Access Memory)、フラッシュメモリなどのメモリ１０２、ハードディスク１０３及び入出力(I/O)インタフェース１０４によるハードウェア構成を有してもよい。

プロセッサ１０１は、音声合成装置１００の各種処理を実行する。

メモリ１０２は、音声合成装置１００における各種データ及びプログラムを格納し、特に作業用データ、実行中のプログラムなどのためのワーキングメモリとして機能する。具体的には、メモリ１０２は、ハードディスク１０３からロードされた後述される各種ニューラルネットワークを実現するプログラム、各種処理を実行及び制御するためのプログラムなどを格納し、プロセッサ１０１によるプログラムの実行中にワーキングメモリとして機能する。

ハードディスク１０３は、音声合成装置１００における各種データ及びプログラムを格納する。

I/Oインタフェース１０４は、ユーザからの命令、入力データなどを受け付け、出力結果を表示、再生などすると共に、外部装置との間でデータを入出力するためのインタフェースである。例えば、I/Oインタフェース１０４は、USB (Universal Serial Bus)、通信回線、キーボード、マウス、ディスプレイ、マイクロフォン、スピーカなどの各種データを入出力するためのデバイスである。

しかしながら、本発明による音声合成装置１００は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。例えば、音声合成装置１００による各種処理の１つ以上は、これを実現するよう配線化された処理回路又は電子回路により実現されてもよい。

エンコーダ１１０は、エンコーダニューラルネットワークによってテキスト系列から言語特徴量を生成する。例えば、エンコーダ１１０は、図７に示されるようなＣＢＨＧ（１－Ｄｃｏｎｖｏｌｕｔｉｏｎｂａｎｋ＋ｈｉｇｈｗａｙｎｅｔｗｏｒｋ＋ｂｉｄｉｒｅｃｔｉｏｎａｌＧＲＵ）構造のエンコーダニューラルネットワークを有してもよく、当該エンコーダニューラルネットワークによって、入力されたテキスト系列を言語特徴量に変換する。しかしながら、本発明によるエンコーダ１１０は、当該ＣＢＨＧ構造に限定されるものでなく、テキスト系列から言語特徴量を生成する他の何れか適切なニューラルネットワーク構造を有してもよい。エンコーダ１１０は、エンコーダニューラルネットワークによって生成された言語特徴量をデコーダ１２０にわたす。

デコーダ１２０は、デコーダニューラルネットワークによって言語特徴量から音声系列を生成する。ここで、デコーダニューラルネットワークは、遷移確率予測部１２１、出力確率予測部１２２及び音声系列生成部１２３における後述される各種ニューラルネットワークによって構成される。

遷移確率予測部１２１は、アライメント予測ニューラルネットワークによって言語特徴量から遷移確率を予測する。アライメント予測ニューラルネットワークは、LeiによるＳＳＮＴ（ＳｅｇｍｅｎｔｔｏＳｅｇｍｅｎｔＮｅｕｒａｌＴｒａｎｓｄｕｃｔｉｏｎ）ベースアライメント機構を有し、遷移確率予測部１２１は、アライメント予測ニューラルネットワークによって、現在の状態に留まるか（Ｅｍｉｔ）、又は次の状態に遷移するか（Ｓｈｉｆｔ）に関する遷移確率を予測する。

例えば、図８に示されるように、テキスト列"ｆｕｋｕｓｕｕｎｏ"に対して、アライメント予測ニューラルネットワークは、Ｓｈｉｆｔ，Ｓｈｉｆｔ，Ｓｈｉｆｔ，Ｓｈｉｆｔ，Ｅｍｉｔ，Ｓｈｉｆｔ，Ｓｈｉｆｔ，Ｅｍｉｔを予測し、図示されるようなパスによりテキスト列と時間フレームとの対応関係を予測する。すなわち、アライメントの前進は各時間フレームについて１回のみであり、最後の入力に到達したとき、遷移確率予測部１２１は、当該アライメント予測（○で記された位置）を終了する。

このようなＳＳＮＴベースアライメント機構の性質から理解されるように、アテンション機構による言いよどみ、読み飛ばし、読み戻し、早すぎるもしくは遅すぎる読み終わりなどの問題は、ＳＳＮＴベースアライメント機構では発生しない。

出力確率予測部１２２は、音響予測ニューラルネットワークによって言語特徴量から音響特徴量の候補を予測し、その出力確率を計算する。音声信号は、周波数スペクトル空間では、連続かつ非常に高次元空間の情報であり、ニューラルネットワークの学習が容易には行えない。しかし、ジャコビアンが存在する可逆なニューラルネットワークを利用することで、連続かつ高次元空間の元々の関係を保ったまま、周波数スペクトルを低次元空間に変換し、その低次元空間でニューラルネットワークの演算、学習や予測、および確率計算を行うことが可能になる。それゆえ、出力確率予測部１２２は、ジャコビアンが存在する可逆なニューラルネットワークにより実現される。

一実施例では、音響予測ニューラルネットワークは、Ｇｌｏｗ（ＧｅｎｅｒａｔｉｖｅＦｌｏｗ）構造を有してもよい。Ｇｌｏｗ構造は、Diederik P. Kingma, Prafulla Dhariwal, "Glow: Generative Flow with Invertible 1x1 Convolutions", arXiv: 1807.03039v2, July 10, 2018に開示され、逆変換可能であって、ジャコビアンが計算可能なニューラルネットワークを実現する。Ｇｌｏｗ構造によって、高次元かつ連続値である周波数スペクトルを低次元化および次元間の相関を少なくすることができる。Ｇｌｏｗ構造とは、可逆な１×１の畳み込み層とアファインカップリング層とから構成されるニューラルネットワーク構造である。これらの構造は厳密な逆変換関数を数学的に定義することが可能である特殊なネットワークである。ニューラルネットワークの学習時にはこれらの層を何層も重ね繰り返し演算を行うことで、段階的に周波数スペクトルの次元および相関を減らし、最終的には正規分布に近づける処理を行う。ニューラルネットワークを利用して予測を行う際には、１×１の畳み込み層とアファインカップリング層の逆変換関数を利用し、低次元の正規分布から段階的に次元を増やしていき、最終的には高次元の周波数スペクトルの候補を生成する。学習時および予測時ともに低次元空間における正規分布を利用し、出力確率を計算する。

音声系列生成部１２３は、遷移確率と出力確率とを掛け合わせた同時確率に基づき音声系列を連続時系列として生成する。まず、出力確率予測部１２２に従って各時刻の周波数スペクトル候補が複数生成され、つぎに、遷移確率予測部１２１に従って遷移確率の候補が複数生成され、それぞれの確率値も保存される。音声系列生成部１２３では、これらの確率を掛け合わせ、発話全体の確率を考慮し、複数の候補の中で最も確率の高いパターンを選び出すことで、各入力に対応する音が何れの時間フレームで発話されるべきか決定することができ、テキスト入力に対応する音声出力を生成することができる。

一実施例では、音声合成装置１００は、図９に示されるようなニューラルネットワーク構造により実現されてもよい。図示されるように、エンコーダ１１０は、全文字又は音素系列全体を入力として取得し、当該文字又は音素をＰｒｅ－ｎｅｔ及びＣＢＨＧに入力し、取得した言語特徴量をデコーダ１２０にわたす。

デコーダ１２０は、エンコーダ１１０から取得した言語特徴量を、一つ前の時刻においてサンプリング等により予測された周波数スペクトルからＰｒｅ－ｎｅｔ及びＬＳＴＭを介し取得した情報と連接し、連接の結果として取得した中間表現をＦＦＮ（ＦｅｅｄｆｏｒｗａｒｄＮｅｕｒａｌＮｅｔｗｏｒｋ）及びｔａｎｈに入力する。そして、デコーダ１２０は、ｔａｎｈから出力された情報をＧｌｏｗ構造とＦＦＮ及びｓｉｇｍｏｉｄとの双方に入力し、次の時刻の周波数スペクトルの複数候補とその出力確率、および、遷移確率をそれぞれ取得する。図９に示されるように、遷移確率については、ＥｍｉｔとＳｈｉｆｔとの２つの状態について確率が予測され、出力確率については、正規分布により確率が予測される。他の分布を利用しても良い。

周波数スペクトルのサンプリング結果は、次の時点における予測のためにＰｒｅ－ｎｅｔ及びＬＳＴＭに再び入力され、上述した処理が以降において繰り返される。すなわち、デコーダ１２０は、再帰構造を有するニューラルネットワークにより実現され、言語特徴量と過去の音声系列とから生成された中間表現が、アライメント予測ニューラルネットワークと音響予測ニューラルネットワークとに入力される。なお、１番目のフレームおいては過去の情報を使わずに周波数スペクトル、出力確率および遷移確率の予測を行う。

そして、音声系列生成部１２３は、再帰的に処理された遷移確率と出力確率に基づき、発話全体の確率を考慮し、発話全体で最も確率の高いパターンを探索し、テキスト入力に対応する音声出力を生成することができる。この探索はbeam探索法により実現されても良い。

上述した処理がテキスト入力全体に対して実行され、最終的に生成された音声系列と訓練データの音声系列とが比較され、これらの誤差もしくは尤度に応じてエンコーダ１１０及びデコーダ１２０のニューラルネットワークのパラメータが更新される。例えば、用意された訓練データの全てに対して上述した学習処理が実行された後、最終的に獲得されたニューラルネットワークによって、音声合成装置１００のニューラルネットワーク構造が構成される。

例えば、図９に示されるようなデコーダ１２０のニューラルネットワーク構造の学習処理は、図１０に示されるようなデータフローによって学習されうる。すなわち、テキスト系列と対応する音声系列とのペアから構成される訓練データに対して、訓練データのテキスト系列からエンコーダ１１０によって変換された言語特徴量が、直前のサンプリング結果と連接され、連接の結果として取得した中間表現がアライメント予測ニューラルネットワーク（ｃ）と音響予測ニューラルネットワーク（ｆ）の逆関数とに入力される。ここで、音響予測ニューラルネットワークは、上述したように、ジャコビアンが存在する可逆な複数のＧｌｏｗ構造を含み、各時刻の周波数スペクトル（ｔ）は段階的に低次元化される。ＰはＰｒｅ－ｎｅｔを表し、ｕはＬＳＴＭ－ＲＮＮを表す。

そして、アライメント予測ニューラルネットワークから遷移確率（ａ）が出力され、音響予測ニューラルネットワークから正規分布Ｎ（０，Ｉ）に従う出力確率が出力され、遷移確率と出力確率との同時確率がこれらを掛け合わせることで計算される。分散Ｉは学習を行う前に決める値である。

一方、このようにして学習されたニューラルネットワーク構造による音声合成時には、図１１に示されるデータフローによって実行される。テキスト入力からエンコーダ１１０によって変換された言語特徴量が、直前のサンプリング結果と連接され、連接の結果として取得した中間表現がアライメント予測ニューラルネットワーク（ｃ）と音響予測ニューラルネットワーク（ｆ）とに入力される。ここで、音響予測ニューラルネットワークは、上述したように、ジャコビアンが存在する可逆な複数のＧｌｏｗ構造を含み、低次元の正規分布から段階的に次元を増やしていき、最終的には高次元の周波数スペクトルの候補が生成される。

そして、アライメント予測ニューラルネットワークから遷移確率（ａ）が出力され、正規分布Ｎ（０，Ｉ）と言語特徴量とから音響予測ニューラルネットワークによって当該時間周波数スペクトル（ｔ）が出力される。そして、決定された周波数スペクトルが次の言語特徴量との連接のため、フィードバックされる。上述した処理がテキスト入力全体に対して実行され、最終的に音声系列が生成される。すなわち、学習済みのニューラルネットワークの逆変換を利用して、白色雑音から音声の周波数スペクトルの生成が行われる。

図１２には、日本語の女性話者がテキストを通常の読み上げにより発話し、発話の音声系列から構成されるテキスト入力と音声系列とのペアの訓練データを利用して学習された音声合成装置１００（ＳＳＮＴ）と、アテンション機構を利用したＴａｃｏｔｒｏｎベースの音声合成装置との比較結果が示されている。ＴａｃｏｔｒｏｎとＳＳＮＴとの予測結果及び正解から理解されるように、ＳＳＮＴの予測結果は正解とほぼ同様の音声系列となり、また、Ｔａｃｏｔｒｏｎともほぼ同様な音声系列を出力可能である。
［適用例］
次に、図１３～１８を参照して、音声合成装置１００の落語音声への適用例を説明する。具体的には、音声合成装置１００への入力として、真打の落語家に古典落語２５演目を演じてもらい、演じられた音声をスタジオにて録音し、音素表記によるテキスト入力と録音された音声系列とによって、音声合成装置１００のニューラルネットワークを学習した。落語では、ひとりで何役も演じ、通常の発話とは異なる調子で発話が行われるなどの独自の特徴がある。

本適用例では、音素のみ、音素＋登場人物のラベル、音素＋登場人物およびその他のコンテキストラベル、及び音素＋データから学習した登場人物のラベルの４パターンを入力として与えることを行った。登場人物のラベルは「男，女；子供，若者，壮年，老人；武士，職人，商人，その他町人，田舎者，その他方言，現代人」という情報である。その他のコンテキストラベルには「呆れ，怒り，息切れ，苛立ち，驚き，悲しみ，恐怖，興奮等」の登場人物の状態や「独り言，目上，目下」等の登場人物の話し相手との関係性のラベルも含めた。データから学習した登場人物のラベルとしては、Style tokenにより推定されても良い。Style token構造は、Yuxuan Wang, Daisy Stanton, Yu Zhang, RJ Skerry-Ryan, Eric Battenberg, Joel Shor, Ying Xiao, Fei Ren, Ye Jia, Rif A. Saurous, "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis", arXiv: 1803.09017, August 13, 2018に開示され、参照音声から発話スタイルの情報を表した潜在変数を抽出する方法である。

例えば、音素＋登場人物およびその他のコンテキストラベルが入力として与えられた場合、音素とコンテキストラベルとは、図１３に示されるようなニューラルネットワーク構造によってエンコーダ１１０に与えられてもよい。他方、音素＋データから学習した登場人物のラベルが入力として与える場合、Style tokenは、先行技術と同様に、図１３に示されるマルチヘッドアテンションにより構成されるスタイルトークンレイヤ、および、２次元コンボリューションニューラルネットワーク（ｃｏｎｖ２Ｄ）およびＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ（ＧＲＵ）により構成されるリファレンスエンコーダによって処理されてもよい。

図１４に示されるように、Ｔａｃｏｔｒｏｎでは、アライメント及び予測結果から学習に失敗したことがわかるが、ＳＳＮＴでは、予測結果は正解とほぼ同様のものとなり、適切な学習が行われたとかわる。

また、図１５では、学習に失敗したアライメントの割合のパーセンテージが示され、４種類の入力の何れのケースでも、ＳＳＮＴは有意にＴａｃｏｔｏｒｏｎより学習に成功していることがわかる。

さらに、リスナによる主観的評価を行ったところ、音声品質については、図１６に示されるように、ＳＳＮＴによる合成結果は、Ｔａｃｏｔｒｏｎによる合成結果より高品質であったと評価された。また、役の区別については、図１７に示されるように、ＳＳＮＴによる合成結果は、Ｔａｃｏｔｒｏｎによる合成結果より良好に識別できたと評価された。また、話しの理解度については、図１８に示されるように、ＳＳＮＴによる合成結果は、Ｔａｃｏｔｒｏｎによる合成結果より理解度が高かったと評価された。

以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００音声合成装置
１１０エンコーダ
１２０デコーダ
１２１遷移確率予測部
１２２出力確率予測部
１２３音声系列生成部

Claims

エンコーダニューラルネットワークによってテキスト系列から言語特徴量を生成するエンコーダと、
デコーダニューラルネットワークによって前記言語特徴量から音声系列を生成するデコーダと、
を有し、
前記デコーダは、
第１のデコーダニューラルネットワークによって前記言語特徴量から現在の状態に留まるか又は次の状態に遷移するかに関する遷移確率を予測する遷移確率予測部と、
第２のデコーダニューラルネットワークによって前記言語特徴量から音響特徴量の出力確率を予測する出力確率予測部と、
前記遷移確率と前記出力確率とを掛け合わせた同時確率に基づき前記音声系列を連続時系列として生成する音声系列生成部と、
を有し、
前記第２のデコーダニューラルネットワークは、ジャコビアンが存在する可逆なニューラルネットワークであり、
前記出力確率予測部は、前記第２のデコーダニューラルネットワークによって周波数スペクトルを低次元化し、周波数スペクトルの次元間の相関を無相関化する音声合成装置。
前記第２のデコーダニューラルネットワークは、Ｇｌｏｗ（ＧｅｎｅｒａｔｉｖｅＦｌｏｗ）構造を有する、請求項１記載の音声合成装置。
前記第１のデコーダニューラルネットワークは、ＳＳＮＴ（ＳｅｇｍｅｎｔｔｏＳｅｇｍｅｎｔＮｅｕｒａｌＴｒａｎｓｄｕｃｔｉｏｎ）ベースアライメント機構を有し、
前記遷移確率予測部は、前記第１のデコーダニューラルネットワークによって、現在の状態に留まるか、又は次の状態に遷移するかに関する前記遷移確率を予測する、請求項１又は２記載の音声合成装置。
前記デコーダニューラルネットワークは、再帰構造を有し、前記言語特徴量と過去の音声系列とから生成された中間表現を前記遷移確率予測部と前記出力確率予測部とに入力し、
前記第１のデコーダニューラルネットワークは、前記中間表現から前記遷移確率を予測し、
前記第２のデコーダニューラルネットワークは、前記中間表現から前記音響特徴量の出力確率を予測する、請求項１乃至３何れか一項記載の音声合成装置。