JP2021067885A

JP2021067885A - 音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム

Info

Publication number: JP2021067885A
Application number: JP2019194609A
Authority: JP
Inventors: 大和大谷; Yamato Otani; 悟行松永; Noriyuki Matsunaga; 平井　啓之; Hiroyuki Hirai; 啓之平井; 戸田　智基; Tomoki Toda; 智基戸田; ウーイーチャオ; Yi-Chiao Wu; ルンバン，トビンパトリック; Lumban Tobing Patrick
Original assignee: AI Co Ltd; Tokai National Higher Education and Research System NUC
Current assignee: AI Co Ltd; Tokai National Higher Education and Research System NUC
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-04-30

Abstract

【課題】ニューラルボコーダが生成する音声波形の品質を高め、高品質な音声合成技術を提供する。【解決手段】２段階の学習処理を行ってから、ニューラルボコーダによる音声合成処理を行う。第１段階の学習処理は、音響量特徴変換モデルの学習に関する。この段階では、Ｓ２Ｎ変換モデル及びＮ２Ｓ変換モデルを循環的に同時に学習（更新）する。また、これらの変換モデルの学習に際し、同じコーパスを用いているため、自然音響特徴量と合成音響特徴量の長さは同じである。第２段階の学習処理は、ニューラルボコーダの学習に関する。第１段階で学習したＮ２Ｓ変換モデル及びＳ２Ｎ変換モデルを用いて、自然音響特徴量からＮ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成し、ニューラルボコーダの学習に用いる。【選択図】図１

Description

本発明の実施形態は、入力テキストに応じた音声を合成する音声合成技術に関する。

より高品質な合成音声を得るためには、合成音響特徴量から自然な音声波形を直接生成するニューラルボコーダが必要である。

特許文献１は、機械学習用の入力音声に対する予測量子化と自己回帰モデルを組み合わせることで、合成音声に生じる聴覚上のノイズを低減させる音声合成技術が開示されている。予測量子化は、入力音声信号を予測係数と残差信号に分離する。予測係数は声道フィルタを示すパラメータに相当し、残差信号は励振源に相当する。また、残差信号を推定する際に、Ｗａｖｅｎｅｔと呼ばれる、入力テキストの言語特徴量を表すコンテキストラベル系列から音声信号を直接的に推定する手法を用いている。この手法によって、自然音響特徴量から音声波形を直接生成するボコーダを生成する技術も開示している。

また、非特許文献１は、より高品質な声質変換技術を実現するために、循環的な学習を行うことが開示されている。声質変換技術とは、ある特定の話者が発声した音声に対して、発話内容を保持しつつ、あたかも別の特定の話者が発声した音声に聞こえるように変換する技術である。

特開２０１８−１４１９１７号公報Ｔｏｂｉｎｇｅｔａｌ．、ＶＯＩＣＥＣＯＮＶＥＲＳＩＯＮＷＩＴＨＣＹＣＬＩＣＲＥＣＵＲＲＥＮＴＮＥＵＲＡＬＮＥＴＷＯＲＫＡＮＤＦＩＮＥ−ＴＵＮＥＤＷＡＶＥＮＥＴＶＯＣＯＤＥＲ、ＤａｔｅＡｄｄｅｄｔｏＩＥＥＥＸｐｌｏｒｅ：１７Ａｐｒｉｌ２０１９、ｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．１１０９／ＩＣＡＳＳＰ．２０１９．８６８２１５６

しかしながら、ニューラルボコーダの学習において、音響モデルの特徴量と自然音声との間で時間的な構造のミスマッチが存在することが知られている。そのため、学習されたニューラルボコーダから生成される波形の品質が低いという問題がある。これにより、ニューラルボコーダの学習では自然音声の音響特徴量を用いて学習されるが、合成時には音響モデルの特徴量を入力するため、音響的なミスマッチが生じ波形の品質が低くなる問題がある。

本発明は、このような課題に着目して鋭意研究され完成されたものであり、その目的は、ニューラルボコーダが生成する音声波形の品質を高め、高品質な音声合成技術を提供することにある。

上記課題を解決するために、第１の発明は、複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパス記憶部と、ある言語特徴量からある合成音響特徴量を予測するための予測モデルを記憶する予測モデル記憶部と、ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを記憶するＮ２Ｓ変換モデル記憶部と、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを記憶するＳ２Ｎ変換モデル記憶部と、前記言語特徴量を入力とし、前記予測モデルを用いて合成音響特徴量を予測する合成音響特徴量予測部と、前記合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＳ２Ｎ合成音響特徴量を生成する第１のＳ２Ｎ処理部と、前記自然音響特徴量と前記Ｓ２Ｎ合成音響特徴量に関する第１の誤差を計算する第１の誤差計算部と、前記自然音響特徴量を入力とし、前記Ｎ２Ｓ変換モデルを用いてＮ２Ｓ合成音響特徴量を生成する第１のＮ２Ｓ処理部と、前記Ｎ２Ｓ合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＮ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成する第２のＳ２Ｎ処理部と、前記自然音響特徴量と前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量に関する第２の誤差を計算する第２の誤差計算部と、前記第１の誤差及び前記第２の誤差を足した損失に所定の最適化を行い、前記Ｓ２Ｎ変換モデル及び前記Ｎ２Ｓ変換モデルを更新する変換モデル更新部を備える音響特徴量変換モデル学習装置である。

第２の発明は、前記合成音響特徴量予測部、前記Ｓ２Ｎ処理部、第１の誤差計算部、前記第１のＮ２Ｓ処理部、前記第２のＳ２Ｎ処理部、前記第２の誤差計算部、及び、前記変換モデル更新部は、フレーム単位で実行する第１の発明に記載の音響特徴量変換モデル学習装置である。

第３の発明は、複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパスから、前記言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測するための予測モデルを用いて合成音響特徴量を予測し、前記合成音響特徴量を入力とし、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いてＳ２Ｎ合成音響特徴量を生成し、前記自然音響特徴量と前記Ｓ２Ｎ合成音響特徴量に関する第１の誤差を計算し、前記自然音響特徴量を入力とし、ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを用いてＮ２Ｓ合成音響特徴量を生成し、前記Ｎ２Ｓ合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＮ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成し、前記自然音響特徴量と前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量に関する第２の誤差を計算し、前記第１の誤差及び前記第２の誤差を足した損失に所定の最適化を行い、前記Ｓ２Ｎ変換モデル及び前記Ｎ２Ｓ変換モデルを更新する音響特徴量変換モデル学習方法である。

第４の発明は、複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパスから、前記言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測するための予測モデルを用いて合成音響特徴量を予測するステップと、前記合成音響特徴量を入力とし、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いてＳ２Ｎ合成音響特徴量を生成するステップと、前記自然音響特徴量と前記Ｓ２Ｎ合成音響特徴量に関する第１の誤差を計算するステップと、前記自然音響特徴量を入力とし、ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを用いてＮ２Ｓ合成音響特徴量を生成するステップと、前記Ｎ２Ｓ合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＮ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成するステップと、前記自然音響特徴量と前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量に関する第２の誤差を計算するステップと、前記第１の誤差及び前記第２の誤差を足した損失に所定の最適化を行い、前記Ｓ２Ｎ変換モデル及び前記Ｎ２Ｓ変換モデルを更新するステップと、をコンピュータに実行させる音響特徴量変換モデル学習プログラムである。

第５の発明は、複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパス記憶部と、第１の発明に記載の音響特徴量変換モデル学習装置で学習した、ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを記憶するＮ２Ｓ変換モデル記憶部と、第１の発明に記載の音響特徴量変換モデル学習装置で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを記憶するＳ２Ｎ変換モデル記憶部と、ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを記憶するニューラルボコーダ記憶部と、前記自然音響特徴量を入力とし、前記Ｎ２Ｓ変換モデルを用いてＮ２Ｓ合成音響特徴量を生成するＮ２Ｓ処理部と、前記Ｎ２Ｓ合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＮ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成するＳ２Ｎ処理部と、前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量、前記自然音響特徴量、及び、少なくとも１サンプル以上前の複数の自然音声波形を入力とし、前記ニューラルボコーダを用いて合成音声波形を生成する波形合成処理部と、前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新する誤差計算ボコーダ更新部を備えるニューラルボコーダ学習装置である。

第６の発明は、複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパスから、前記自然音響特徴量を入力とし、第３の発明に記載の音響特徴量変換モデル学習方法で学習した、ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを用いて、Ｎ２Ｓ合成音響特徴量を生成し、前記Ｎ２Ｓ合成音響特徴量を入力とし、第３の発明に記載の音響特徴量変換モデル学習方法で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いて、Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成し、前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量、前記自然音響特徴量、及び、少なくとも１サンプル以上前の複数の自然音声波形を入力とし、ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを用いて合成音声波形を生成し、前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新するニューラルボコーダ学習方法である。

第７の発明は、複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパスから、前記自然音響特徴量を入力とし、第４の発明に記載の音響特徴量変換モデル学習プログラムで学習した、ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを用いて、Ｎ２Ｓ合成音響特徴量を生成するステップと、前記Ｎ２Ｓ合成音響特徴量を入力とし、第４の発明に記載の音響特徴量変換モデル学習プログラムで学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いて、Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成するステップと、前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量、前記自然音響特徴量、及び、少なくとも１サンプル以上前の複数の自然音声波形を入力とし、ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを用いて合成音声波形を生成するステップと、前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新するステップと、をコンピュータに実行させるニューラルボコーダ学習プログラムである。

第８の発明は、音声合成対象文章の言語特徴量を記憶するコーパス記憶部と、ある言語特徴量からある合成音響特徴量を予測する予測モデルを記憶する予測モデル記憶部と、第１の発明に記載の音響特徴量変換モデル学習装置で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを記憶するＳ２Ｎ変換モデル記憶部と、第５の発明に記載のニューラルボコーダ学習装置で学習した、音声波形を生成するためのニューラルボコーダを記憶するニューラルボコーダ記憶部と、前記言語特徴量を入力とし、前記予測モデルを用いて合成音響特徴量を予測する合成音響特徴量予測部と、前記合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＳ２Ｎ合成音響特徴量を生成するＳ２Ｎ処理部と、前記Ｓ２Ｎ合成音響特徴量を入力とし、前記ニューラルボコーダを用いて合成音声波形を生成する波形合成処理部を備える音声合成装置である。

第９の発明は、前記波形合成処理部は、少なくとも１サンプル以上前の複数の前記合成音声波形をさらに入力とする第８の発明に記載の音声合成装置である。

第１０の発明は、音声合成対象文章の言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測する予測モデルを用いて、合成音響特徴量を予測し、前記合成音響特徴量を入力とし、第３の発明に記載の音響特徴量変換モデル学習方法で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いて、Ｓ２Ｎ合成音響特徴量を生成し、前記Ｓ２Ｎ合成音響特徴量を入力とし、第６の発明に記載のニューラルボコーダ学習方法で学習した、音声波形を生成するためのニューラルボコーダを用いて、合成音声波形を生成する音声合成方法である。

第１１の発明は、音声合成対象文章の言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測する予測モデルを用いて、合成音響特徴量を予測するステップと、前記合成音響特徴量を入力とし、第４の発明に記載の音響特徴量変換モデル学習プログラムで学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いて、Ｓ２Ｎ合成音響特徴量を生成するステップと、前記Ｓ２Ｎ合成音響特徴量を入力とし、第７の発明に記載のニューラルボコーダ学習プログラムで学習した、音声波形を生成するためのニューラルボコーダを用いて、合成音声波形を生成するステップと、
をコンピュータに実行させる音声合成プログラムである。

本発明によれば、ニューラルボコーダが生成する音声波形の品質を高め、高品質な音声合成技術を提供することができる。

本発明の実施形態に係る変換モデル学習装置の機能ブロック図ある。本発明の実施形態に係るニューラルボコーダ学習装置の機能ブロック図ある。本発明の実施形態に係る音声合成装置の機能ブロック図ある。本発明の実施形態に係る音声評価結果を示す図である。

図面を参照しながら本発明の実施の形態を説明する。ここで、各図において共通する部分には同一の符号を付し、重複した説明は省略する。また、図形は、長方形が処理部を表し、平行四辺形がデータを表し、円柱がデータベースを表す。また、実線の矢印は処理の流れを表し、点線の矢印はデータベースの入出力を表す。

処理部及びデータベースは機能ブロック群であり、ハードウェアでの実装に限られず、ソフトウェアとしてコンピュータに実装されていてもよく、その実装形態は限定されない。例えば、パーソナルコンピュータ等のクライアント端末と有線又は無線の通信回線（インターネット回線など）に接続された専用サーバにインストールされて実装されていてもよいし、いわゆるクラウドサービスを利用して実装されていてもよい。

［Ａ．本実施形態の概要］
本実施形態では、２段階の学習処理を行ってから、Ｗａｖｅｎｅｔニューラルボコーダによる音声合成処理を行う。これによって、Ｗａｖｅｎｅｔニューラルボコーダが生成する音声波形の品質を高め、高品質な音声合成が可能になる。

（ａ１．第１段階の学習；音響量特徴変換モデルの学習）
第１段階の学習処理は、音響量特徴変換モデルの学習に関する。この段階では、Ｓ２Ｎ変換モデル及びＮ２Ｓ変換モデルを循環的に同時に学習（更新）する。また、これらの変換モデルの学習に際し、同じコーパスを用いているため、自然音響特徴量と合成音響特徴量の長さは同じである。

ここで、「Ｓ」は合成音響特徴量を表し、「Ｎ」は自然音響特徴量を表す。また、「Ｓ２Ｎ変換モデル」は合成音響特徴量から自然音響特徴量へ変換するモデルを表し、「Ｎ２Ｓ変換モデル」は自然音響特徴量から合成音響特徴量へ変換するモデルを表す。さらに、「Ｓ２Ｎ変換モデル」と「Ｎ２Ｓ変換モデル」を総称して、「音響特徴量変換モデル」と呼んでもよいし、単に「変換モデル」と呼んでもよい。

Ｓ２Ｎ変換モデルは式（１）のようにモデル化できる。

Ｎ２Ｓ変換モデルは式（２）のようにモデル化できる。

式（１）及び（２）は、Ｘが合成音響特徴量を、Ｙが自然音響特徴量を表す。また、ｆ（）はニューラルネットワークを表す。また、ｔはフレームインデックスを表し、フレーム間隔は５ｍＳ程度である。本実施形態では音響特徴量としてメルケプストラムを用いている。

このようなＳ２Ｎ変換モデル及びＮ２Ｓ変換モデルはフレーム単位で同時に学習（更新）できる。さらに、後述する変換モデル更新部などによって、Ｓ２Ｎ変換モデル及びＮ２Ｓ変換モデルは循環的に学習（更新）できる。このようにして、音響特徴量変換モデルを学習（更新）することが可能になる。

（ａ２．第２段階の学習；ニューラルボコーダの学習）
第２段階の学習処理は、ニューラルボコーダの学習に関する。第１段階で学習したＮ２Ｓ変換モデル及びＳ２Ｎ変換モデルを用いて、自然音響特徴量からＮ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成し、ニューラルボコーダの学習に用いる。

（ａ３．音声合成処理）
音声合成処理では、ＴＴＳモデルからＳ２Ｎ変換モデルを用いてＳ２Ｎ合成音響特徴量を生成する。そして、第２段階で学習したニューラルボコーダが、Ｓ２Ｎ合成音響特徴量からより自然な音声波形を直接生成する。

［Ｂ．変換モデル学習装置の具体的な構成］
図１は、本実施形態に係る変換モデル学習装置の機能ブロック図ある。変換モデル学習装置１００は、各データベースとして、コーパス記憶部１１０と、予測モデル記憶部１１３と、Ｓ２Ｎ変換モデル記憶部１４０と、Ｎ２Ｓ変換モデル記憶部１５０を備えている。また、変換モデル学習装置１００は、各処理部として、音響特徴量予測部１１２と、第１のＳ２Ｎ処理部１１５と、第１の誤差計算部１３０と、第１のＮ２Ｓ処理部１２２と、第２のＳ２Ｎ処理部１２５と、第２の誤差計算部１３１と、変換モデル更新部１３２を備えている。

まず、音声合成したい人（芸能人や声優、自分の声など）の音声（「所望の話者の音声」又は「カスタム・ボイス」ともいう）を事前に収録する。ここでは２００文程度の文章を読み上げ（発話し）、その発話音声を収録し、音声辞書を作成する。音声辞書には、発話音声から抽出されたコンテキスト、音声波形、及び、自然音響特徴量が発話単位で格納されている。発話単位とは、文章（さらにフレームインデックス）毎の意味である。コンテキスト（「言語特徴量」ともいう）は各文章をテキスト解析した結果であり、音声波形に影響を与える要因（音素の並び、アクセント、イントネーションなど）である。音声波形は人が各文章を読み上げ、マイクロフォンに入力された波形である。

音響特徴量としてはスペクトル特徴量、基本周波数、周期・非周期指標、有声無声判定フラグなどがある。さらに、スペクトル特徴量としてはメルケプストラム、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）、ＬＳＰ（ＬｉｎｅＳｐｅｃｔｒａｌＰａｉｒｓ）などがある。本実施形態ではスペクトル音響特徴量としてメルケプストラムを用いている。

コーパス記憶部１１０は、この音声辞書を格納している。変換モデルの学習のためには、少なくともコンテキスト１１１及び自然音響特徴量１２１が文章（さらにフレームインデックス）毎に記憶されていればよい。以下では、所定の文章（ここでは文章番号１）の所定のフレームインデックスｔについてのコンテキスト１１１及び自然音響特徴量１２１を用いて説明する。

（ｂ１．コーパス１１０から第１の誤差計算部１３０までの処理）
音響特徴量予測部１１２は、コンテキスト１１１を入力とし、予測モデル記憶部１１３に記憶されている、コンテキストから合成音響特徴量を予測するための予測モデルで処理し、合成音響特徴量１１４を出力する。

予測モデル記憶部１１３は、予測モデルとして、パラメトリック音声合成用音響モデルを記憶している。パラメトリック音声合成用音響モデルとしては、例えば隠れ（セミ）マルコフモデル（Ｈｉｄｄｅｎ（Ｓｅｍｉ）ＭａｒｋｏｖＭｏｄｅｌ；Ｈ（Ｓ）ＭＭ）やフィードフォワードニューラルネットワーク（ＦｅｅｄＦｏｒｗａｒｄＮｅｕｒａｌＮｅｔｗｏｒｋ；ＦＦＮＮ）、各種リカレントネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ；ＲＮＮ）、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ；ＣＮＮ）、及び、これらを組み合わせたモデルであればよい。

第１のＳ２Ｎ処理部１１５は、合成音響特徴量１１４を入力とし、Ｓ２Ｎ変換モデル記憶部１４０のＳ２Ｎ変換モデルで処理し、Ｓ２Ｎ合成音響特徴量１１６を出力する。

各変換モデル（Ｓ２Ｎ変換モデル、及び、後述するＮ２Ｓ変換モデル）は、時系列情報がモデル化される構造であればよく、例えばＨＭＭ、ＲＮＮ、ＣａｕｓａｌＣＮＮやそれらを組み合わせたモデルであればよい。

合成音響特徴量１１４と自然音響特徴量１２１の時系列情報の長さは元々、同じである。これは、同じコーパス１１０の同じ文章（ここでは文章番号１）の同じフレームインデックスｔ、すなわち時間情報を用いて、予測モデル記憶部１１３の予測モデルから合成音響特徴量１１４を予測しているからである。

しかしながら、予測モデルは自然音響特徴量と完全に一致するように予測することが困難なため、合成音響特徴量１１４には、微小なずれが生じてしまう。これが、合成音響特徴量１１４と自然音響特徴量１２１の時間的な構造のミスマッチである。

変換モデル学習の特徴は、合成音響特徴量１１４の微小なずれを補正するように学習することである。このために、各変換モデル（Ｓ２Ｎ変換モデル、及び、後述するＮ２Ｓ変換モデル）は、自然音響特徴量１２１と変換された合成特徴量との間で時間的な構造のミスマッチが存在しなくなるように学習する必要がある。

第１の誤差計算部１３０は、Ｓ２Ｎ合成音響特徴量１１６と自然音響特徴量１２１の誤差を第１の誤差として計算する。第１、及び、後述する第２の誤差計算には、フレーム同士の距離を二乗誤差で計算する。

（ｂ２．コーパス１１０から第２の誤差計算部１３１までの処理）
第１のＮ２Ｓ処理部１２２は、自然音響特徴量１２１を入力とし、Ｎ２Ｓ変換モデル記憶部１５０のＮ２Ｓ変換モデルで処理し、Ｎ２Ｓ合成音響特徴量１２４を出力する。

第２のＳ２Ｎ処理部１２５は、Ｎ２Ｓ合成音響特徴量１２４を入力とし、Ｓ２Ｎ変換モデル記憶部１４０のＳ２Ｎ変換モデルで処理し、Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量１２６を出力する。

第２の誤差計算部１３１は、Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量１２６と自然音響特徴量１２１の誤差を第２の誤差として計算する。

（ｂ３．変換モデルの更新処理）
変換モデル更新部１３２は、第１の誤差と第２の誤差を足し、変換モデル全体（すなわち、Ｓ２Ｎ変換モデル及びＮ２Ｓ変換モデル）の損失とする。そして、この損失に所定の最適化（例えば、誤差逆伝搬法；ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）を行い、Ｓ２Ｎ変換モデル及びＮ２Ｓ変換モデルをそれぞれ更新する。更新後のＳ２Ｎ変換モデル及びＮ２Ｓ変換モデルはそれぞれＳ２Ｎ変換モデル記憶部１４０及びＮ２Ｓ変換モデル記憶部１５０に記憶される。

このような更新処理が、コーパス記憶部１１０に記憶された全ての文章（本実施形態では２００文程度）について実行される。このようにして、Ｓ２Ｎ変換モデル及びＮ２Ｓ変換モデルはフレーム単位で同時に学習（更新）できる。

また、更新処理によれば、Ｎ２Ｓ変換モデル及びＳ２Ｎ変換モデルを用いて自然音響特徴量１２１からＮ２Ｓ−Ｓ２Ｎ合成音響特徴量１２６へ戻している。Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量１２６は理論的には自然音響特徴量１２１と同じなるべきであるから、循環処理しているといえる。よって、Ｓ２Ｎ変換モデル及びＮ２Ｓ変換モデルは循環的に学習（更新）できる。

［Ｃ．ニューラルボコーダ学習装置の具体的な構成］
（ｃ１．カスタム・ボイスの場合のニューラルボコーダの学習方法）
図２は、本実施形態に係るニューラルボコーダ学習装置の機能ブロック図ある。ニューラルボコーダ学習装置２００は、各データベースとして、コーパス記憶部２１０と、変換モデル学習装置１００で学習したＳ２Ｎ変換モデル記憶部１４１、及び、Ｎ２Ｓ変換モデル記憶部１５１と、ニューラルボコーダ記憶部２６０を備えている。また、ニューラルボコーダ学習装置２００は、各処理部として、Ｎ２Ｓ処理部２１２と、Ｓ２Ｎ処理部２１４と、波形合成処理部２３０と、誤差計算ボコーダ更新部２５０を備えている。

コーパス記憶部２１０は、コーパス記憶部１１０と同様、音声辞書を格納している。ニューラルボコーダの学習のためには、少なくとも自然音響特徴量２１１及び自然音声波形２２０が文章（さらにフレームインデックス）毎に記憶されていればよい。以下では、所定の文章（ここでは文章番号１）の所定のフレームインデックスｔについての自然音響特徴量２１１及び自然音声波形２２０を用いて説明する。

Ｎ２Ｓ処理部２１２は、自然音響特徴量２１１を入力とし、Ｎ２Ｓ変換モデル記憶部１５１の学習後のＮ２Ｓ変換モデルで処理し、Ｎ２Ｓ合成音響特徴量２１３を出力する。

Ｓ２Ｎ処理部２１４は、Ｎ２Ｓ合成音響特徴量２１３を入力とし、Ｓ２Ｎ変換モデル記憶部１４１の学習後のＳ２Ｎ変換モデルで処理し、Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量２１５を出力する。

波形合成処理部２３０は、Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量２１５、自然音響特徴量２１１、及び、少なくとも１サンプル以上前の複数の自然音声波形２２０を入力とし、ニューラルボコーダ記憶部２６０のニューラルボコーダで処理し、合成音声波形２４０を出力する。ここで、１サンプルは１１０分の１フレームである。

波形合成処理部２３０は、Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量２１５からスペクトル特徴量（本実施形態ではメルケプストラム）を第１の抽出量として抽出し、自然音響特徴量２１１からはスペクトル特徴量以外の音響特徴量（基本周波数など）を第２の抽出量として抽出する。ここで、Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量２１５及び自然音響特徴量２１１は同じ時間情報（フレームインデックスｔ）を有している。

波形合成処理部２３０は、第１の抽出量、第２の抽出量、及び、少なくとも１サンプル以上前の複数の自然音声波形２２０をニューラルボコーダに入力し、合成音声波形２４０を生成する。

ニューラルボコーダ記憶部２６０のニューラルボコーダは、音声波形を生成するためのニューラルネットワークである。本実施形態では、自己回帰型Ｗａｖｅｎｅｔニューラルネットワークを用いている。また、他のニューラルネットワークとして、自己再帰型Ｗａｖｅｎｅｔ、ＳａｍｐｌｅＲＮＮ、ＷａｖｅＲＮＮ、ＦＦＴＮｅｔ、ＮｅｕｒａｌＳｏｕｒｃｅ−ｆｉｌｔｅｒなどで構成されていてもよい。さらに、非自己回帰型であるパラレルＷａｖｅｎｅｔ、ＷａｖｅＧｌｏｗなどで構成されていてもよい。

誤差計算ボコーダ更新部２５０は、合成音声波形２４０及び自然音声波形２２０を入力とし、これらの誤差に所定の最適化（例えば、誤差逆伝搬法；ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）を行い、ニューラルボコーダを更新する。更新後のニューラルボコーダはニューラルボコーダ記憶部２６０に記憶される。

このような更新処理が、コーパス記憶部１１０に記憶された全ての文章（本実施形態では２００文程度）について実行される。

（ｃ２．その他の場合のニューラルボコーダの学習方法）
上述したカスタム・ボイスの場合は、所望の話者のＮ２Ｓ合成音響特徴量を用いて一から学習を行った。この他に、以下の３種類の学習を行ってもよい。

第１の学習は、複数の話者のＮ２Ｓ合成音響特徴量を用いて一から学習を行い、話者非依存な共通ニューラルボコーダを生成する。第２の学習は、ある話者のＮ２Ｓ合成音響特徴量または自然音響特徴量またはその両方を用いて学習したニューラルボコーダを利用して、所望の話者のＮ２Ｓ合成音響特徴量を用いて再学習を行う。これは、ＦｉｎｅＴｕｎｉｎｇや話者適応に相当する。第３の学習は、複数の話者のＮ２Ｓ合成音響特徴量または自然音響特徴量またはその両方を用いて学習したニューラルボコーダを利用して、所望の話者のＮ２Ｓ合成音響特徴量を用いて再学習する。なお、上記３種類の学習を行う場合、いずれも変換モデルの学習から行う必要がある。

［Ｄ．音声合成装置の具体的な構成］
図３は、本実施形態に係る音声合成装置の機能ブロック図ある。音声合成装置３００は、各データベースとして、コーパス記憶部３１０と、予測モデル記憶部１１３と、変換モデル学習装置１００で学習したＳ２Ｎ変換モデル記憶部１４１と、ニューラルボコーダ学習装置２００で学習したニューラルボコーダ記憶部２６１を備えている。また、音声合成装置３００は、各処理部として、音響特徴量予測部１１２と、Ｓ２Ｎ処理部２１４と、波形合成処理部３４０を備えている。

コーパス記憶部３１０は、音声合成したい文章（音声合成対象文章）のコンテキスト３１１を記憶している。

音響特徴量予測部１１２は、コンテキスト３１１を入力とし、予測モデル記憶部１１３の予測モデルで処理し、合成音響特徴量３１３を出力する。

Ｓ２Ｎ処理部２１４は、合成音響特徴量３１３を入力とし、Ｓ２Ｎ変換モデル記憶部１４１の学習後のＳ２Ｎ変換モデルで処理し、Ｓ２Ｎ合成音響特徴量３１５を出力する。

波形合成処理部３３０は、Ｓ２Ｎ合成音響特徴量３１５及び、少なくとも１サンプル以上前の複数の合成音声波形３４０を入力とし、ニューラルボコーダ記憶部２６１の学習後のニューラルボコーダで処理し、合成音声波形３４０を出力する。

ここで、パラレルＷａｖｅｎｅｔ、ＷａｖｅＧｌｏｗなどの非自己回帰型ニューラルボコーダの場合、Ｓ２Ｎ合成音響特徴量３１５だけを入力すればよい。すなわち、少なくとも１サンプル以上前の複数の合成音声波形３４０の入力は必須ではない。

［Ｅ．音声評価結果］
図４は、本実施形態に係る音声評価結果を示す図である。図４ａ）は、実験で使用した音声の表である。「ニューラルボコーダの学習に用いる音響特徴量」とは、図１及び図２で説明したＷａｖｅｎｅｔニューラルボコーダの２段階学習で用いた特徴量であり、ＡはＮ２Ｓ−Ｓ２Ｎ合成音響特徴量１２６、Ｂは自然音響特徴量１２１、Ｃは合成音響特徴量１１４である。また、「合成時にニューラルボコーダに入力する音響特徴量」とは、図３で説明した音声合成装置に入力する特徴量であり、ＡはＳ２Ｎ合成音響特徴量３１５、Ｂは合成音響特徴量３１３、Ｃは合成音響特徴量３１３である。なお、Ａは本実施形態に係る音声と同一のものである。

図４ｂ）は、実験結果を示す。実験では一対比較法により異なる手法の音声対のうちどちらのほうが音質が良いかを比較評価したものである。実験では10名の被験者に評価してもらい、音質が良いと判断された音声サンプル数の割合（％）を棒グラフにより表示したものとなっている。実験では上段ｂ−１）がＡとＣの音声対、下段ｂ−２）がＡとＢの音声対を用いた実験結果を示しており、ｂ−１）ＡとＣの音声対はニューラルボコーダの学習における入力音響特徴量と自然音声波形との時間的な構造のミスマッチの影響の評価を目的としたもの、および、ｂ−２）ＡとＢの音声対はニューラルボコーダの学習に用いる音響特徴量と合成時に入力する音響特徴量の音響的なミスマッチの影響の評価を目的としたものとなっている。ｂ−１）ＡとＣの音声対の評価結果から、本実施形態は時間的なミスマッチを緩和することが示されている。またｂ−２）ＡとＢの音声対の評価結果から、学習時と合成時における音響的なミスマッチを緩和することが示されている。

［Ｆ．作用効果］
変換モデル学習装置１００は、Ｓ２Ｎ変換モデル及びＮ２Ｓ変換モデルを循環的に同時に学習（更新）するため、時間的な構造のミスマッチを抑えたＳ２Ｎ変換モデルとＮ２Ｓ変換モデルを生成することが可能である。また、ニューラルボコーダ学習装置２００は、学習後のＮ２Ｓ変換モデル及びＳ２Ｎ変換モデルを用いて、自然音響特徴量からＮ２Ｓ−Ｓ２Ｎ合成音響特徴量（例えば、スペクトル）を生成し、ニューラルボコーダの学習に用いることで学習時と合成時の音響的なミスマッチを抑えることが可能である。さらに、音声合成装置３００は、音声合成対象文章のコンテキストから予測モデルを用いて合成音響特徴量を予測し、さらに学習後のＳ２Ｎ変換モデルを用いてＳ２Ｎ合成音響特徴量を生成し、学習後のニューラルボコーダで音声合成することが可能になる。

本実施形態によれば、ニューラルボコーダが生成する音声波形の品質を高め、高品質な音声合成が可能になる。

以上、本発明の実施形態について説明してきたが、これらのうち、２つ以上の実施例を組み合わせて実施しても構わない。あるいは、これらのうち、１つの実施例を部分的に実施しても構わない。

また、本発明は、上記発明の実施形態の説明に何ら限定されるものではない。特許請求の範囲の記載を逸脱せず、当業者が容易に想到できる範囲で種々の変形態様もこの発明に含まれる。

１００変換モデル学習装置（音響特徴量変換モデル学習装置）
２００ニューラルボコーダ学習装置
３００音声合成装置

Claims

複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパス記憶部と、
ある言語特徴量からある合成音響特徴量を予測するための予測モデルを記憶する予測モデル記憶部と、
ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを記憶するＮ２Ｓ変換モデル記憶部と、
ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを記憶するＳ２Ｎ変換モデル記憶部と、
前記言語特徴量を入力とし、前記予測モデルを用いて合成音響特徴量を予測する合成音響特徴量予測部と、
前記合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＳ２Ｎ合成音響特徴量を生成する第１のＳ２Ｎ処理部と、
前記自然音響特徴量と前記Ｓ２Ｎ合成音響特徴量に関する第１の誤差を計算する第１の誤差計算部と、
前記自然音響特徴量を入力とし、前記Ｎ２Ｓ変換モデルを用いてＮ２Ｓ合成音響特徴量を生成する第１のＮ２Ｓ処理部と、
前記Ｎ２Ｓ合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＮ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成する第２のＳ２Ｎ処理部と、
前記自然音響特徴量と前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量に関する第２の誤差を計算する第２の誤差計算部と、
前記第１の誤差及び前記第２の誤差を足した損失に所定の最適化を行い、前記Ｓ２Ｎ変換モデル及び前記Ｎ２Ｓ変換モデルを更新する変換モデル更新部を備える音響特徴量変換モデル学習装置。
前記合成音響特徴量予測部、前記Ｓ２Ｎ処理部、第１の誤差計算部、前記第１のＮ２Ｓ処理部、前記第２のＳ２Ｎ処理部、前記第２の誤差計算部、及び、前記変換モデル更新部は、フレーム単位で実行する請求項１に記載の音響特徴量変換モデル学習装置。
複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパスから、前記言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測するための予測モデルを用いて合成音響特徴量を予測し、
前記合成音響特徴量を入力とし、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いてＳ２Ｎ合成音響特徴量を生成し、
前記自然音響特徴量と前記Ｓ２Ｎ合成音響特徴量に関する第１の誤差を計算し、
前記自然音響特徴量を入力とし、ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを用いてＮ２Ｓ合成音響特徴量を生成し、
前記Ｎ２Ｓ合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＮ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成し、
前記自然音響特徴量と前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量に関する第２の誤差を計算し、
前記第１の誤差及び前記第２の誤差を足した損失に所定の最適化を行い、前記Ｓ２Ｎ変換モデル及び前記Ｎ２Ｓ変換モデルを更新する音響特徴量変換モデル学習方法。
複数の発話音声から抽出された言語特徴量及び自然音響特徴量を発話単位で記憶するコーパスから、前記言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測するための予測モデルを用いて合成音響特徴量を予測するステップと、
前記合成音響特徴量を入力とし、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いてＳ２Ｎ合成音響特徴量を生成するステップと、
前記自然音響特徴量と前記Ｓ２Ｎ合成音響特徴量に関する第１の誤差を計算するステップと、
前記自然音響特徴量を入力とし、ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを用いてＮ２Ｓ合成音響特徴量を生成するステップと、
前記Ｎ２Ｓ合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＮ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成するステップと、
前記自然音響特徴量と前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量に関する第２の誤差を計算するステップと、
前記第１の誤差及び前記第２の誤差を足した損失に所定の最適化を行い、前記Ｓ２Ｎ変換モデル及び前記Ｎ２Ｓ変換モデルを更新するステップと、
をコンピュータに実行させる音響特徴量変換モデル学習プログラム。
複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパス記憶部と、
請求項１に記載の音響特徴量変換モデル学習装置で学習した、ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを記憶するＮ２Ｓ変換モデル記憶部と、
請求項１に記載の音響特徴量変換モデル学習装置で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを記憶するＳ２Ｎ変換モデル記憶部と、
ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを記憶するニューラルボコーダ記憶部と、
前記自然音響特徴量を入力とし、前記Ｎ２Ｓ変換モデルを用いてＮ２Ｓ合成音響特徴量を生成するＮ２Ｓ処理部と、
前記Ｎ２Ｓ合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＮ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成するＳ２Ｎ処理部と、
前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量、前記自然音響特徴量、及び、少なくとも１サンプル以上前の複数の自然音声波形を入力とし、前記ニューラルボコーダを用いて合成音声波形を生成する波形合成処理部と、
前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新する誤差計算ボコーダ更新部を備えるニューラルボコーダ学習装置。
複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパスから、前記自然音響特徴量を入力とし、請求項３に記載の音響特徴量変換モデル学習方法で学習した、ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを用いて、Ｎ２Ｓ合成音響特徴量を生成し、
前記Ｎ２Ｓ合成音響特徴量を入力とし、請求項３に記載の音響特徴量変換モデル学習方法で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いて、Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成し、
前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量、前記自然音響特徴量、及び、少なくとも１サンプル以上前の複数の自然音声波形を入力とし、ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを用いて合成音声波形を生成し、
前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新するニューラルボコーダ学習方法。
複数の発話音声から抽出された自然音響特徴量及び自然音声波形を発話単位で記憶するコーパスから、前記自然音響特徴量を入力とし、請求項４に記載の音響特徴量変換モデル学習プログラムで学習した、ある自然音響特徴量からある合成音響特徴量へ変換するＮ２Ｓ変換モデルを用いて、Ｎ２Ｓ合成音響特徴量を生成するステップと、
前記Ｎ２Ｓ合成音響特徴量を入力とし、請求項４に記載の音響特徴量変換モデル学習プログラムで学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いて、Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量を生成するステップと、
前記Ｎ２Ｓ−Ｓ２Ｎ合成音響特徴量、前記自然音響特徴量、及び、少なくとも１サンプル以上前の複数の自然音声波形を入力とし、ある合成音響特徴量を入力とし、音声波形を生成するためのニューラルボコーダを用いて合成音声波形を生成するステップと、
前記合成音声波形及び前記自然音声波形に関する誤差を計算し、前記誤差に所定の最適化を行い、前記ニューラルボコーダを更新するステップと、
をコンピュータに実行させるニューラルボコーダ学習プログラム。
音声合成対象文章の言語特徴量を記憶するコーパス記憶部と、
ある言語特徴量からある合成音響特徴量を予測する予測モデルを記憶する予測モデル記憶部と、
請求項１に記載の音響特徴量変換モデル学習装置で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを記憶するＳ２Ｎ変換モデル記憶部と、
請求項５に記載のニューラルボコーダ学習装置で学習した、音声波形を生成するためのニューラルボコーダを記憶するニューラルボコーダ記憶部と、
前記言語特徴量を入力とし、前記予測モデルを用いて合成音響特徴量を予測する合成音響特徴量予測部と、
前記合成音響特徴量を入力とし、前記Ｓ２Ｎ変換モデルを用いてＳ２Ｎ合成音響特徴量を生成するＳ２Ｎ処理部と、
前記Ｓ２Ｎ合成音響特徴量を入力とし、前記ニューラルボコーダを用いて合成音声波形を生成する波形合成処理部を備える音声合成装置。
前記波形合成処理部は、少なくとも１サンプル以上前の複数の前記合成音声波形をさらに入力とする請求項８に記載の音声合成装置。
音声合成対象文章の言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測する予測モデルを用いて、合成音響特徴量を予測し、
前記合成音響特徴量を入力とし、請求項３に記載の音響特徴量変換モデル学習方法で学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いて、Ｓ２Ｎ合成音響特徴量を生成し、
前記Ｓ２Ｎ合成音響特徴量を入力とし、請求項６に記載のニューラルボコーダ学習方法で学習した、音声波形を生成するためのニューラルボコーダを用いて、合成音声波形を生成する音声合成方法。
音声合成対象文章の言語特徴量を入力とし、ある言語特徴量からある合成音響特徴量を予測する予測モデルを用いて、合成音響特徴量を予測するステップと、
前記合成音響特徴量を入力とし、請求項４に記載の音響特徴量変換モデル学習プログラムで学習した、ある合成音響特徴量からある自然音響特徴量へ変換するＳ２Ｎ変換モデルを用いて、Ｓ２Ｎ合成音響特徴量を生成するステップと、
前記Ｓ２Ｎ合成音響特徴量を入力とし、請求項７に記載のニューラルボコーダ学習プログラムで学習した、音声波形を生成するためのニューラルボコーダを用いて、合成音声波形を生成するステップと、
をコンピュータに実行させる音声合成プログラム。