JP6472342B2

JP6472342B2 - 音声合成装置、音声合成方法、およびプログラム

Info

Publication number: JP6472342B2
Application number: JP2015129987A
Authority: JP
Inventors: 宮崎　昇; 昇宮崎; 勇祐井島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2019-02-20
Anticipated expiration: 2035-06-29
Also published as: JP2017015821A

Description

この発明は音声合成技術に関し、特に、隠れマルコフモデル（HMM: Hidden Markov Model）に基づく音声合成において韻律パタンを生成する技術に関する。

近年、主流となっている音声合成方式として、HMM音声合成方式が提案されている（例えば、非特許文献１参照）。HMM音声合成方式は学習ステージと合成ステージとに分けられる。音声合成用HMMは、学習用音声データベースから抽出された特徴量を対象に、構文コンテキストを伴う音素を3つや5つの状態で表現するモデルを持つ。各状態は韻律特徴量とスペクトル特徴量を結合した結合特徴量に対応するパラメータを持つ。ここで、韻律特徴量には音声の基本周波数（F0）と、有声音であるか無声音であるかを示すパラメータ（有声無声パラメータ）と、その状態の継続長とが含まれる。なお、特別の断りがない限り、これ以降「音素」と記した場合「構文コンテキストを伴う音素」を意味するものとし、「音素列」は「構文コンテキストを伴う音素の系列」を意味するものとする。

図１に学習ステージの処理の流れを示す。音声データ記憶部１１には学習に用いる音声信号を蓄積した学習用音声データベースが記憶されている。特徴量抽出部１２は学習用音声データベースから各音素に含まれる各状態の結合特徴量を抽出して特徴量記憶部１３へ蓄積する。パラメータ学習部１４は結合特徴量の平均値や分散値などの統計量を学習データ全体に対する最尤推定により機械的に学習し、音声合成用HMMのモデルパラメータを生成する。音声合成用HMMのモデルパラメータはパラメータ記憶部１５へ記憶される。

図２に合成ステージの処理の流れを示す。合成ステージでは、合成対象とする音素列が入力され、合成対象音素列に対応する合成音声が出力される。パラメータ記憶部１５には学習ステージで生成された音声合成用HMMのモデルパラメータが記憶されている。結合パタン生成部２１は合成対象音素列に基づいて各状態の結合特徴量を抽出し、合成対象のスペクトルパタンとF0パタンとが結合されたF0・スペクトル結合パタンと、合成フレームごとの有声無声パラメータからなる有声無声パタンとを出力する。有声無声判定部２２１は各合成フレームにおける有声無声パラメータが閾値以上の値である場合には該当合成フレームの音声が有声音であるとみなして有声音声波形生成部２２２へ処理を受け渡し、有声無声パラメータが閾値未満の値である場合には該当合成フレームの音声が無声音であるとみなして無声音声波形生成部２２３へ処理を受け渡す。有声音声波形生成部２２２は結合パタンに含まれるF0パタンを抽出し、同じ結合パタンに含まれるスペクトルパタンと合わせて有声音であることを前提とした音声波形生成処理を行う。無声音声波形生成部２２３は、結合パタンに含まれるF0値を用いず、同じ結合パタンに含まれるスペクトルパタンに対して無声音であることを前提とした音声波形生成処理を行う。

学習ステージにおいて韻律特徴量とスペクトル特徴量とを連結した結合特徴量を用いて学習を行う際、音声データベースのF0値を自動抽出する際の誤りなどの要因により、無声音素と連接する有声音素において境界近くに位置する状態の有声無声パラメータが閾値よりも低い値に学習されたり、有声音素と連接する無声音素において境界近くに位置する状態の有声無声パラメータが閾値よりも大きい値に学習されたりすることがある。また、学習データによっては、音素間の境界近くでなくても、有声音素に含まれる状態の一部の有声無声パラメータが閾値よりも小さい値に学習されることがある。

このような場合、合成ステージにおいて音声波形生成を行う際、有声音素区間内の合成フレームで無声音を前提とした音声波形生成が行われたり、無声音素区間内の合成フレームで有声音を前提とした音声波形生成が行われたりすることがある。このような音素の有声／無声の種別と有声無声パラメータの値との不整合は学習データに依存する。そのため、ある学習データから学習した音声合成用HMMでは不整合が多く発生するが、別の学習データから学習した音声合成用HMMでは不整合があまり発生しないことがある。

従来のHMM音声合成方式では、上記のように有声音素区間中に無声区間が現れたり、逆に無声音素区間中に有声区間が現れたりしたとしても、音声波形生成処理において問題が起きることはない。有声無声パラメータが閾値以上であるような状態ではスペクトル特徴量も有声音に相当するものとなっており、有声無声パラメータが閾値以下であるような状態ではスペクトル特徴量も無声音に相当するものとなっており、有声／無声の判断とスペクトル特徴量の特性が一致しているからである。

益子貴史，徳田恵一，宮崎昇，小林隆夫，"多空間確率分布HMMによるピッチパターン生成", 信学論（D-II）， vol.J83-D-II, no.7, pp.1600-1609, July 2000

ここで、異なる学習用音声データベースから学習された、異なる音声合成用HMMを利用する場面を考える。例えば、男性の沈んだ口調の音声から学習されたHMM1と、女性の明るい声色の音声から学習されたHMM2とがあるものとし、異なるHMMの韻律特徴量とスペクトル特徴量を組み合わせて、男性の沈んだ口調に対応する韻律パタンであり、女性の明るい声色に対応するスペクトルパタンの合成音声を作成することが考えられる。このような用途は、同じ声色を保ちながら様々な口調による合成音声を作成する場合に必要となる。このような場合、HMM1を用いて生成された韻律パタンにおいては有声音素区間の合成フレームに無声区間が現れる一方、HMM2から生成された同じ合成フレームのスペクトルパタンは有声音に相当するものとなる可能性がある。このように、有声／無声の判断とスペクトルパタンの特性との間にミスマッチが起きるような場合、後段の音声波形生成処理において、有声／無声の判断に従っても、スペクトルパタンの特性に従っても、いずれにしても音声波形生成処理が想定しない状況となり、合成音声に大きなノイズが発生するなどの品質劣化を引き起こす場合がある。

この発明の目的は、有声／無声の判断とスペクトル特徴量の特性との間にミスマッチが起きないよう、有声／無声の判断とスペクトル特徴量の特性との間の整合を取ることによって合成音声の品質が劣化しない音声合成技術を提供することである。

上記の課題を解決するために、この発明の音声合成装置は、スペクトル特徴量とF0特徴量と有声無声パラメータと状態継続長とを含む複数の状態で各音素を表現した音声合成用モデルのパラメータを記憶するパラメータ記憶部と、合成対象音素列に基づいてF0特徴量と有声無声パラメータと状態継続長とを抽出し、合成対象音素列に対応するF0パタンと有声無声パタンと音素継続長とを含む韻律パタンを生成する韻律パタン生成部と、合成対象音素列の各音素の有声無声の種別と当該音素に対応する韻律パタンに含まれる有声無声パタンとが一致するように、韻律パタンに含まれるF0パタンと有声無声パタンと音素継続長との少なくともいずれか一つを補正した修正韻律パタンを生成する韻律パタン補正部と、合成対象音素列に基づいてスペクトル特徴量を抽出し、修正韻律パタンに含まれる音素継続長を用いて合成対象音素列に対応するスペクトルパタンを生成するスペクトルパタン生成部と、合成対象音素列の各音素の有声無声の種別に基づいて、修正韻律パタンとスペクトルパタンとを用いて合成対象音素列に対応する音声波形を生成する音声波形生成部と、を含む。

この発明によれば、有声／無声の判断とスペクトル特徴量の特性との間にミスマッチが起きないよう、有声／無声の判断とスペクトル特徴量の特性との間の整合を取るため、合成音声の品質が劣化しない。

図１は、従来技術の学習ステージの処理手続きを例示する図である。図２は、従来技術の合成ステージの処理手続きを例示する図である。図３は、実施形態の音声合成装置の機能構成を例示する図である。図４は、F0値補間処理の処理内容を例示する図である。図５は、F0値補間処理の処理内容を例示する図である。図６は、音素継続長補正処理の処理内容を例示する図である。図７は、ポーズ句境界F0値補間処理の処理内容を例示する図である。図８は、韻律特徴量のデータ構造を例示する図である。図９は、補正前の韻律パタンを例示する図である。図１０は、F0値補間処理後の韻律パタンを例示する図である。図１１は、音素継続長補正処理後の韻律パタンを例示する図である。図１２は、ポーズ句境界F0値補間処理後の韻律パタンを例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

実施形態の音声合成装置は、図３に示すように、パラメータ記憶部１５、韻律パタン生成部２３、韻律パタン補正部２４、スペクトルパタン生成部２５、および音声波形生成部２２を含む。音声波形生成部２２は、有声無声判定部２２４、有声音声波形生成部２２２、および無声音声波形生成部２２３を含む。この音声合成装置が後述する各ステップの処理を行うことにより実施形態の音声合成方法が実現される。

音声合成装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声合成装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声合成装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音声合成装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

パラメータ記憶部１５は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

パラメータ記憶部１５には、スペクトル特徴量とF0特徴量と有声無声パラメータと状態継続長とを含む複数の状態で各音素を表現した音声合成用モデルのパラメータが記憶されている。この音声合成用モデルのパラメータは、従来技術の学習ステージと同様に生成されたものである。

韻律パタン生成部２３は、合成対象音素列を入力とし、合成対象音素列に含まれる各音素に対応するF0特徴量と有声無声パラメータと状態継続長とをパラメータ記憶部１５から抽出し、合成対象音素列に対応するF0パタンと有声無声パタンと音素継続長とを含む韻律パタンを生成する。生成した韻律パタンは韻律パタン補正部２４へ送られる。

韻律パタン補正部２４は、合成対象音素列の各音素の有声無声の種別と、その音素に対応する韻律パタンに含まれる有声無声パタンとが一致するか否かを検証し、一致しない場合には、その音素の有声無声の種別とその音素に対応する韻律パタンに含まれる有声無声パタンとが一致するように、韻律パタンに含まれるF0パタンと有声無声パタンと音素継続長との少なくともいずれか一つを補正して、修正韻律パタンを生成する。韻律パタン補正部２４は、例えば、F0値補間処理、音素継続長補正処理、およびポーズ境界F0値補間処理の3つの処理を任意に組み合わせることにより韻律パタンの補正を行う。生成した修正韻律パタンは有声無声判定部２２４へ送られる。

F0値補間処理は、合成対象音素列の各音素の有声無声の種別上有声音素とみなされる区間において、有声無声パタンとして有声区間に挟まれた無声区間が現れた場合、その無声区間も有声区間であるものとみなし、その区間のF0値は両側のF0値で補間することで得られるものを代用する。図４を参照して、F0値補間処理の処理内容を具体的に説明する。図４では、縦軸が基本周波数であり、横軸が時間軸であり、点線の縦線は音素の境界を表し、太線は欄外の音素列に対応するF0パタンを示している。音素には構文コンテキストが付与されているが、説明を簡略化するため構文コンテキストは省いて表示する。F0パタンが存在する区間は、有声無声パラメータが閾値以上であり、有声区間とみなされ、F0値が存在する区間である。F0パタンが途切れている区間は、有声無声パラメータが閾値未満であり、無声区間とみなされ、F0値が存在しない区間である。図４において、A1で示す無声区間は音素/a/が母音であるため音素種別上有声音素であって、A2, A3で示す有声区間に挟まれているため、A2, A3で示す区間のF0値によりA1で示す区間のF0値を補間している。このとき、A1で示す区間の有声無声パラメータは閾値以上の値に更新し、有声区間とみなされるようにする。

また、F0値補間処理は、有声音素が連接する境界部分において無声区間が存在する場合、その無声区間は有声区間であるものとみなし、その区間のF0値は両側のF0値で補間することで得られるものを代用する。図５を参照して、F0値補間処理の処理内容を具体的に説明する。図５において、B1で示す無声区間は、B2, B3で示す有声音素区間の境界に位置するため、B4, B5で示す有声区間のF0値によりB1で示す区間のF0値を補間している。このとき、B1で示す区間の有声無声パラメータは閾値以上の値に更新し、有声区間とみなされるようにする。

音素継続長補正処理は、無声音素が連接する有声音素において、境界に位置する状態の有声無声パラメータが閾値以下である場合は、有声無声パラメータが閾値以下である状態が無声音素区間になるよう、その有声音素の音素継続長を短くし、連接する無声音素の継続長を長くする処理を行う。図６を参照して、音素継続長補正処理の処理内容を具体的に説明する。図６において、C1で示す無声区間は、有声音素において無声音素と連接する境界に位置するため、C2で示すように、有声音素区間の音素継続長を短くし、無声音素区間の音素継続長を長くしている。

ポーズ境界F0値補間処理は、ポーズが連接する有声音素において、ポーズとの境界に位置する状態の有声無声パラメータが閾値以下である場合は、有声無声パラメータが閾値以下であるような状態を有声区間とみなし、その区間のF0値は有声区間からの補外処理で得られるものを代用する。図７を参照して、ポーズ境界F0値補間処理の処理内容を具体的に説明する。D1で示す無声区間は、有声音素区間においてD2で示すポーズ区間と連接する境界に位置するため、D3で示す有声区間のF0値によりD1で示す区間のF0値を補外している。

図８〜１２を参照して、韻律パタン補正部２４の処理による韻律パタンの変化を具体的に説明する。ここでは、「アキャ」に相当する音素列「a K y a」を合成対象音素列とする場合を例として説明する。

図８はパラメータ記憶部１５に記憶された音声合成用モデルのモデルパラメータの例である。ここでは、一番目の音素/a/と二番目の音素/K/に対応するF0統計量と有声無声パラメータとの例を示す。ここでは、有声無声判定部２２１における有声無声パラメータの閾値を0.5とし、有声無声パラメータが0.5以上である場合に該当フレームを有声音とみなし、0.5未満である場合に該当フレームを無声音とみなすものとする。図８の例では、/a/は有声音素であるにもかかわらず、/a/の第一状態（/a/状態1）と第四状態（/a/状態4）との有声無声パラメータが閾値を下回っている。また、/K/は無声音素であるにもかかわらず、/K/の第一状態（/K/状態1）の有声無声パラメータが閾値を上回っている。このように、音素の有声／無声の種別とその音素に対応する有声無声パラメータとにミスマッチが生じていることがわかる。

図９は韻律パタン生成部２３により生成された韻律パタンの例である。各状態の継続長が、その状態に対応する合成フレーム数として決定され、その継続長区間における基本周波数（F0）のパタンが生成されている。一般に、無声音区間におけるF0の値は意味がなく、HMMのパラメータとして学習される値も不安定であるため、有声無声パラメータの値が低い状態では、生成されるF0パタンも無意味なパタンになることが多い。図９の例では、/a/の5つの状態の分析フレーム数は総計で30となるため、/a/の音素継続長は30フレームとなる。また、/K/の5つの状態の分析フレーム数は総計で34となるため、/K/の音素継続長は34フレームとなる。

図１０は韻律パタン補正部２４がF0値補間処理を行うことにより生成された修正韻律パタンの例である。有声音素/a/の有声区間である第三状態（/a/状態3）と第五状態（/a/状態5）に挟まれた第四状態（/a/状態4）が無声区間であるため、F0値補間処理の対象となる。/a/の第三状態（/a/状態3）のF0パタンと第五状態（/a/状態5）のF0パタンとを補間して得られるF0パタンが第四状態（/a/状態4）におけるF0パタンとなっている。該当区間は音声波形生成処理において有声音声とみなして処理を行うこととなるため、有声無声パラメータの値を1.0に書き換えている。

図１１は韻律パタン補正部２４が音素継続長補正処理を行うことにより生成された修正韻律パタンの例である。補正前の音素継続長は/a/が30フレーム、/K/が34フレームであった。/K/は無声音であるにもかかわらず、/K/の第一状態（/K/状態1）は有声無声パラメータが閾値を上回っているため、有声区間である。そのため、/K/の第一状態（/K/状態1）は/a/の一部となるように音素継続長を補正する。この結果、補正された後の音素継続長は/a/が33フレーム、/K/が31フレームとなる。

図１２は韻律パタン補正部２４がポーズ句境界F0値補正処理を行うことにより生成された修正韻律パタンの例である。/a/の第一状態（/a/状態1）は有声無声パラメータが閾値未満であるが、合成対象音素列に先行する無音区間と隣接しているため、ポーズ句境界F0値補正処理の対象となる。/a/の第二状態（/a/状態2）のF0パタンの値を補外して得られるF0パタンが第一状態（/a/状態1）におけるF0パタンとなっている。該当区間は音声波形生成処理において有声音声とみなして処理を行うこととなるため、有声無声パラメータの値を1.0に書き換えている。

以上の結果、有声音素/a/に相当する区間においては有声無声パラメータが必ず閾値以上となり、無声音素/K/に相当する区間においては有声無声パラメータが必ず閾値未満となった状態で音声波形生成を行うこととなる。

スペクトルパタン生成部２５は、合成対象音素列に基づいてスペクトル特徴量をパラメータ記憶部１５から抽出し、修正韻律パタンに含まれる音素継続長を用いて合成対象音素列に対応するスペクトルパタンを生成する。生成したスペクトルパタンは有声無声判定部２２４へ送られる。

音声波形生成部２２は、修正韻律パタンとスペクトルパタンを用いて合成対象音素列に対応する合成音声の生成を行う。有声無声判定部２２４は、修正韻律パタンにおける有声音素区間においては有声音声波形生成部２２２へ処理を受け渡し、修正韻律パタンにおける無声音素区間においては無声音声波形生成部２２３へ処理を受け渡す。有声音声波形生成部２２２は、修正韻律パタンに含まれるF0特徴量を抽出し、スペクトルパタンに含まれるスペクトル特徴量と合わせて有声音であることを前提とした音声波形生成処理を行う。無声音声波形生成部２２３は、修正韻律パタンに含まれるF0特徴量を用いず、スペクトルパタンに含まれるスペクトル特徴量に対して無声音であることを前提とした音声波形生成処理を行う。

このように構成することにより、この発明の音声合成装置では、有声／無声パラメータが閾値以上であるか否かによって定まるF0特徴量の有無と、音声波形生成部２２において有声音声波形生成部２２２が処理を行うか、無声音声波形生成部２２３が処理を行うかの関係が一致する。そのため、音声波形生成処理において合成音声に異音が生じる問題を解決することができる。したがって、合成音声の品質が向上する。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１１音声データ記憶部
１２特徴量抽出部
１３特徴量記憶部
１４パラメータ学習部
１５パラメータ記憶部
２１結合パタン生成部
２２音声波形生成部
２２１、２２４有声無声判定部
２２２有声音声波形生成部
２２３無声音声波形生成部
２３韻律パタン生成部
２４韻律パタン補正部
２５スペクトルパタン生成部

Claims

スペクトル特徴量とF0特徴量と有声無声パラメータと状態継続長とを含む複数の状態で各音素を表現した音声合成用モデルのパラメータを記憶するパラメータ記憶部と、
合成対象音素列に基づいて上記F0特徴量と上記有声無声パラメータと上記状態継続長とを抽出し、上記合成対象音素列に対応するF0パタンと有声無声パタンと音素継続長とを含む韻律パタンを生成する韻律パタン生成部と、
合成対象音素列の各音素の有声無声の種別と当該音素に対応する上記韻律パタンに含まれる有声無声パタンとが一致するように、上記韻律パタンに含まれるF0パタンおよび有声無声パタンを補正した修正韻律パタンを生成する韻律パタン補正部と、
合成対象音素列に基づいて上記スペクトル特徴量を抽出し、上記修正韻律パタンに含まれる音素継続長を用いて上記合成対象音素列に対応するスペクトルパタンを生成するスペクトルパタン生成部と、
合成対象音素列の各音素の有声無声の種別に基づいて、上記修正韻律パタンと上記スペクトルパタンとを用いて上記合成対象音素列に対応する音声波形を生成する音声波形生成部と、
を含む音声合成装置。
請求項１に記載の音声合成装置であって、
無声区間は上記韻律パタンにおいて上記有声無声パラメータが無声音であることを示す部分であり、有声区間は上記韻律パタンにおいて上記有声無声パラメータが有声音であることを示す部分であり、
上記韻律パタン補正部は、有声である音素に含まれる有声区間に挟まれた無声区間もしくは有声である音素が連接する境界に位置する無声区間において、当該無声区間の両端に位置する有声区間のF0特徴量を用いて当該無声区間のF0特徴量を補間するものである、
音声合成装置。
請求項１または２に記載の音声合成装置であって、
無声区間は上記韻律パタンにおいて上記有声無声パラメータが無声音であることを示す部分であり、有声区間は上記韻律パタンにおいて上記有声無声パラメータが有声音であることを示す部分であり、
上記韻律パタン補正部は、有声である音素においてポーズである音素と連接する境界に無声区間が位置するとき、当該有声である音素に含まれる有声区間のF0特徴量を用いて当該無声区間のF0特徴量を補外するものである、
音声合成装置。
パラメータ記憶部に、スペクトル特徴量とF0特徴量と有声無声パラメータと状態継続長とを含む複数の状態で各音素を表現した音声合成用モデルのパラメータが記憶されており、
韻律パタン生成部が、合成対象音素列に基づいて上記F0特徴量と上記有声無声パラメータと上記状態継続長とを抽出し、上記合成対象音素列に対応するF0パタンと有声無声パタンと音素継続長とを含む韻律パタンを生成する韻律パタン生成ステップと、
韻律パタン補正部が、合成対象音素列の各音素の有声無声の種別と当該音素に対応する上記韻律パタンに含まれる有声無声パタンとが一致するように、上記韻律パタンに含まれるF0パタンおよび有声無声パタンを補正した修正韻律パタンを生成する韻律パタン補正ステップと、
スペクトルパタン生成部が、合成対象音素列に基づいて上記スペクトル特徴量を抽出し、上記修正韻律パタンに含まれる音素継続長を用いて上記合成対象音素列に対応するスペクトルパタンを生成するスペクトルパタン生成ステップと、
音声波形生成部が、合成対象音素列の各音素の有声無声の種別に基づいて、上記修正韻律パタンと上記スペクトルパタンとを用いて上記合成対象音素列に対応する音声波形を生成する音声波形生成ステップと、
を含む音声合成方法。
請求項１から３のいずれかに記載の音声合成装置としてコンピュータを機能させるためのプログラム。