JP2004054063A

JP2004054063A - 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム

Info

Publication number: JP2004054063A
Application number: JP2002213188A
Authority: JP
Inventors: Takeshi Hirabayashi; 平林　剛; Takehiko Kagoshima; 籠嶋　岳彦; Ryutaro Tokuda; 徳田　龍太郎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-07-22
Filing date: 2002-07-22
Publication date: 2004-02-19
Anticipated expiration: 2022-07-22
Also published as: JP3737788B2

Abstract

【課題】人の発声した音声の基本周波数パターンに近い音声の基本周波数パターンの生成が可能な基本周波数パターン生成方法を提供する。
【解決手段】テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶手段に記憶し、この記憶手段に記憶された複数の代表パターンの中から、テキストに対応する代表パターンを選択し、この選択された代表パターンの静的特徴の統計量と動的特徴の統計量とに基づき、テキストに対応する音声の基本周波数パターンを最尤推定する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、例えば、テキスト音声合成に関し、特に、基本周波数（Ｆ０）パターンを生成する方法および装置に関する。
【０００２】
【従来の技術】
近年、任意の文章から人工的に音声信号を生成するテキスト音声合成システムが開発されている。通常、このテキスト音声合成システムは、言語処理部、韻律生成部、音声信号生成部の３つのモジュールから構成される。
【０００３】
入力されたテキストは、まず言語処理部において、形態素解析・構文解析等の言語処理が行われ、音韻記号列・アクセント型、品詞などの言語情報が出力される。次に韻律生成部において、基本周波数（ピッチ）やリズムのパターンが生成される。
【０００４】
韻律生成部は、音韻継続時間長生成部とピッチパターン生成部より構成される。音韻継続時間長生成部は、言語情報を参照して、各音素の音韻継続時間長を生成して出力する。ピッチパターン生成部は、言語情報と音韻継続時間長を入力として、声の高さの変化パターンであるピッチパターン（Ｆ０パターンとも云う）を出力する。最後に音声信号生成部において、音声信号が合成される。
【０００５】
テキスト音声合成システムの中で、韻律生成部の性能が合成音声の自然性に関係しており、とりわけ声の高さの変化パターンであるピッチパターンの精度が生成される合成音声の自然性を大きく左右する。
【０００６】
従来のテキスト音声合成におけるピッチパターン生成方法は、比較的単純なモデルを用いてピッチパターンの生成を行っていたため、抑揚が不自然で機械的な合成音声となっていた。
【０００７】
こうした問題を解決するために、自然音声から抽出されたピッチパターンを利用するアプローチが提案されている。例えば、特開平１１−０９５７８３号公報では、自然音声のピッチパターンから統計的な手法を用いて抽出されたアクセント句単位の典型的なパターンである代表パターンを複数記憶しておき、アクセント句毎に選択された代表パターンを変形し、接続することによってピッチパターンを生成する方法が開示されている。
【０００８】
図９は、上述した従来のピッチパターン生成方法に係るピッチパターン生成部の構成例を示したものである。以下、図９を用いて従来のピッチパターン生成方法について説明する。
【０００９】
代表パターン記憶部１８は、アクセント句単位の典型的なピッチパターンを表す代表パターンを複数記憶している。代表パターンは音節単位の長さが一定となるように正規化されており、その各点は対数スケール上のピッチで表現されている。
【００１０】
代表パターンの例を図１０に示す。縦軸は対数スケールのピッチを表している。また、横軸は時間に相当するが、この例では、１音節を３点で表すように正規化されているため、１目盛りが１音節に対応する。
【００１１】
代表パターン選択部１０は、言語情報１００を参照して、代表パターンを、代表パターン記憶部１８よりアクセント句毎に選択して出力する。
【００１２】
言語情報１００は、入力されたテキストに言語解析を行って得られる各アクセント句およびその近傍のアクセント句に関する情報であり、音韻記号列、アクセント型、品詞、構文情報などから構成される。「今日はすばらしい青空です。」というテキストに対する言語情報の例を、図１１に示す。言語情報１００から代表パターン２０１を選択するための規則は、統計的手法や機械学習手法など何らかの公知の方法を用いて生成することが可能である。
【００１３】
代表パターン変形部１８は、代表パターンを、言語情報１００および音韻継続時間長１１１に基づいて変形し、アクセント句パターン２０２を出力する。まず、音韻継続時間長１１１に従って音声単位で時間軸方向に線形伸縮を行う。次に、言語情報１００から代表パターンのダイナミックレンジを推定し、その推定値に従ってパターンを周波数軸方向に線形伸縮する。ダイナミックレンジの推定には、数量化Ｉ類などの公知の統計的手法を用いることができる。
【００１４】
オフセット推定部１２は、アクセント句の平均的な高さに相当するオフセット値１０３を、言語情報１００から推定して出力する。オフセット値の推定には、上述したダイナミックレンジの推定と同様に、数量化Ｉ類などの公知の統計的手法を用いることができる。
【００１５】
オフセット制御部１３は、アクセント句パターン２０２を、推定されたオフセット値１０３に従って周波数軸上で平行移動させ、アクセント句パターン２０４を出力する。上述したパターン変形およびオフセット制御の例を図１２に示す。
【００１６】
パターン接続部１５は、アクセント句毎に生成されたアクセント句パターン２０４を接続するとともに、アクセント句境界で不連続が生じないように平滑化を行って、文ピッチパターン２０６を出力する。文ピッチパターンの例を図１３に示す。
【００１７】
上述したようなテキスト音声合成のピッチパターン生成方法においては、代表パターンの変形が必要となる。例えば音韻継続時間長に従って音節単位で時間軸方向にパターンの変形を行う場合、各点の平均ピッチなどの静的特徴量のみを用いた線形伸縮では、何等かの理論的根拠に基づいた適切な変形ではないため、この変形ピッチパターンに従って生成された合成音の自然性が低下するという問題がある。
【００１８】
図１４および図１５にその一例を示す。ここで、図１４（ａ）と図１５（ｂ）は、選択された代表パターンであり、図１４（ｂ）と図１５（ｂ）は、それぞれ（ａ）図に示した代表パターンを実際に時間軸方向に音節単位で線形伸縮することによって変形させたパターンを表し、図１４（ｃ）と図１５（ｃ）は理想とする変形後のパターンを示している。
【００１９】
図１４の例では、静的特徴のみを用いて伸縮を行っているために、パターンの傾きを考慮した変形ができず、２音節目付近で不自然なピッチ変化が生じている。また、図１５の例では、代表パターンの各点の情報量、および伸縮による変形の精度が不十分なために、本来（ｃ）図のように変形されるべきパターンであっても、単純で不正確な（ｂ）図のような変形パターンが生成されてしまっている。
【００２０】
一方で、電子情報通信学会技術研究報告２００１年９月ＳＰ２００１−７０（５３頁〜５８頁）に記載されたような、動的特徴と静的特徴をパラメータとしてピッチを音素単位でモデル化し、動的特徴量を考慮して滑らかなピッチ変化パターンを生成するというものが提案されている。
【００２１】
しかし、音素単位でモデル化する場合には、ピッチの存在しない無声音に対するモデル化に問題が生じてくる。また、アクセント型を陽に表現できないため、ピッチの変化が滑らかであっても、不自然、もしくは誤った抑揚のパターンが生成されてしまう可能性があるという問題があった。
【００２２】
【発明が解決しようとする課題】
このように、従来は、代表パターンの変形を変形する際には、当該代表パターンの各点の平均ピッチなどの当該代表パターンの静的特徴量のみを用いていたため、変形した結果得られるパターンは不自然なものとなり、自然発声に近い合成音声を生成することができないという問題点があった。
【００２３】
そこで、本発明は、以上の問題を考慮してなされたものであり、人の発声した音声の基本周波数パターンに近い音声の基本周波数パターンの生成が可能な基本周波数パターン生成方法および基本周波数パターン生成装置と、それを用いて、人の発声した音声に近い音声を合成することができる音声合成装置を提供することを目的とする。
【００２４】
【課題を解決するための手段】
本発明は、テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の１つである、基本周波数の時間的変化を表した基本周波数パターンを生成するものであって、前記テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶手段に記憶し、この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択し、この選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度に基づき、前記テキストに対応する音声の基本周波数パターンを推定することを特徴とする。
【００２５】
本発明によれば、人の発声した音声の基本周波数パターンに近い音声の基本周波数パターンの生成が可能となる。
【００２６】
本発明は、テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の１つである、基本周波数の時間的変化を表した基本周波数パターンを生成するものであって、前記テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶手段に記憶し、この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択し、この選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度と、前記言語情報に基づき推定される、前記韻律制御単位毎の前記代表パターンの高さを表すオフセット値とを基に、前記代表パターンを変形することにより、前記テキストに対応する音声の基本周波数パターンを生成することを特徴とする。
【００２７】
本発明によれば、人の発声した音声の基本周波数パターンに近い音声の基本周波数パターンの生成が可能となる。
【００２８】
本発明は、テキストを解析することによって得られる言語情報を基に、予め記憶手段に記憶された、音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンである複数の代表パターンの中から、当該テキストに対応する代表パターンを選択し、この選択された代表パターンを、前記言語情報に基づき推定された、前記韻律制御単位毎の前記代表パターンの高さであるオフセット値に基づき変形を行うことにより、当該テキストに対応する音声の基本周波数パターンを生成するものであって、前記韻律制御単位毎の前記オフセット値を、その静的特徴の統計量と、前記静的特徴の変化の特徴を表した動的特徴の統計量とからの尤度に基づき推定することを特徴とする。
【００２９】
本発明によれば、人の発声した音声の基本周波数パターンに近い音声の基本周波数パターンの生成が可能となる。
【００３０】
なお、前記韻律制御単位は、形態素、単語、アクセント句のうちのいずれかであってもよい。
【００３１】
また、前記静的特徴は、対数あるいは線形スケール上のピッチであってもよい。
【００３２】
また、前記動的特徴は、前記時系列点間の前記静的特徴の差分、回帰係数、多項式展開係数のうちのいずれかであってもよい。
【００３３】
また、前記統計量は、平均値と、分散値若しくは標準偏差であってもよい。
【００３４】
さらに、前記代表パターンの変形は、前記選択された代表パターンを複数個接続したパターンに対して行うようにしてもよい。
【００３５】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照して説明する。
【００３６】
図１は、本実施形態に係る音声合成システムの構成例を示したもので、大きく分けて、言語処理部２０、韻律生成部２１、音声信号生成部２２から構成されている。
【００３７】
テキスト２０８が入力されると、まず言語処理部２０において、当該入力されたテキスト２０８に対し、形態素解析や構文解析などの言語解析処理が行われ、音韻記号列、アクセント型、品詞、係り先、ポーズなどの言語情報１００が出力される。
【００３８】
韻律生成部２１では、言語情報１００を基に、入力されたテキスト２０８に対応する音声の韻律的な特徴を表した情報（韻律情報）、すなわち、例えば、音韻継続時間長や、基本周波数（以下では、ピッチ、Ｆ０と簡単に表記することもある）の時間経過に伴う変化を表したパターン、すなわち、基本周波数パターン（以下、簡単にピッチパターンあるいは、Ｆ０パターンと呼ぶ）などが生成される。韻律生成部２１は、音韻継続時間長生成部２３とピッチパターン生成部１より構成される。
【００３９】
音韻継続時間長生成部２３は、言語情報１００を参照して、各音素の時間的な長さ、すなわち、音韻継続時間長１１１を生成して出力する。なお、言語情報から音韻継続時間長を生成する手法は、従来と同様、公知技術を用いればよく、また、本願の要旨ではないので、説明は省略する。
【００４０】
ピッチパターン生成部１は、言語情報１００と音韻継続時間長１１１を入力として、声の高さの変化パターンであるピッチパターン１０６、より具体的には、例えば、アクセント句毎のピッチパターンをアクセント句境界で不連続が生じないように平滑化を行って接続することにより生成された文単位のピッチパターン（文ピッチパターン）１０６を出力する。
【００４１】
音声信号生成部２２では、言語情報１００を基に生成されたピッチパターン１０６や音韻継続時間長１１１などの韻律情報などを基に、入力されたテキスト２０８に対応する音声を合成し、音声信号２０７として出力する。なお、ここで音声を合成する手法は、従来と同様、公知の技術を用いればよく、また、本願の要旨ではないので、説明は省略する。
【００４２】
図２は、図１のピッチパターン生成部１の構成を示すブロック図で、代表パターン選択部１０と、代表パターン伸縮部１１と、オフセット推定部１２と、オフセット制御部１３と、最尤推定部１４と、パターン接続部１５と、代表パターン記憶部１６とから構成されている。なお、図２において、図９と同一部分には同一符号を付している。
【００４３】
図９に示した従来のピッチパターン生成部との相違点は、代表パターンの各点（時系列点）を、静的特徴である対数ピッチの平均および分散と、動的特徴である当該点における上記静的特徴の左側および右側の１次回帰係数の平均および分散とによって表現し、選択された代表パターンを尤度最大化基準に基づいて変形を行うことである。
【００４４】
自然音声の複数のピッチパターンから統計的な手法を用いて抽出されたアクセント句単位の典型的なパターンである代表パターンの各点のピッチは、自然音声の複数のピッチパターンから求められた対数スケールあるいは線形スケール上の平均値であり、代表パターンの各点（時系列点）毎の静的特徴は、例えば、この平均値と分散値（分散値の代わりに分散値の平方根の標準偏差値でもよい）などの統計量で表現されている。これらを静的特徴量とも云う。
【００４５】
また、代表パターンの各点における動的特徴とは、例えば、上記自然音声の複数のピッチパターンから求めた、当該点とその左側（あるいは右側）にあるいずれかの点（例えば、隣接する点）との間の上記静的特徴（例えば、対数あるいは線形スケール上のピッチの平均値）の変化の特徴（例えば、差分、回帰係数、多項式展開係数など）であり、動的特徴は、その平均値と分散値（分散値の代わりに分散値の平方根の標準偏差値でもよい）などの統計量で表現されている。これらは動的特徴量とも云う。
【００４６】
以下、図１６に示すフローチャートを参照しながら図２に示すピッチパターンの構成と動作について説明する。
【００４７】
図２において、代表パターン記憶部１６は、音声の韻律的な特徴を制御するための音声の単位（韻律制御単位）として、例えば、アクセント句単位の典型的なピッチパターンを表す代表パターンを複数記憶している。代表パターンは、音節単位の長さが一定となるように正規化されており、その各点は静的特徴である対数スケールのピッチの統計量（ここでは、平均および分散）と、動的特徴である当該点の左側および右側の１次回帰係数（いわゆる傾き）それぞれの統計量（ここでは、平均および分散）の情報を保持している。つまり、
【数１】

図３に、４つの代表パターン（ａ）〜（ｄ）のそれぞれについての静的特徴を示し、図４に、図３（ａ）〜（ｄ）に示した４つの代表パターンのそれぞれに対応する動的特徴を示す。
【００４８】
図３は、各代表パターンの各点における、静的特徴の情報である対数ピッチの平均値と標準偏差値（分散値の平方根）を表している。また、図４は、代表パターンの各点における、動的特徴の情報の１つである左側１次回帰係数の平均値と標準偏差値を表している。図３、図４において、縦軸は対数スケールの周波数であり、また、横軸は時間に相当するが、ここでは、１音節を３点で表現するように正規化されているため、１目盛りが１音節に対応する。
【００４９】
図２の説明に戻り、代表パターン選択部１０は、言語情報１００を参照して、代表パターンを、代表パターン記憶部１６よりアクセント句毎に選択して出力する（図１６のステップＳ３）。
【００５０】
言語情報１００は、入力されたテキストに言語解析を行って得られる各アクセント句およびその近傍のアクセント句に関する情報であり、音韻記号列、アクセント型、品詞、構文情報などから構成される。「今日はすばらしい青空です。」というテキストに対する言語情報の例は、図１１に示した通りである。言語情報１００から代表パターン２０１を選択するための規則は、統計的手法や機械学習手法など何らかの公知の方法を用いて生成することが可能である。
【００５１】
代表パターン伸縮部１１は、代表パターンの各点のパラメータを音韻継続時間長１１１に従って音節単位で時間軸方向に線形伸縮を行い、アクセント句パターン１０２を出力する（図１６のステップＳ４）。
【００５２】
オフセット推定部１２は、アクセント句の平均的な高さに相当するオフセット値１０３を、言語情報１００から推定して出力する。オフセット値の推定には、上述したダイナミックレンジの推定と同様に、数量化Ｉ類などの公知の統計的手法を用いることができる。
【００５３】
なお、オフセット値とは、韻律制御単位に対応するピッチパターンの全体的な音の高さを表す情報であって、例えば、上記のように、パターンの平均的な高さやパターンの最大ピッチ、最小ピッチ、高さの変化量などの情報であってもよい。
【００５４】
オフセット制御部１３は、アクセント句パターン１０２の各点のパラメータに対して、静的特徴である対数ピッチの平均値を、オフセット推定部１２で推定されたオフセット値１０３に従って変更する。つまり、従来における処理と同様にして、パターンを周波数軸上で平行移動させ、アクセント句パターン１０４を出力する（図１６のステップＳ５）。
【００５５】
最尤推定部１４は、オフセット制御部１３にてオフセットの制御されたアクセント句パターン１０４について、当該パターンの各点における静的特徴と動的特徴のそれぞれについての統計量に対して尤度最大の意味で最適なパラメータ列を求めることで、パターンの変形を行い、パターン１０５を出力する（図１６のステップＳ６）。
【００５６】
【数２】

【００５７】
つまり、パラメータ列は、分散値とは無関係に平均値の列、すなわち各点のピッチの値としては静的特徴である対数ピッチの平均値となってしまう。
【００５８】
そこで、このパラメータ列に、音声認識等で広く用いられている動的特徴を導入する。
【００５９】
【数３】

【００６０】
図５、図６に、代表パターン１０１を変形する過程を示す。図５（ａ）は、選択された代表パターン１０１の各点におけるパラメータのうち、静的特徴である対数ピッチの平均値および標準偏差値（分散値の平方根）を示したものである。図５（ａ）に示した静的特徴に対し、代表パターン伸縮部１１で時間軸方向の線形伸縮を行い、さらに、オフセット制御部１３でオフセット制御を行った結果得られたパターン１０４の各点における平均値を示したものが、図５（ｂ）である。
【００６１】
図５（ｃ）は、図５（ａ）に示した代表パターンについての動的特徴の１つである左側１次回帰係数の平均値および標準偏差値を示したものである。図５（ｃ）に示した動的特徴に対し、代表パターン伸縮部１１で時間軸方向の線形伸縮を行い、さらに、オフセット制御部１３でオフセット制御を行った結果得られたパターン１０４の各点における平均値を示したものが、図５（ｄ）である。
【００６２】
図６は、図５（ｂ）、（ｄ）に示した、静的特徴と動的特徴の時間軸方向整形伸縮とオフセット制御の結果得られたパターンと、最尤推定部１４において生成されたパラメータ列とから生成された最終的なアクセント句パターン、すなわち、パターン１０５である。
【００６３】
図５〜図６に示した代表パターンの第２音節目は、静的特徴である対数ピッチの分散値が小さく（図５（ａ）参照）、動的特徴である１次回帰係数の分散値が比較的大きいため（図５（ｃ）参照）、最尤推定部１４では、元の代表パターンにおけるピッチの値、すなわち、静的特徴を重視するようなパターンの変形が行われている。一方で、当該代表パターンの第３〜４音節目においては、静的特徴の分散値が比較的大きく（図５（ａ）参照）、動的特徴の分散値が小さいために（図５（ｃ）参照）、パターンの傾き、すなわち、動的特徴を重視した変形が行われていることがわかる。
【００６４】
つまり、最尤推定により静的および動的特徴の統計量を反映したパラメータ生成を行っているため、パターンの各点のピッチ値を重視するべき部分と、パターンの変化（傾き）を重視すべき部分とを同時に考慮したような変形が可能となっている。さらに、静的および動的特徴の組み合わせによって代表パターンの各点を表現しているために、代表パターンの表現力も向上しており、この例の第１音節目ような精度の高い複雑な変形パターンの生成も可能となる。
【００６５】
このように、動的特徴を考慮した尤度最大の意味で最適なパラメータを生成することによって、静的特徴であるピッチ情報のみから線形補間などを行う場合と比較して、より自然音声に近い滑らかで高精度のピッチパターンの変形が可能となり、自然性の高い合成音声を生成することができる。さらに、アクセント型はもとの代表パターンによって陽に表現されているため、アクセント位置の正しい滑らかで自然なパターンの生成が可能である。
【００６６】
図２の説明に戻り、パターン接続部１５は、アクセント句毎に生成されたアクセント句パターン１０５を接続するとともに、アクセント句境界で不連続が生じないように平滑化を行って、文ピッチパターン１０６を出力する（図１６のステップＳ７）。
【００６７】
以上のようにして生成されたピッチパターン１０６や音韻継続時間長１１１などの韻律情報などを基に、音声信号生成部２２では、入力されたテキスト２０８に対応する音声を合成し、音声信号２０７として出力する（図１６のステップＳ８）。
【００６８】
本実施形態では、代表パターンに対して、時間長による線形伸縮を行い、オフセットを制御した後に、最尤推定による変形を行っているが、オフセット制御は、時間長による線形伸縮の前でも、最尤推定による変形の後でもよい。
【００６９】
また、本実施形態では、各パターンの接続を行う前に、アクセント句単位の代表パターンに対し、最尤推定による変形を行っているが、順番を入れ替えて、韻律制御単位の代表パターンを複数接続した後に、最尤推定による変形を行ってもよい。
【００７０】
また、本実施形態では、オフセット推定部１２において推定されたオフセット値をそのまま利用してオフセット制御を行っているが、オフセット値についても静的および動的特徴の統計量によって表現し、これらの統計量からの尤度に基づいて変更を行ってから制御に利用してもよい。
【００７１】
図７は、代表パターンに対して、時間長による線形伸縮を行って最尤推定による変形を行うとともに、オフセット推定部１２において推定されたオフセット値についても静的および動的特徴の統計量によって表現し、これらの統計量からの尤度に基づいて変更を行ってからオフセット制御を行う場合のピッチパターン生成部１の構成例を示したものである。
【００７２】
なお、図７において、図２と同一部分には同一符号を付し、異なる部分についてのみ説明する。すなわち、図７では、オフセット値最尤推定部１９がオフセット推定部１２とオフセット制御部１３の間に設けられ、オフセット推定部１２から出力されるオフセット値１０７が静的特徴と動的特徴とで表現されている点が、図２と異なる。
【００７３】
図８は、複数（例えば、ここでは、４つ）のアクセント句単位のピッチパターンを接続してなる例えば１つの文について、オフセット値最尤推定部１９で、各アクセント句のオフセット値を変更する場合を説明するための図である。
【００７４】
図７のオフセット推定部１２で推定されるオフセット値の静的特徴は、例えば、図８（ａ）に示すように、自然音声の複数のピッチパターンから統計的な手法を用いて抽出された、例えば、アクセント句単位の代表パターンの例えば対数スケール（あるいは線形スケール）上のピッチの値の平均値（平均的な高さ）と分散値（分散値の平方根の標準偏差値でもよい））といった統計量で表現されている。
【００７５】
また、オフセット値の動的特徴とは、例えば、図８（ｂ）に示すように、複数のアクセント句単位のピッチパターンを接続したときに、着目するピッチパターンについて、例えばその右側（あるいは左側）のいずれかにある他のピッチパターンと、当該着目するピッチパターンとの間の上記静的特徴（例えば、アクセント句毎のピッチの平均値）の変化の特徴（例えば、着目するピッチパターンと他のピッチパターンとの間の上記静的特徴の差分、回帰係数、多項式展開係数などのいずれか）を表したもので、この静的特徴の変化の平均値と分散値（分散値の平方根の標準偏差値でもよい）といった統計量で表現されている。
【００７６】
オフセット値推定部１９では、オフセット推定部１２から出力された、上記のようなオフセット値１０７に対し、前述した図２の最尤推定部１４と同様にして、例えば、図８（ｃ）に示したように、第２アクセント句のように、静的特徴である対数ピッチの分散値が小さく、動的特徴である１次回帰係数の分散値が比較的大きい場合には、静的特徴を重視するようなオフセット値の変更を行い、第３〜４アクセント句のように、静的特徴の分散値が比較的大きく、動的特徴の分散値が小さい場合には、動的特徴を重視したオフセット値の変更を行う。
【００７７】
なお、オフセット値推定部１９では、代表パターン伸縮部１１から出力された、アクセント句単位の複数のピッチパターンを接続した例えば１文単位で、当該文を構成する各アクセント句単位のオフセットを推定する。
【００７８】
上記実施形態では、日本語のピッチパターン生成について説明したが、言語には依存しない方法であるため、適当な韻律制御単位を選択することで、英語・ドイツ語・フランス語・イタリア語・スペイン語・オランダ語・スウェーデン語・中国語など、外国語に本発明を適用することも可能である。
【００７９】
また、上記実施形態では、韻律制御単位としてアクセント句単位のピッチパターンを処理対象とした場合について説明したが、本発明は、この場合に限らず、例えば、呼気段落、単語、形態素、音節、モーラなどや、さらにこれらを組み合わせた単位といった、他の韻律制御単位であっても適用可能である。
【００８０】
以上説明したように、上記実施形態によれば、入力テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位（例えばアクセント句）毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、当該時系列点と他の時系列点との間の上記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを代表パターン記憶部１６に記憶し、代表パターン選択部１０は、代表パターン記憶部１６に記憶された複数の代表パターンの中から、上記言語情報に基づき入力テキストに対応する代表パターンを選択する。代表パターン伸縮部１１では、当該選択された代表パターンの各点の静的特徴を音韻継続時間長１１１に従って音節単位で時間軸方向に線形伸縮を行い、その結果としてのアクセント句パターンを出力する。オフセット制御部１３は、アクセント句パターンの各点の静的特徴である、例えば対数ピットの平均値を、オフセット推定部１２で推定されたオフセット値に従って変更する。最尤推定部１４では、オフセット制御部１３にてオフセットの制御されたアクセント句パターン１０４を、その静的特徴の統計量と動的特徴の統計量とからの尤度を基に変形することにより、入力テキストに対応する音声の基本周波数パターンを生成する。
【００８１】
このようにして生成された基本周波数パターンと、さらに音韻継続時間長１１１などの韻律情報などを基に、入力されたテキスト２０８に対応する音声を合成すると、自然性の高い合成音声を生成することができる。さらに、アクセント型はもとの代表パターンによって陽に表現されているため、アクセント位置の正しい滑らかで自然なパターンの生成が可能である。
【００８２】
すなわち、上記実施形態によれば、韻律制御単位の代表パターンの各点を、静的特徴および動的特徴の統計量によって表現し、これらの統計情報を考慮した尤度最大化基準によるパターン変形を行うことで、より自然な合成音声を生成することができれる。
【００８３】
ここで、韻律制御単位とは、ピッチパターンを生成する際の基本単位であって、１音節以上にわたるピッチの変化を表現可能な長さを有する、様々な文章の構成単位が用いられる。例えば、アクセント句・単語・形態素・呼気段落・音節・モーラなどや、さらにこれらを組み合わせた単位を用いることもできる。
なお、本発明の実施の形態に記載した本発明の手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピーディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導体メモリをなどの記録媒体に格納して、あるいは、インターネットなどのネットワークを介して頒布することもできる。
【００８４】
また、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、上記実施形態には種々の段階の発明は含まれており、開示される複数の構成用件における適宜な組み合わせにより、種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題（の少なくとも１つ）が解決でき、発明の効果の欄で述べられている効果（のなくとも１つ）が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【００８５】
【発明の効果】
以上詳述したように、本発明のピッチパターン生成方法によれば、韻律制御単位の代表パターンの各時系列点を、静的特徴および動的特徴の統計量によって表現し、これらの情報を利用した最尤推定により高精度にパターン変形を行うことで、自然音声に近い正確で滑らかなピッチパターンの生成が可能であり、自然性の高い合成音声を生成することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態にかかる音声合成システムの構成例を示した図。
【図２】図１のピッチパターン生成部の構成例を示した図。
【図３】代表パターンの静的特徴量について説明するための図。
【図４】代表パターンの動的特徴量について説明するための図。
【図５】代表パターンを変形する過程を示した図。
【図６】代表パターンを変形した結果得られたパターンの一例を示した図。
【図７】ピッチパターン生成部の他の構成例を示した図。
【図８】オフセット値を最尤推定によって求める過程を示した図。
【図９】従来のピッチパターン生成部の構成例を示した図。
【図１０】代表パターンを示した図。
【図１１】言語情報の例を示した図。
【図１２】代表パターンを変形する過程を示した図。
【図１３】生成された文ピッチパターンの一例を示した図。
【図１４】従来の技術で代表パターンを変形する場合の問題点を説明するための図。
【図１５】従来の技術で代表パターンを変形する場合の問題点を説明するための図。
【図１６】図１の音声合成システムの動作を説明するためのフローチャート。
【符号の説明】
１０…代表パターン選択部
１１…代表パターン伸縮部
１２…オフセット推定部
１３…オフセット制御部
１４…最尤推定部
１５…パターン接続部
１６…代表パターン記憶部
１９…オフセット値最尤推定部
２０…言語処理部
２１…韻律生成部
２２…音声信号生成部
２３…音韻継続時間長生成部
２４…ピッチパターン生成部

Claims

テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の１つである、基本周波数の時間的変化を表した基本周波数パターンを生成する基本周波数パターン生成方法であって、
前記テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶手段に記憶し、
この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択し、この選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度に基づき、前記テキストに対応する音声の基本周波数パターンを推定することを特徴とする基本周波数パターン生成方法。
テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の１つである、基本周波数の時間的変化を表した基本周波数パターンを生成する基本周波数パターン生成方法であって、
前記テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶手段に記憶し、
この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択し、この選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度と、前記言語情報に基づき推定される、前記韻律制御単位毎の前記代表パターンの高さを表すオフセット値とを基に、前記代表パターンを変形することにより、前記テキストに対応する音声の基本周波数パターンを生成することを特徴とする基本周波数パターン生成方法。
テキストを解析することによって得られる言語情報を基に、予め記憶手段に記憶された、音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンである複数の代表パターンの中から、当該テキストに対応する代表パターンを選択し、この選択された代表パターンを、前記言語情報に基づき推定された、前記韻律制御単位毎の前記基本周波数の平均的な高さであるオフセット値に基づき変形を行うことにより、当該テキストに対応する音声の基本周波数パターンを生成する基本周波数パターン生成方法であって、
前記韻律制御単位毎の前記オフセット値を、その静的特徴の統計量と、前記静的特徴の変化の特徴を表した動的特徴の統計量とからの尤度に基づいて推定することを特徴とする基本周波数パターン生成方法。
前記韻律制御単位は、形態素、単語、アクセント句、これらを組み合わせた単位のうちのいずれかであることを特徴とする請求項１〜３のいずれか１つに記載の基本周波数パターン生成方法。
前記静的特徴は、対数あるいは線形スケール上のピッチであることを特徴とする請求項１あるいは２記載の基本周波数パターン生成方法。
前記動的特徴は、前記時系列点間の前記静的特徴の差分、回帰係数、多項式展開係数のうちのいずれかであることを特徴とする請求項１また２記載の基本周波数パターン生成方法。
前記統計量は、平均値と、分散値若しくは標準偏差であることを特徴とする請求項１または２または３記載の基本周波数パターン生成方法。
前記代表パターンの変形は、前記選択された代表パターンを複数個接続したパターンに対して行うことを特徴とする請求項２記載の基本周波数パターン生成方法。
テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の１つである、基本周波数の時間的変化を表した基本周波数パターンを生成する基本周波数パターン生成装置であって、
前記テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶する記憶手段と、
この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択する手段と、
選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度に基づき、前記テキストに対応する音声の基本周波数パターンを推定する手段と、
を具備したことを特徴とする基本周波数パターン生成装置。
テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の１つである、基本周波数の時間的変化を表した基本周波数パターンを生成する基本周波数パターン生成装置であって、
前記テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶する記憶手段と、
この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択する手段と、
選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度と、前記言語情報に基づき推定される、前記韻律制御単位毎の前記基本周波数の平均的な高さを表すオフセット値とを基に、前記代表パターンを変形することにより、前記テキストに対応する音声の基本周波数パターンを生成する手段と、
を具備したことを特徴とする基本周波数パターン生成装置。
テキストを解析することによって得られる言語情報を基に、予め記憶手段に記憶された、音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンである複数の代表パターンの中から、当該テキストに対応する代表パターンを選択し、この選択された代表パターンを、少なくとも、前記言語情報に基づき推定された、前記韻律制御単位毎の前記代表パターンの高さであるオフセット値に基づき変形を行うことにより、当該テキストに対応する音声の基本周波数パターンを生成する基本周波数パターン生成装置であって、
前記韻律制御単位毎の前記オフセット値を、その静的特徴の統計量と、前記静的特徴の変化の特徴を表した動的特徴の統計量とからの尤度に基づいて推定する手段を具備したことを特徴とする基本周波数パターン生成装置。
テキストを解析することによって得られる言語情報を基に、少なくとも、当該テキストに対応する音声の基本周波数の時間的変化を表した基本周波数パターンを含む当該音声の韻律的な特徴を表した韻律情報を求めて、少なくともこの韻律情報を基に当該テキストに対応する音声を合成する音声合成装置において、
前記テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶する記憶手段と、
この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択する手段と、
選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度に基づき、前記テキストに対応する音声の基本周波数パターンを推定する手段と、
少なくとも、前記最尤推定することにより得られた基本周波数パターンを基に、前記テキストに対応する音声を合成する音声合成手段と、
を具備したことを特徴とする音声合成装置。
テキストを解析することによって得られる言語情報を基に、少なくとも、当該テキストに対応する音声の基本周波数の時間的変化を表した基本周波数パターンを含む当該音声の韻律的な特徴を表した韻律情報を求めて、少なくともこの韻律情報を基に当該テキストに対応する音声を合成する音声合成装置において、
前記テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶する記憶手段と、
この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択する手段と、
選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度と、前記言語情報に基づき推定される、前記韻律制御単位毎の前記代表パターンの高さを表すオフセット値とを基に、前記代表パターンを変形することにより、前記テキストに対応する音声の基本周波数パターンを生成する手段と、
少なくとも、前記生成された基本周波数パターンを基に、前記テキストに対応する音声を合成する音声合成手段と、
を具備したことを特徴とする音声合成装置。
テキストを解析することによって得られる言語情報を基に、少なくとも、当該テキストに対応する音声の基本周波数の時間的変化を表した基本周波数パターンを含む当該音声の韻律的な特徴を表した韻律情報を求めて、少なくともこの韻律情報を基に当該テキストに対応する音声を合成する音声合成装置において、
前記言語情報を基に、予め記憶手段に記憶された、音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンである複数の代表パターンの中から、当該テキストに対応する代表パターンを選択し、この選択された代表パターンを、少なくとも、前記言語情報に基づき推定された、前記韻律制御単位毎の前記代表パターンの高さであるオフセット値に基づき変形を行うことにより、当該テキストに対応する音声の基本周波数パターンを生成する生成手段と、
少なくとも、前記生成された基本周波数パターンを基に、前記テキストに対応する音声を合成する音声合成手段と、
を有し、
前記韻律制御単位毎の前記オフセット値を、その静的特徴の統計量と、前記静的特徴の変化の特徴を表した動的特徴の統計量とからの尤度に基づいて推定することを特徴とする音声合成装置。
テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の１つである、基本周波数の時間的変化を表した基本周波数パターンを生成する基本周波数パターン生成プログラムであって、
前記テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶する記憶手段を有するコンピュータに、
前記記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択するステップと、
選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度と、前記言語情報に基づき推定される、前記韻律制御単位毎の前記代表パターンの高さを表すオフセット値とを基に、前記代表パターンを変形することにより、前記テキストに対応する音声の基本周波数パターンを生成するステップと、
を実行させる基本周波数パターン生成プログラム。
テキストを解析することによって得られる言語情報を基に、少なくとも、当該テキストに対応する音声の基本周波数の時間的変化を表した基本周波数パターンを含む当該音声の韻律的な特徴を表した韻律情報を求めて、少なくともこの韻律情報を基に当該テキストに対応する音声を合成する音声合成プログラムであって、
前記テキストに対応する音声の韻律的な特徴を制御するための１音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶する記憶手段を有するコンピュータに、
前記記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択するステップと、
選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度と、前記言語情報に基づき推定される、前記韻律制御単位毎の前記代表パターンの高さを表すオフセット値とを基に、前記代表パターンを変形することにより、前記テキストに対応する音声の基本周波数パターンを生成するステップと、
少なくとも、前記生成された基本周波数パターンを基に、前記テキストに対応する音声を合成する音声合成手段と、
を実行させる音声合成プログラム。