JP2004226505A

JP2004226505A - ピッチパタン生成方法、音声合成方法とシステム及びプログラム

Info

Publication number: JP2004226505A
Application number: JP2003011602A
Authority: JP
Inventors: Masanori Tamura; 正統田村; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-01-20
Filing date: 2003-01-20
Publication date: 2004-08-12

Abstract

【課題】口語的文末表現を含む文や発話者の意図を伝達する文など、入力文章の多様な文末の特徴を効果的に表現できるピッチパタン生成方法を提供する。
【解決手段】入力文章を解析して生成される言語属性及び音韻継続時間長の情報を入力して、合成音声信号の生成のための基本ピッチパタンを生成し（Ｓ１〜Ｓ３）、予め生成された複数の補正パタンを含む補正パタン辞書から基本ピッチパタンを補正するための一つの補正パタンを選択し（Ｓ４）、選択された補正パタンを基本ピッチパタンに各々の終端位置を一致させて加え合わせることにより、補正されたピッチパタンを生成する（Ｓ５）。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、入力文章に対応する音声信号を合成する、いわゆるテキスト音声合成のためのピッチパタン生成方法、該ピッチパタン生成方法を用いた音声合成方法とシステム及びプログラムに関する。
【０００２】
【従来の技術】
テキスト音声合成は、入力文章に対応する合成音声を生成する技術であり、テキストの読み上げ、カーナビゲーションにおける音声案内等幅広い用途に用いられている。テキスト音声合成の応用範囲が広がるにつれて、合成音声は自然で多様な表現を可能とすることが求められている。
【０００３】
テキスト音声合成では、ピッチパタンと呼ばれる音の高さの変化を表すパタン（基本周波数パタン＝Ｆ０パタンともいう）を合成単位として、合成音声信号を生成する。ピッチパタンの生成は一般的に、日本語のアクセント規則を仮定し、アクセント型、モーラ数等の言語属性を示す情報に従って制御される（例えば、非特許文献１）。これは、日本語のアクセントは高低２段階で表わされ、第１モーラと第２モーラで高低が異なり、アクセント核位置の次のモーラで高アクセントから低アクセントに遷移するという規則に基づいている。
【０００４】
一方、入力ピッチパタンと適用先ピッチパタンとの間のアクセント型、モーラ数などの言語属性の差に対応した差分パタンを変形規則とし、入力ピッチパタンに適用して変形するピッチパタン変形法が開示されている（特許文献１）。すなわち、言語属性が同一のアクセント句の平均的ピッチパタン形状をベクトル表現し、異なる言語属性を持つアクセント句間のピッチパタンの形状差を差分パタンで表現し、この差分パタンを変形規則とする。そして、入力ピッチパタンの言語属性情報と変形先ピッチパタンの言語属性情報を入力し、これらの言語属性情報の差に対応した変形規則を用いてピッチパタンを変形する。
【０００５】
【非特許文献１】
籠嶋岳彦外４名 “代表パターンコードブックを用いた基本周波数制御法”，電子情報通信学会論文誌Ｄ−ＩＩ，２００２年６月，Ｖｏｌ．Ｊ８５−ＤＩＩ，Ｎｏ．６，ｐ．９７６−９８６
【特許文献１】
特開２０００−７５８８０公報
【発明が解決しようとする課題】
上述したように、従来のピッチパタン生成法は日本語アクセント規則に基づいている。しかし、「〜ね」「〜でしょ」等の口語的文末表現を含む文や、疑問文等の発話者の意図を伝達する文などは、文末のピッチパタンの特徴が重要な役割を果たしている。従って、アクセント規則に基づく言語属性情報から生成したピッチパタンのみでは、文末ピッチパタンの特徴を効率よく、自然に表現することが難しい。
【０００６】
従って、本発明は多様な文末の特徴を効果的に表現できるピッチパタン生成方法、該ピッチパタン生成方法を用いた音声合成方法とシステム及びプログラムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
上述の課題を解決するため、本発明ではピッチパタンの生成に際して、まず、入力文章を解析して生成される言語属性及び音韻継続時間長の情報から、合成音声信号の生成のための第１のピッチパタンを生成する。一方、予め生成された複数の補正パタンを含む補正パタン辞書から、第１のピッチパタンを補正するための一つの補正パタンを選択する。選択された補正パタンを第１のピッチパタンに各々の終端位置を一致させて加え合わせることにより、第１のピッチパタンを補正して、第２のピッチパタンを最終的に生成する。
【０００８】
一方、音声合成に際しては、入力文章を解析して音韻記号列及び言語属性の情報を生成する。これらの音韻記号列及び言語属性の情報を参照しても音韻継続時間長の情報を生成する。言語属性及び音韻継続時間長の情報から、第１のピッチパタンを生成する。一方、予め生成された複数の補正パタンを含む補正パタン辞書から、第１のピッチパタンを補正するための一つの補正パタンを選択する。選択された補正パタンを第１のピッチパタンに各々の終端位置を一致させて加え合わせることにより、第１のピッチパタンを補正して第２のピッチパタンを生成する。音韻記号列と音韻継続時間長の情報及び第２のピッチパタンを用いて、入力文章に対応する合成音声信号を生成する。
【０００９】
さらに、本発明の別の観点によると、入力文章に対応する合成音声信号を生成する処理をコンピュータに行わせるプログラムであって、入力文章を解析して音韻記号列及び言語属性の情報を生成する処理と、音韻記号列及び言語属性の情報を参照して音韻継続時間長の情報を生成する処理と、言語属性及び音韻継続時間長の情報から第１のピッチパタンを生成する処理と、予め生成された複数の補正パタンを含む補正パタン辞書から、第１のピッチパタンを補正するための一つの補正パタンを選択する処理と、選択された補正パタンを第１のピッチパタンに各々の終端位置を一致させて加え合わせることにより、第１のピッチパタンを補正して第２のピッチパタンを生成する処理と、音韻記号列と音韻継続時間長の情報及び第２のピッチパタンを用いて合成音声信号を生成する処理とをコンピュータに行わせる音声合成プログラムを提供することができる。
【００１０】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
（音声合成システム）
まず、図１を用いて本発明の一実施形態に係るテキスト音声合成のための音声合成システムについて説明する。この音声合成システムは、主たる構成要素として言語処理部１１、韻律生成部１２及び音声信号生成部１３を含む。これらの構成要素は、一部または全部がハードウェアによって実現されていてもよいし、一部または全部がコンピュータ上でソフトウェアとして実現されてもよい。
【００１１】
入力文章１０１は、まず言語処理部１１に入力される。言語処理部１１では入力文章１０１に対して形態素解析及び構文解析を含む解析が行われ、音韻記号列１０２とアクセント型、品詞、モーラ数、係り先などの複数の言語属性を表す情言語属性情報１０３が生成される。音韻記号列１０２と言語属性情報１０３は、韻律生成部１０２に入力される。韻律生成部１２は、音韻継続時間長生成部１３とピッチパタン生成部１４を含み、音韻記号列１０２及び言語属性情報１０３に基づいてピッチやリズムのパタンを生成する。
【００１２】
すなわち、音韻継続時間長生成部１３では、音韻記号列１０２と言語属性情報１０３を参照して、各音素の時間的な長さを表す音韻継続時間長情報１０４が生成される。ピッチパタン生成部１４は、言語属性情報１０３と音韻継続時間長情報１０４を入力として、音の高さの変化を表すパタンであるピッチパタン（Ｆ０パタンともいう）１０５を生成する。ピッチパタン生成部１４については、後に詳しく説明する。音韻継続時間長生成部１３及びピッチパタン生成部１４では、言語処理部１１によって生成される言語属性情報１０３で示される言語属性の全てを用いるわけではなく、それぞれの処理で必要な一つまたは複数の言語属性を用いる。
【００１３】
最後に、音声信号生成部１５によって、音韻記号列１０１、音韻継続時間長情報１０４及びピッチパタン１０５に基づき、入力文章１０１に対応する合成音声信号１０６が生成される。こうして生成される合成音声信号１０６を用いて、入力文章１０１を音声として出力することができる。音声信号生成部１５での処理は周知であるので、ここでは説明を省略する。
【００１４】
（ピッチパタン生成）
次に、図２を参照してピッチパタン生成部１４の処理手順を説明する。
まず、図１の言語処理部１１で入力文章を解析することにより生成される言語属性情報１０３を入力し（ステップＳ１）、さらに図１の音韻継続時間長生成部１３で生成される音韻継続時間長情報１０４を入力する（ステップＳ２）。
【００１５】
次に、これらの言語属性情報１０３及び音韻継続時間長情報１０４に基づいて基本ピッチパタンを生成する（ステップＳ３）。ここで、基本ピッチパタンとは従来よりＦ０パタンと称されるピッチパタンであるが、ピッチパタン生成部１４では、これを補正して最終的なピッチパタンを生成するため、補正後のピッチパタンと区別する意味で、基本ピッチパタンと称する。
【００１６】
次に、基本ピッチパタンを補正するための補正パタンを生成し（ステップＳ４）、この補正パタンを基本ピッチパタンに各々のパタンの終端位置を一致させて加え合わせることにより、基本ピッチパタンの特に文末パタンを補正する（ステップＳ５）。
【００１７】
すなわち、基本ピッチパタンをｐ［ｔ］（０＜ｔ＜Ｔ）、補正パタンをｄ［ｔ］（０＜ｔ＜Ｄ）とすると、補正後の最終的なピッチパタンｃ［ｔ］（０＜ｔ＜Ｔ）は、次の数式（１）（２）で求められる。
ｃ［ｔ］＝ｐ［ｔ］＋ｄ［ｔ−（Ｔ−Ｄ）］（１）
但し、ｄ［ｔ］＝０（ｔ＜０）（２）
このようにして、特に文末パタンが補正された最終的なピッチパタンを生成することができる。基本ピッチパタン及び補正パタンの生成順序は、特に図２に示した例に限定されるものではなく、また基本ピッチパタン及び補正パタンの生成を並行して行うことも可能である。
【００１８】
（基本ピッチパタン生成）
次に、図３を用いて図２における基本ピッチパタン生成ステップＳ３の具体的な処理を説明する。ここでは、アクセント句を韻律単位とし、アクセント規則に基づいて読み上げ調のピッチパタンを生成する例について述べる。
【００１９】
基本ピッチパタン生成ステップＳ３では、例えば文献［１］籠嶋岳彦，森田眞弘，瀬戸重宣，赤嶺政巳，志賀芳則，“代表パターンコードブックを用いた基本周波数制御法”，信学論（Ｄ−ＩＩ），ｖｏｌ．Ｊ８５−Ｄ−ＩＩ，ｎｏ．６，ｐｐ．９７６−９８６，Ｊｕｎｅ，２００２．に記載されているように、言語属性情報１０３及び音韻継続時間長情報１０４に従ってアクセント句単位の基本ピッチパタンを生成する。文献［１］では、この基本ピッチパタンをＦ０パターンと称している。基本ピッチパタン生成に際しては、図２のステップＳ１で入力される言語属性情報１０３のうち、入力文章の各アクセント句から生成されるアクセント型、モーラ数、品詞、音韻及び係り受けのうちの少なくとも一部の情報を用いる。
【００２０】
まず、これらの言語属性情報を参照して、代表ピッチパタン選択規則３１に従い代表ピッチパタン辞書３２から一つの代表ピッチパタンを選択する（ステップＳ１１）。ここで、代表ピッチパタンとは、音声のアクセント句単位の基本周波数の代表的な時間変化パタンを時間軸についてモーラ単位で正規化したものである。代表ピッチパタン辞書３２は、種々の音声データについて求められた多数の代表ピッチパタンを格納している。
【００２１】
代表パターン選択規則３１は、代表ピッチパタン辞書３２中の各代表パターンを選択した際の近似誤差をアクセント型、モーラ数などの言語属性から推定し、推定した近似誤差が最小になる代表パターンを選択するための規則である。代表ピッチパタン選択規則３１及び代表ピッチパタン辞書３２は、予め読み上げ調の音声データを用いて予め作成される。
【００２２】
次に、ステップＳ１１により選択された代表ピッチパタンを音韻継続時間長情報１０４で示される音韻継続時間長に従って、時間軸方向に伸縮する（ステップＳ１２）。すなわち、選択された代表ピッチパタンの時間長を音韻継続時間長に応じた長さとなるように伸縮する。
【００２３】
次に、言語属性情報１０３を参照して平行移動量（オフセット項）を推定する（ステップＳ１３）。この平行移動量の推定は、予め読み上げ調の音声データを用いて定められた平行移動量推定規則に従って行われる。こうして推定された平行移動量に従って、代表音声パタンを対数基本周波数軸上で平行移動させる（ステップＳ１４）。これによって、入力文章に対応する読み上げ調の基本ピッチパタンが最終的に生成される。
上述した基本ピッチパタン生成処理はあくまで一例であり、基本周波数パタン生成過程モデルに基づく手法など、他の手法を用いてもよい。
【００２４】
（補正パタン生成その１）
次に、図４を用いて図２における補正パタン生成ステップＳ４の具体的な処理例を説明する。通常の読み上げ調の音声を生成する音声合成技術では、入力文章の文末表現に対応した的確なピッチパタンを生成することが難しい。補正パタン生成ステップＳ４では、主として、このような文末のピッチパタンを補正するための補正パタンを生成する。ここでは、補正パタンの生成に際して、図２のステップＳ１で入力される言語属性情報１０３のうち、入力文章の文末アクセント句から生成されるアクセント型、モーラ数、品詞、文末形態素及び文末記号の少なくとも一つの情報を用いる。
【００２５】
まず、これらの言語属性情報を参照して、代表補正パタン選択規則４１に従い代表補正パタン辞書４２から一つの代表補正パタンを選択する（ステップＳ２１）。ここで、代表補正パタンとは、音声の基本周波数成分についての後述する差分の代表的な時間変化パタンを時間軸についてモーラ単位に正規化したものである。代表補正パタン選択規則４１及び代表補正パタン辞書４２は、予め口語的文末表現を含む文や、発話者の意図を伝達する文などの音声データを用いて学習を行うことによって作成される。
【００２６】
次に、ステップＳ２１により選択された代表補正パタンを音韻継続時間長情報１０４で示される音韻継続時間長に従って時間軸方向に伸縮することにより、補正パタンを生成する（ステップＳ２２）。すなわち、選択された代表補正パタンの時間長を音韻継続時間長に応じた長さとなるように伸縮することで、補正パタンを生成する。
【００２７】
上述した基本ピッチパタン及び補正パタンの生成においては、基本ピッチパタン及び補正パタンをそれぞれ音韻継続時間長に従って生成した後に、基本ピッチパタンを補正しているが、代表ピッチパタンに代表補正パタンを終端位置を揃えて加え合わせ、その後、音韻継続時間長に従って時間軸方向に伸縮させるという手順を用いてもよい。
【００２８】
（代表補正パタン辞書）
ここで、代表補正パタン辞書４２の作成方法について述べる。代表補正パタン辞書４２は、口語的文末表現を含む文や、発話者の意図を伝達する文など文末表現に特徴のある音声データから、学習によって作成される。
【００２９】
具体的には、図１に示すピッチパタン生成部１４に、学習用の音声データに対応する言語属性情報及び音韻継続時間長情報を入力して、学習用の音声データの韻律単位からピッチパタンを抽出する。次に、こうして抽出したピッチパタン（学習ピッチパタン）と、図２中の基本ピッチパタン生成ステップＳ３と同様に入力文章を解析して得られる韻律単位の言語属性情報に従って生成されるピッチパタン（基本ピッチパタン）との差分を求める。
【００３０】
次に、こうして求めた差分の代表的な時間変化パタンを時間軸についてモーラ単位に正規化することにより、補正パタン（差分パタン）を作成する。この手順によって、できるだけの多数の学習用音声データを用いて補正パタンを求め、それらをＬＢＧアルゴリズムによりクラスタリングすることにより、代表補正パタン辞書４２を作成することができる。
【００３１】
代表補正パタン辞書４２に格納される代表補正パタンのモーラ数は、入力文章のモーラ数と一致するとは限らない。選択された代表補正パタンのモーラ数が入力文章のモーラ数より大きい場合は、代表補正パタンの終端から入力文章のモーラ数に従って用い補正パタンを生成する。代表補正パタンのモーラ数が入力文章のモーラ数より小さい場合は、先の数式（２）に示したように、不足分の補正パタンを０として用いる。いずれにしても、補正パタンに従って基本ピッチパタンを補正する際は、基本ピッチパタンと補正パタンとを両者の終端位置を揃えて加え合わせるため、正規化などの特別な処理をする必要はない。
【００３２】
（代表補正パタン辞書の学習）
次に、上述した代表補正パタン辞書４２の学習法について述べる。上述のように、代表補正パタン辞書は学習用データのピッチパタンと基本ピッチパタンの差分をＬＢＧアルゴリズムによりクラスタリングすることで辞書を学習することができる。一方、これとは別に、近似誤差を最小化する方法で学習することができる。この学習法について述べると、上述したように、代表補正パタンは学習用の音声データの韻律単位から抽出した学習ピッチパタンと、入力文章を解析して得られる韻律単位の言語属性情報に従って生成される基本ピッチパタン（Ｆ０パタン）との差分をモーラ単位に正規化して生成されるため、ここでは差分Ｆ０パタンと称する。
【００３３】
代表補正パタン辞書４２の学習に際しては、まず学習用音声データの言語属性を用いて代表ピッチパタンを選択し、Ｆ０パターンを生成する。このＦ０パターンを基準として、差分Ｆ０パターンを学習する。代表ピッチパタンをＦ０の対数を要素とするベクトルｃ、オフセットをｂ、代表ピッチパタンに対する継続時間長の線形伸縮を表す行列をＤ（ｃ）で表す。差分Ｆ０パターンをｄ、差分Ｆ０パタンに対する継続時間長の線形伸縮行列をＤ（ｄ）と表す。
【００３４】
生成されるアクセント句単位のＦ０パターンを表すベクトルｐは、次の数式（３）で表される。
ｐ＝（Ｄ^（ｃ）ｃ＋ｂ_ｉ）＋Ｄ^（ｄ）ｄ（３）
差分Ｆ０パターンｄ_ｉが選択されたときの学習用音声データ（トレーニングベクトル）ｒ_ｊとＦ０パターンｐ_ｉｊとの近似誤差ｅ_ｉｊは、次の数式（４）で表される。
【００３５】
ｅ_ｉｊ＝（ｒ_ｊ−（Ｄ_ｊ ^（ｃ）ｃ_ｊ＋ｂ_ｊｉ＋Ｄ_ｉｊ ^（ｄ）ｄ_ｉ））^Ｔ
（ｒ_ｊ−（Ｄ_ｊ ^（ｃ）ｃ_ｊ＋ｂ_ｊｉ＋Ｄ_ｉｊ ^（ｄ）ｄ_ｉ））（４）
ここで、ｃ_ｊは学習用音声データｒ_ｊに対応する言語属性から推定した代表ピッチパターン、Ｄ_ｊ（ｃ）は代表ピッチパターンｃ_ｊをｒ_ｊの継続時間長に合わせる線形伸縮行列、ｂ_ｊは近似誤差最小基準に基づく最適オフセットを示す。Ｄ_ｉｊ ^（ｄ）は差分Ｆ０パターンｄ_ｉを学習用音声データｒ_ｊに継続時間長を合わせる線形伸縮行列であり、ｉは全ての要素が１であるベクトルを示す。
【００３６】
代表補正パタン辞書４２の学習時には、学習用音声データｒ_ｊを近似誤差ｅ_ｉｊが最小となるようにクラスタＧ_ｉにクラスタリングし、クラスタＧ_ｉに属する近似誤差の総和を最小化する差分Ｆ０パターンｄ_ｉを、次の方程式を解くことによって求める。
【００３７】
【数１】

【００３８】
（補正パタン選択規則）
次に、補正パタン選択規則４１について説明する。本実施形態では、補正パタンの選択に際して、言語属性情報１０３のうちアクセント型、品詞及び係り受けなどの、代表ピッチパタンの選択に用いる言語属性情報と共に、文末の形態素及び文末の記号の少なくとも一部の情報を言語属性情報として用いる。図５に、決定木に基づく補正パタン選択規則４１の例を示す。
【００３９】
図５では、まず入力文章が疑問文かどうかを文末の記号により判定し（ステップＳ３１）、疑問文の場合は、文末が高く上昇する代表補正パタン５１を選ぶ。入力文章が疑問文でない場合は、文末の形態素が終助詞の「ね」もしくは「でしょ」であるかどうかを判定し（ステップＳ３２）、これらのいずれかに該当する場合は、文末パタンが上昇する代表補正パタン５２、該当しない場合は文末パタンが下降する代表補正パタン５３を選択する。
【００４０】
上述した例は模擬例であって、ヒューリスティックな決定木に基づく方法に限らず、口語的文末表現を含む文や、発話者の意図を伝達する文など文末表現に特徴のある音声データから学習することにより作成してもよい。非特許文献１と同様に、近似誤差を最小化する方法に基づいて選択する方法も考えられる。近似誤差を最小化する基準に基づいて行う場合は、各補正パタンを選択してピッチパタンを生成した際の近似誤差を推定し、補正パタン辞書中の補正パタンのうち、推定近似誤差が最小となるパタンを選択する。近似誤差の推定モデルとしては、数量化Ｉ類を用いることができる。
【００４１】
（補正バタン選択規則の学習）
上述した補正パタン選択規則４１の学習法について述べる。補正パタン（差分Ｆ０パターン）の選択は、前述した代表ピッチパタンの選択規則と同様に、近似誤差を最小化するという基準を用いた選択規則により行う。数量化Ｉ類により、学習用音声データの言語属性から各クラスタを選択した場合の誤差を推定し、誤差が最小になるクラスタを選択する。補正パタン選択規則４１は、トレーニングデータの属性及び近似誤差の組を教師データとして学習される。補正パタンの選択には、学習用音声データの言語属性として文末の形態素、文末の記号、アクセント型及び品詞の少なくとも一つを用いることができる。
【００４２】
（ピッチパタン生成例）
図６に、本実施形態におけるピッチパタンの生成例を示す。ここでは、「食べに行かない？」という入力文章１０１に対応するピッチパタンを生成した例を示す。この文章は、「食べに」が３モーラ１型、「行かない？」が４モーラ３型、という２つのアクセント句から構成されている。ピッチパタン生成ステップＳ３では、それらの言語属性情報に応じて、図２に示した手順により基本ピッチパタン６１が生成される。
【００４３】
次に、補正パタン生成ステップＳ４では、前述したように文末の特徴を表す補正パタン６２が生成される。ここでは、図５で説明した代表補正パタン選択規則４１により、２分木に基づいて代表補正パタン辞書４２から代表補正パタンが選択される。「食べにいかない？」という文章は、文末が疑問符であるため、この場合は文末パタンを上昇させるような補正パタンが補正パタン辞書４２から選択される。さらに、こうして選択された代表補正パタンを音韻継続時間長に従って伸縮することにより、図６中に示すような補正パタン６３が生成される。
【００４４】
次に、基本ピッチパタン補正ステップＳ５では、ステップＳ３で生成された貴本ピッチパタン６１に対して、ステップＳ４で生成された補正パタン６２を加え合わせて補正を行うことにより、最終的なピッチパタン６３が生成される。補正パタン６２は、基本ピッチパタン６１よりモーラ数が少ないが、基本ピッチパタン補正ステップＳ５では、基本ピッチパタン６１と補正パタン６２とを両者の終端位値を揃えて加え合わせることで、図６中に示すように疑問を表す文末パタンの上昇したピッチパタン６３を生成することができる。
【００４５】
本実施形態によると、次のような利点がある。本実施形態に従い、アクセント規則に従って生成した基本ピッチパタンに対して文末表現を表す差分パタンを補正パタンとして加えることにより基本ピッチパタンを補正する場合、アクセント規則に従って生成した基本ピッチパタンと補正後のピッチパタンとは、入力文章中の同一の韻律単位に対応しているため、両者の言語属性は等しい。
【００４６】
従って、先に示した特許文献１に記載されているような、異なる言語属性情報の差を差分パタンで表現するピッチパタン変形方法では、多様な文末表現を生成することはできない。また、特許文献１においては入力ピッチパタンと適用先ピッチパタンの言語情報のモーラ数が異なる場合、ピッチパタンベクトルの次元が異なるため、次元を正規化する処理を必要とする。
【００４７】
これに対して、本実施形態では日本語のアクセント規則に基づいて生成した基本ピッチパタンに、入力文章の文末パタンを補正するための補正パタンを終端位置を揃えて加え合わせて基本ピッチパタンを補正することにより、最終的なピッチパタンを生成する。このようにして生成されたピッチパタンを用いて音声信号を合成することによって、口語的文末表現を含む文章や、発話者の意図を伝達する文章など、多様な入力文章に対して自然性に優れた合成音声信号を生成することができる。
【００４８】
また、基本ピッチパタンに対して補正パタンを終端位置を揃えて加え合わせることによって、特許文献１のように基本ピッチパタンと次元を合わせる操作が不要である。従って、ピッチパタンの変化を効率よく表現することができる。
さらに、代表補正パタンの選択に際して、アクセント型、文末の形態素及び文末の記号の少なくとも一つを参照することにより、例えば「〜ね」「〜でしょ」など文末表現に特徴のある典型的な文末形態素の有無や疑問符の有無などに応じて補正パタンを自動的に容易に選択することができる。
【００４９】
（補正パタン生成その２）
次に、図７を用いて図２における補正パタン生成ステップＳ４の他の具体的な処理例を説明する。この処理例では、入力文章１０１中に基本ピッチパタンを制御するための制御情報、特に基本ピッチパタンのうち文末に対応するパタン（文末ピッチパタンという）を制御するための制御情報（タグ情報）を埋め込んでおき、この制御情報を参照して代表補正パタンを選択する（ステップＳ４１）。
【００５０】
ここで、制御情報とは、入力文章中に挿入される、ユーザの指示を表す情報であって、例えば文章の韻律単位において指定する韻律タグ情報である。より具体的には、制御情報は文末ピッチパタンの＜上昇＞＜下降＞、文章の談話構造を指示する＜確認＞＜疑問＞＜命令＞＜断定＞などのタグ情報であり、これらが文章中に埋め込まれる。これらに加えて、文末毎に補正の有無（＜する＞＜しない＞）のタグ情報を埋め込んでもよい。
【００５１】
例えば、「食べに行かない。」という文に対し、「＜上昇＞食べにいかない＜／上昇＞。」というタグ情報を文章中に埋め込んでおくと、文末の「ない」の部分が上昇し、疑問や勧誘を表現することになる。「＜下降＞食べにいかない＜／下降＞。」というタグ情報を文章中に埋め込んだ場合は、文末が下降し、断定の表現になる。
【００５２】
これらの制御情報（タグ情報）を属性情報として加えることにより、代表補正パタン選択規則４１を作成しておく。ステップＳ４１では、図４で説明した言語属性情報に基づく代表補正パタン選択手法と同様に、決定木に基づく方法や、近似誤差を最小とする方法などにより、代表差分パタンを選択する。また、制御情報として直接差分クラスタを指示してもよい。
【００５３】
次に、ステップＳ４１で選択された代表補正パタンを音韻継続時間長情報で示される音韻継続時間長に従って時間軸方向に伸縮することにより、補正パタンを生成する（ステップＳ４２）。ステップＳ４２の処理は、図４中に示したステップＳ２２と同様であるので、詳細な説明を省略する。
【００５４】
（補正パタン生成その３）
図８に、図２における補正パタン生成ステップＳ４のもう一つの具体的な処理例を示す。図８から明らかなように、この処理例は図４と図７に示した処理を併用した例である。
【００５５】
すなわち、図２中のステップＳ１で入力される言語属性情報のうち、入力文章１０１の文末アクセント句から生成されるアクセント型、モーラ数、品詞、文末形態素、文末記号などの情報、入力文章１０１中に埋め込まれた、基本ピッチパタンを制御するための制御情報のいずれかを参照して、代表補正パタン選択規則４１に従い、代表補正パタン辞書４２から一つの代表補正パタンを選択する（ステップＳ５１）。
【００５６】
次に、図４中に示したステップＳ２２と同様に、ステップＳ５１で選択された代表補正パタンを音韻継続時間長情報で示される音韻継続時間長に従って時間軸方向に伸縮することにより、補正パタンを生成する（ステップＳ５２）。
【００５７】
この例の補正パタン生成方法によると、入力文章を解析して得られる言語属性情報のみでは適切な代表補正パタンを選択することが困難、もしくは不可能な場合、ユーザの指示により補正パタンを容易に選択することができる。
【００５８】
【発明の効果】
以上説明したように、本発明によれば口語的文末表現を含む文や発話者の意図を伝達する文など文末表現に特徴のある入力文章に対して的確なピッチパタンを生成することができる。また、このようにして生成されるピッチパタンを用いることにより、上述のような入力文章に対して自然性に優れた合成音声信号を生成することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る音声合成システムの構成を示すブロック図
【図２】同実施形態におけるピッチパタン生成部の処理手順を示すフローチャート
【図３】図２における基本ピッチパタン生成ステップの処理手順を示すフローチャート
【図４】図２における補正パタン生成ステップの処理手順の例を示すフローチャート
【図５】代表補正パタン選択規則の具体例を説明する図
【図６】同実施形態におけるピッチパタン生成の具体例を説明する図
【図７】図２における補正パタン生成ステップの処理手順の他の例を示すフローチャート
【図８】図２における補正パタン生成ステップの処理手順のさらに別の例を示すフローチャート
【符号の説明】
１１…言語処理部
１２…韻律生成部
１３…音韻継続時間長生成部
１４…ピッチパタン生成部
１５…音声信号生成部
１０１…入力文章
１０２…音韻記号列
１０３…言語属性情報
１０４…音韻継続時間長情報
１０５…ピッチパタン
１０６…合成音声信号

Claims

入力文章を解析して生成される言語属性及び音韻継続時間長の情報から、合成音声信号の生成のための第１のピッチパタンを生成する生成ステップと、
予め生成された複数の補正パタンを含む補正パタン辞書から、前記第１のピッチパタンを補正するための一つの補正パタンを選択する選択ステップと、
選択された補正パタンを前記第１のピッチパタンに各々の終端位置を一致させて加え合わせることにより、前記第１のピッチパタンを補正して第２のピッチパタンを生成する補正ステップとを具備するピッチパタン生成方法。
前記選択ステップは、前記言語属性の情報のうちアクセント型、文末の形態素及び文末の記号の少なくとも一つの情報を参照して、予め定められた選択規則により前記補正パタン辞書から前記一つの補正パタンを選択する請求項１記載のピッチパタン生成方法。
前記入力文章は、前記第１のピッチパタンのうち該入力文章の文末に対応するパタンを制御するための制御情報が埋め込まれており、
前記選択ステップは、前記制御情報を参照して、予め定められた選択規則により前記補正パタン辞書から前記一つの補正パタンを選択する請求項１記載のピッチパタン生成方法。
前記選択ステップは、前記言語属性の情報のうちアクセント型、文末の形態素及び文末の記号の少なくとも一つの情報、または前記入力文章に埋め込まれた、前記第１のピッチパタンのうちの該入力文章の文末に対応するパタンを制御するための制御情報のいずれかを参照して、予め定められた選択規則により前記補正パタン辞書から前記一つの補正パタンを選択する請求項１記載のピッチパタン生成方法。
前記補正パタン辞書は、所定の音声データの韻律単位から抽出される第１の学習用ピッチパタンと、該韻律単位の言語属性情報に従って生成される第２の学習用ピッチパタンとの差分パタンとして生成される請求項１記載のピッチパタン生成方法。
入力文章を解析して音韻記号列及び言語属性の情報を生成するステップと、
前記音韻記号列及び言語属性の情報を参照して音韻継続時間長の情報を生成するステップと、
前記言語属性及び前記音韻継続時間長の情報から第１のピッチパタンを生成するステップと、
予め生成された複数の補正パタンを含む補正パタン辞書から、前記第１のピッチパタンを補正するための一つの補正パタンを選択するステップと、
選択された補正パタンを前記第１のピッチパタンに各々の終端位置を一致させて加え合わせることにより、前記第１のピッチパタンを補正して第２のピッチパタンを生成するステップと、
前記音韻記号列と前記音韻継続時間長の情報及び前記第２のピッチパタンを用いて合成音声信号を生成するステップとを具備する音声合成方法。
前記選択ステップは、前記言語属性の情報のうちアクセント型、文末の形態素及び文末の記号の少なくとも一つの情報を参照して、予め定められた選択規則により前記補正パタン辞書から前記一つの補正パタンを選択する請求項６記載の音声合成方法。
前記入力文章は、前記第１のピッチパタンのうち該入力文章の文末に対応するパタンを制御するための制御情報が埋め込まれており、
前記選択ステップは、前記制御情報を参照して、予め定められた選択規則により前記補正パタン辞書から前記一つの補正パタンを選択する請求項６記載の音声合成方法。
入力文章を解析して音韻記号列及び言語属性の情報を生成する手段と、
前記音韻記号列及び言語属性の情報を参照して音韻継続時間長の情報を生成する手段と、
前記言語属性及び前記音韻継続時間長の情報から第１のピッチパタンを生成する手段と、
予め生成された複数の補正パタンを含む補正パタン辞書から、前記第１のピッチパタンを補正するための一つの補正パタンを選択する手段と、
選択された補正パタンを前記第１のピッチパタンに各々の終端位置を一致させて加え合わせることにより、前記ピッチパタンを補正して第２のピッチパタンを生成する手段と、
前記音韻記号列と前記音韻継続時間長の情報及び前記第２のピッチパタンを用いて合成音声信号を生成する手段とを具備する音声合成システム。
入力文章に対応する合成音声信号を生成する処理をコンピュータに行わせるプログラムであって、
前記入力文章を解析して音韻記号列及び言語属性の情報を生成する処理と、
前記音韻記号列及び言語属性の情報を参照して音韻継続時間長の情報を生成する処理と、
前記言語属性及び前記音韻継続時間長の情報から第１のピッチパタンを生成する処理と、
予め生成された複数の補正パタンを含む補正パタン辞書から、前記第１のピッチパタンを補正するための一つの補正パタンを選択する処理と、
選択された補正パタンを前記第１のピッチパタンに各々の終端位置を一致させて加え合わせることにより、前記第１のピッチパタンを補正して第２のピッチパタンを生成する処理と、
前記音韻記号列と前記音韻継続時間長の情報及び前記第２のピッチパタンを用いて前記合成音声信号を生成する処理とを前記コンピュータに行わせる音声合成プログラム。