JP2004226505A - ピッチパタン生成方法、音声合成方法とシステム及びプログラム - Google Patents

ピッチパタン生成方法、音声合成方法とシステム及びプログラム Download PDF

Info

Publication number
JP2004226505A
JP2004226505A JP2003011602A JP2003011602A JP2004226505A JP 2004226505 A JP2004226505 A JP 2004226505A JP 2003011602 A JP2003011602 A JP 2003011602A JP 2003011602 A JP2003011602 A JP 2003011602A JP 2004226505 A JP2004226505 A JP 2004226505A
Authority
JP
Japan
Prior art keywords
pattern
pitch pattern
pitch
correction
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003011602A
Other languages
English (en)
Inventor
Masanori Tamura
正統 田村
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003011602A priority Critical patent/JP2004226505A/ja
Publication of JP2004226505A publication Critical patent/JP2004226505A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】口語的文末表現を含む文や発話者の意図を伝達する文など、入力文章の多様な文末の特徴を効果的に表現できるピッチパタン生成方法を提供する。
【解決手段】入力文章を解析して生成される言語属性及び音韻継続時間長の情報を入力して、合成音声信号の生成のための基本ピッチパタンを生成し(S1〜S3)、予め生成された複数の補正パタンを含む補正パタン辞書から基本ピッチパタンを補正するための一つの補正パタンを選択し(S4)、選択された補正パタンを基本ピッチパタンに各々の終端位置を一致させて加え合わせることにより、補正されたピッチパタンを生成する(S5)。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、入力文章に対応する音声信号を合成する、いわゆるテキスト音声合成のためのピッチパタン生成方法、該ピッチパタン生成方法を用いた音声合成方法とシステム及びプログラムに関する。
【0002】
【従来の技術】
テキスト音声合成は、入力文章に対応する合成音声を生成する技術であり、テキストの読み上げ、カーナビゲーションにおける音声案内等幅広い用途に用いられている。テキスト音声合成の応用範囲が広がるにつれて、合成音声は自然で多様な表現を可能とすることが求められている。
【0003】
テキスト音声合成では、ピッチパタンと呼ばれる音の高さの変化を表すパタン(基本周波数パタン=F0パタンともいう)を合成単位として、合成音声信号を生成する。ピッチパタンの生成は一般的に、日本語のアクセント規則を仮定し、アクセント型、モーラ数等の言語属性を示す情報に従って制御される(例えば、非特許文献1)。これは、日本語のアクセントは高低2段階で表わされ、第1モーラと第2モーラで高低が異なり、アクセント核位置の次のモーラで高アクセントから低アクセントに遷移するという規則に基づいている。
【0004】
一方、入力ピッチパタンと適用先ピッチパタンとの間のアクセント型、モーラ数などの言語属性の差に対応した差分パタンを変形規則とし、入力ピッチパタンに適用して変形するピッチパタン変形法が開示されている(特許文献1)。すなわち、言語属性が同一のアクセント句の平均的ピッチパタン形状をベクトル表現し、異なる言語属性を持つアクセント句間のピッチパタンの形状差を差分パタンで表現し、この差分パタンを変形規則とする。そして、入力ピッチパタンの言語属性情報と変形先ピッチパタンの言語属性情報を入力し、これらの言語属性情報の差に対応した変形規則を用いてピッチパタンを変形する。
【0005】
【非特許文献1】
籠嶋 岳彦 外4名 “代表パターンコードブックを用いた基本周波数制御法”,電子情報通信学会論文誌 D−II,2002年6月,Vol. J85−DII,No.6, p.976−986
【特許文献1】
特開2000−75880公報
【発明が解決しようとする課題】
上述したように、従来のピッチパタン生成法は日本語アクセント規則に基づいている。しかし、「〜ね」「〜でしょ」等の口語的文末表現を含む文や、疑問文等の発話者の意図を伝達する文などは、文末のピッチパタンの特徴が重要な役割を果たしている。従って、アクセント規則に基づく言語属性情報から生成したピッチパタンのみでは、文末ピッチパタンの特徴を効率よく、自然に表現することが難しい。
【0006】
従って、本発明は多様な文末の特徴を効果的に表現できるピッチパタン生成方法、該ピッチパタン生成方法を用いた音声合成方法とシステム及びプログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
上述の課題を解決するため、本発明ではピッチパタンの生成に際して、まず、入力文章を解析して生成される言語属性及び音韻継続時間長の情報から、合成音声信号の生成のための第1のピッチパタンを生成する。一方、予め生成された複数の補正パタンを含む補正パタン辞書から、第1のピッチパタンを補正するための一つの補正パタンを選択する。選択された補正パタンを第1のピッチパタンに各々の終端位置を一致させて加え合わせることにより、第1のピッチパタンを補正して、第2のピッチパタンを最終的に生成する。
【0008】
一方、音声合成に際しては、入力文章を解析して音韻記号列及び言語属性の情報を生成する。これらの音韻記号列及び言語属性の情報を参照しても音韻継続時間長の情報を生成する。言語属性及び音韻継続時間長の情報から、第1のピッチパタンを生成する。一方、予め生成された複数の補正パタンを含む補正パタン辞書から、第1のピッチパタンを補正するための一つの補正パタンを選択する。選択された補正パタンを第1のピッチパタンに各々の終端位置を一致させて加え合わせることにより、第1のピッチパタンを補正して第2のピッチパタンを生成する。音韻記号列と音韻継続時間長の情報及び第2のピッチパタンを用いて、入力文章に対応する合成音声信号を生成する。
【0009】
さらに、本発明の別の観点によると、入力文章に対応する合成音声信号を生成する処理をコンピュータに行わせるプログラムであって、入力文章を解析して音韻記号列及び言語属性の情報を生成する処理と、音韻記号列及び言語属性の情報を参照して音韻継続時間長の情報を生成する処理と、言語属性及び音韻継続時間長の情報から第1のピッチパタンを生成する処理と、予め生成された複数の補正パタンを含む補正パタン辞書から、第1のピッチパタンを補正するための一つの補正パタンを選択する処理と、選択された補正パタンを第1のピッチパタンに各々の終端位置を一致させて加え合わせることにより、第1のピッチパタンを補正して第2のピッチパタンを生成する処理と、音韻記号列と音韻継続時間長の情報及び第2のピッチパタンを用いて合成音声信号を生成する処理とをコンピュータに行わせる音声合成プログラムを提供することができる。
【0010】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
(音声合成システム)
まず、図1を用いて本発明の一実施形態に係るテキスト音声合成のための音声合成システムについて説明する。この音声合成システムは、主たる構成要素として言語処理部11、韻律生成部12及び音声信号生成部13を含む。これらの構成要素は、一部または全部がハードウェアによって実現されていてもよいし、一部または全部がコンピュータ上でソフトウェアとして実現されてもよい。
【0011】
入力文章101は、まず言語処理部11に入力される。言語処理部11では入力文章101に対して形態素解析及び構文解析を含む解析が行われ、音韻記号列102とアクセント型、品詞、モーラ数、係り先などの複数の言語属性を表す情言語属性情報103が生成される。音韻記号列102と言語属性情報103は、韻律生成部102に入力される。韻律生成部12は、音韻継続時間長生成部13とピッチパタン生成部14を含み、音韻記号列102及び言語属性情報103に基づいてピッチやリズムのパタンを生成する。
【0012】
すなわち、音韻継続時間長生成部13では、音韻記号列102と言語属性情報103を参照して、各音素の時間的な長さを表す音韻継続時間長情報104が生成される。ピッチパタン生成部14は、言語属性情報103と音韻継続時間長情報104を入力として、音の高さの変化を表すパタンであるピッチパタン(F0パタンともいう)105を生成する。ピッチパタン生成部14については、後に詳しく説明する。音韻継続時間長生成部13及びピッチパタン生成部14では、言語処理部11によって生成される言語属性情報103で示される言語属性の全てを用いるわけではなく、それぞれの処理で必要な一つまたは複数の言語属性を用いる。
【0013】
最後に、音声信号生成部15によって、音韻記号列101、音韻継続時間長情報104及びピッチパタン105に基づき、入力文章101に対応する合成音声信号106が生成される。こうして生成される合成音声信号106を用いて、入力文章101を音声として出力することができる。音声信号生成部15での処理は周知であるので、ここでは説明を省略する。
【0014】
(ピッチパタン生成)
次に、図2を参照してピッチパタン生成部14の処理手順を説明する。
まず、図1の言語処理部11で入力文章を解析することにより生成される言語属性情報103を入力し(ステップS1)、さらに図1の音韻継続時間長生成部13で生成される音韻継続時間長情報104を入力する(ステップS2)。
【0015】
次に、これらの言語属性情報103及び音韻継続時間長情報104に基づいて基本ピッチパタンを生成する(ステップS3)。ここで、基本ピッチパタンとは従来よりF0パタンと称されるピッチパタンであるが、ピッチパタン生成部14では、これを補正して最終的なピッチパタンを生成するため、補正後のピッチパタンと区別する意味で、基本ピッチパタンと称する。
【0016】
次に、基本ピッチパタンを補正するための補正パタンを生成し(ステップS4)、この補正パタンを基本ピッチパタンに各々のパタンの終端位置を一致させて加え合わせることにより、基本ピッチパタンの特に文末パタンを補正する(ステップS5)。
【0017】
すなわち、基本ピッチパタンをp[t] (0<t<T)、補正パタンをd[t] (0<t<D) とすると、補正後の最終的なピッチパタンc[t] (0<t<T)は、次の数式(1)(2)で求められる。
c[t]=p[t]+d[t−(T−D)] (1)
但し、d[t]=0(t<0) (2)
このようにして、特に文末パタンが補正された最終的なピッチパタンを生成することができる。基本ピッチパタン及び補正パタンの生成順序は、特に図2に示した例に限定されるものではなく、また基本ピッチパタン及び補正パタンの生成を並行して行うことも可能である。
【0018】
(基本ピッチパタン生成)
次に、図3を用いて図2における基本ピッチパタン生成ステップS3の具体的な処理を説明する。ここでは、アクセント句を韻律単位とし、アクセント規則に基づいて読み上げ調のピッチパタンを生成する例について述べる。
【0019】
基本ピッチパタン生成ステップS3では、例えば文献[1]籠嶋岳彦,森田眞弘,瀬戸重宣,赤嶺政巳,志賀芳則,“代表パターンコードブックを用いた基本周波数制御法”,信学論(D−II), vol.J85−D−II, no.6, pp.976−986, June,2002.に記載されているように、言語属性情報103及び音韻継続時間長情報104に従ってアクセント句単位の基本ピッチパタンを生成する。文献[1]では、この基本ピッチパタンをF0パターンと称している。基本ピッチパタン生成に際しては、図2のステップS1で入力される言語属性情報103のうち、入力文章の各アクセント句から生成されるアクセント型、モーラ数、品詞、音韻及び係り受けのうちの少なくとも一部の情報を用いる。
【0020】
まず、これらの言語属性情報を参照して、代表ピッチパタン選択規則31に従い代表ピッチパタン辞書32から一つの代表ピッチパタンを選択する(ステップS11)。ここで、代表ピッチパタンとは、音声のアクセント句単位の基本周波数の代表的な時間変化パタンを時間軸についてモーラ単位で正規化したものである。代表ピッチパタン辞書32は、種々の音声データについて求められた多数の代表ピッチパタンを格納している。
【0021】
代表パターン選択規則31は、代表ピッチパタン辞書32中の各代表パターンを選択した際の近似誤差をアクセント型、モーラ数などの言語属性から推定し、推定した近似誤差が最小になる代表パターンを選択するための規則である。代表ピッチパタン選択規則31及び代表ピッチパタン辞書32は、予め読み上げ調の音声データを用いて予め作成される。
【0022】
次に、ステップS11により選択された代表ピッチパタンを音韻継続時間長情報104で示される音韻継続時間長に従って、時間軸方向に伸縮する(ステップS12)。すなわち、選択された代表ピッチパタンの時間長を音韻継続時間長に応じた長さとなるように伸縮する。
【0023】
次に、言語属性情報103を参照して平行移動量(オフセット項)を推定する(ステップS13)。この平行移動量の推定は、予め読み上げ調の音声データを用いて定められた平行移動量推定規則に従って行われる。こうして推定された平行移動量に従って、代表音声パタンを対数基本周波数軸上で平行移動させる(ステップS14)。これによって、入力文章に対応する読み上げ調の基本ピッチパタンが最終的に生成される。
上述した基本ピッチパタン生成処理はあくまで一例であり、基本周波数パタン生成過程モデルに基づく手法など、他の手法を用いてもよい。
【0024】
(補正パタン生成その1)
次に、図4を用いて図2における補正パタン生成ステップS4の具体的な処理例を説明する。通常の読み上げ調の音声を生成する音声合成技術では、入力文章の文末表現に対応した的確なピッチパタンを生成することが難しい。補正パタン生成ステップS4では、主として、このような文末のピッチパタンを補正するための補正パタンを生成する。ここでは、補正パタンの生成に際して、図2のステップS1で入力される言語属性情報103のうち、入力文章の文末アクセント句から生成されるアクセント型、モーラ数、品詞、文末形態素及び文末記号の少なくとも一つの情報を用いる。
【0025】
まず、これらの言語属性情報を参照して、代表補正パタン選択規則41に従い代表補正パタン辞書42から一つの代表補正パタンを選択する(ステップS21)。ここで、代表補正パタンとは、音声の基本周波数成分についての後述する差分の代表的な時間変化パタンを時間軸についてモーラ単位に正規化したものである。代表補正パタン選択規則41及び代表補正パタン辞書42は、予め口語的文末表現を含む文や、発話者の意図を伝達する文などの音声データを用いて学習を行うことによって作成される。
【0026】
次に、ステップS21により選択された代表補正パタンを音韻継続時間長情報104で示される音韻継続時間長に従って時間軸方向に伸縮することにより、補正パタンを生成する(ステップS22)。すなわち、選択された代表補正パタンの時間長を音韻継続時間長に応じた長さとなるように伸縮することで、補正パタンを生成する。
【0027】
上述した基本ピッチパタン及び補正パタンの生成においては、基本ピッチパタン及び補正パタンをそれぞれ音韻継続時間長に従って生成した後に、基本ピッチパタンを補正しているが、代表ピッチパタンに代表補正パタンを終端位置を揃えて加え合わせ、その後、音韻継続時間長に従って時間軸方向に伸縮させるという手順を用いてもよい。
【0028】
(代表補正パタン辞書)
ここで、代表補正パタン辞書42の作成方法について述べる。代表補正パタン辞書42は、口語的文末表現を含む文や、発話者の意図を伝達する文など文末表現に特徴のある音声データから、学習によって作成される。
【0029】
具体的には、図1に示すピッチパタン生成部14に、学習用の音声データに対応する言語属性情報及び音韻継続時間長情報を入力して、学習用の音声データの韻律単位からピッチパタンを抽出する。次に、こうして抽出したピッチパタン(学習ピッチパタン)と、図2中の基本ピッチパタン生成ステップS3と同様に入力文章を解析して得られる韻律単位の言語属性情報に従って生成されるピッチパタン(基本ピッチパタン)との差分を求める。
【0030】
次に、こうして求めた差分の代表的な時間変化パタンを時間軸についてモーラ単位に正規化することにより、補正パタン(差分パタン)を作成する。この手順によって、できるだけの多数の学習用音声データを用いて補正パタンを求め、それらをLBGアルゴリズムによりクラスタリングすることにより、代表補正パタン辞書42を作成することができる。
【0031】
代表補正パタン辞書42に格納される代表補正パタンのモーラ数は、入力文章のモーラ数と一致するとは限らない。選択された代表補正パタンのモーラ数が入力文章のモーラ数より大きい場合は、代表補正パタンの終端から入力文章のモーラ数に従って用い補正パタンを生成する。代表補正パタンのモーラ数が入力文章のモーラ数より小さい場合は、先の数式(2)に示したように、不足分の補正パタンを0として用いる。いずれにしても、補正パタンに従って基本ピッチパタンを補正する際は、基本ピッチパタンと補正パタンとを両者の終端位置を揃えて加え合わせるため、正規化などの特別な処理をする必要はない。
【0032】
(代表補正パタン辞書の学習)
次に、上述した代表補正パタン辞書42の学習法について述べる。上述のように、代表補正パタン辞書は学習用データのピッチパタンと基本ピッチパタンの差分をLBGアルゴリズムによりクラスタリングすることで辞書を学習することができる。一方、これとは別に、近似誤差を最小化する方法で学習することができる。この学習法について述べると、上述したように、代表補正パタンは学習用の音声データの韻律単位から抽出した学習ピッチパタンと、入力文章を解析して得られる韻律単位の言語属性情報に従って生成される基本ピッチパタン(F0パタン)との差分をモーラ単位に正規化して生成されるため、ここでは差分F0パタンと称する。
【0033】
代表補正パタン辞書42の学習に際しては、まず学習用音声データの言語属性を用いて代表ピッチパタンを選択し、F0パターンを生成する。このF0パターンを基準として、差分F0パターンを学習する。代表ピッチパタンをF0の対数を要素とするベクトルc、オフセットをb、代表ピッチパタンに対する継続時間長の線形伸縮を表す行列をD(c)で表す。差分F0パターンをd、差分F0パタンに対する継続時間長の線形伸縮行列をD(d)と表す。
【0034】
生成されるアクセント句単位のF0パターンを表すベクトルpは、次の数式(3)で表される。
p=(D(c)c+b)+D(d)d (3)
差分F0パターンdが選択されたときの学習用音声データ(トレーニングベクトル)rとF0パターンpijとの近似誤差eijは、次の数式(4)で表される。
【0035】
ij=(r−(D (c)+bi+Dij (d)))
(r−(D (c)+bi+Dij (d))) (4)
ここで、cは学習用音声データrに対応する言語属性から推定した代表ピッチパターン、D(c)は代表ピッチパターンcをrの継続時間長に合わせる線形伸縮行列、bは近似誤差最小基準に基づく最適オフセットを示す。Dij (d)は差分F0パターンdを学習用音声データrに継続時間長を合わせる線形伸縮行列であり、iは全ての要素が1であるベクトルを示す。
【0036】
代表補正パタン辞書42の学習時には、学習用音声データrを近似誤差eijが最小となるようにクラスタGにクラスタリングし、クラスタGに属する近似誤差の総和を最小化する差分F0パターンdを、次の方程式を解くことによって求める。
【0037】
【数1】
Figure 2004226505
【0038】
(補正パタン選択規則)
次に、補正パタン選択規則41について説明する。本実施形態では、補正パタンの選択に際して、言語属性情報103のうちアクセント型、品詞及び係り受けなどの、代表ピッチパタンの選択に用いる言語属性情報と共に、文末の形態素及び文末の記号の少なくとも一部の情報を言語属性情報として用いる。図5に、決定木に基づく補正パタン選択規則41の例を示す。
【0039】
図5では、まず入力文章が疑問文かどうかを文末の記号により判定し(ステップS31)、疑問文の場合は、文末が高く上昇する代表補正パタン51を選ぶ。入力文章が疑問文でない場合は、文末の形態素が終助詞の「ね」もしくは「でしょ」であるかどうかを判定し(ステップS32)、これらのいずれかに該当する場合は、文末パタンが上昇する代表補正パタン52、該当しない場合は文末パタンが下降する代表補正パタン53を選択する。
【0040】
上述した例は模擬例であって、ヒューリスティックな決定木に基づく方法に限らず、口語的文末表現を含む文や、発話者の意図を伝達する文など文末表現に特徴のある音声データから学習することにより作成してもよい。非特許文献1と同様に、近似誤差を最小化する方法に基づいて選択する方法も考えられる。近似誤差を最小化する基準に基づいて行う場合は、各補正パタンを選択してピッチパタンを生成した際の近似誤差を推定し、補正パタン辞書中の補正パタンのうち、推定近似誤差が最小となるパタンを選択する。近似誤差の推定モデルとしては、数量化I類を用いることができる。
【0041】
(補正バタン選択規則の学習)
上述した補正パタン選択規則41の学習法について述べる。補正パタン(差分F0パターン)の選択は、前述した代表ピッチパタンの選択規則と同様に、近似誤差を最小化するという基準を用いた選択規則により行う。数量化I類により、学習用音声データの言語属性から各クラスタを選択した場合の誤差を推定し、誤差が最小になるクラスタを選択する。補正パタン選択規則41は、トレーニングデータの属性及び近似誤差の組を教師データとして学習される。補正パタンの選択には、学習用音声データの言語属性として文末の形態素、文末の記号、アクセント型及び品詞の少なくとも一つを用いることができる。
【0042】
(ピッチパタン生成例)
図6に、本実施形態におけるピッチパタンの生成例を示す。ここでは、「食べに行かない?」という入力文章101に対応するピッチパタンを生成した例を示す。この文章は、「食べに」が3モーラ1型、「行かない?」が4モーラ3型、という2つのアクセント句から構成されている。ピッチパタン生成ステップS3では、それらの言語属性情報に応じて、図2に示した手順により基本ピッチパタン61が生成される。
【0043】
次に、補正パタン生成ステップS4では、前述したように文末の特徴を表す補正パタン62が生成される。ここでは、図5で説明した代表補正パタン選択規則41により、2分木に基づいて代表補正パタン辞書42から代表補正パタンが選択される。「食べにいかない?」という文章は、文末が疑問符であるため、この場合は文末パタンを上昇させるような補正パタンが補正パタン辞書42から選択される。さらに、こうして選択された代表補正パタンを音韻継続時間長に従って伸縮することにより、図6中に示すような補正パタン63が生成される。
【0044】
次に、基本ピッチパタン補正ステップS5では、ステップS3で生成された貴本ピッチパタン61に対して、ステップS4で生成された補正パタン62を加え合わせて補正を行うことにより、最終的なピッチパタン63が生成される。補正パタン62は、基本ピッチパタン61よりモーラ数が少ないが、基本ピッチパタン補正ステップS5では、基本ピッチパタン61と補正パタン62とを両者の終端位値を揃えて加え合わせることで、図6中に示すように疑問を表す文末パタンの上昇したピッチパタン63を生成することができる。
【0045】
本実施形態によると、次のような利点がある。本実施形態に従い、アクセント規則に従って生成した基本ピッチパタンに対して文末表現を表す差分パタンを補正パタンとして加えることにより基本ピッチパタンを補正する場合、アクセント規則に従って生成した基本ピッチパタンと補正後のピッチパタンとは、入力文章中の同一の韻律単位に対応しているため、両者の言語属性は等しい。
【0046】
従って、先に示した特許文献1に記載されているような、異なる言語属性情報の差を差分パタンで表現するピッチパタン変形方法では、多様な文末表現を生成することはできない。また、特許文献1においては入力ピッチパタンと適用先ピッチパタンの言語情報のモーラ数が異なる場合、ピッチパタンベクトルの次元が異なるため、次元を正規化する処理を必要とする。
【0047】
これに対して、本実施形態では日本語のアクセント規則に基づいて生成した基本ピッチパタンに、入力文章の文末パタンを補正するための補正パタンを終端位置を揃えて加え合わせて基本ピッチパタンを補正することにより、最終的なピッチパタンを生成する。このようにして生成されたピッチパタンを用いて音声信号を合成することによって、口語的文末表現を含む文章や、発話者の意図を伝達する文章など、多様な入力文章に対して自然性に優れた合成音声信号を生成することができる。
【0048】
また、基本ピッチパタンに対して補正パタンを終端位置を揃えて加え合わせることによって、特許文献1のように基本ピッチパタンと次元を合わせる操作が不要である。従って、ピッチパタンの変化を効率よく表現することができる。
さらに、代表補正パタンの選択に際して、アクセント型、文末の形態素及び文末の記号の少なくとも一つを参照することにより、例えば「〜ね」「〜でしょ」など文末表現に特徴のある典型的な文末形態素の有無や疑問符の有無などに応じて補正パタンを自動的に容易に選択することができる。
【0049】
(補正パタン生成その2)
次に、図7を用いて図2における補正パタン生成ステップS4の他の具体的な処理例を説明する。この処理例では、入力文章101中に基本ピッチパタンを制御するための制御情報、特に基本ピッチパタンのうち文末に対応するパタン(文末ピッチパタンという)を制御するための制御情報(タグ情報)を埋め込んでおき、この制御情報を参照して代表補正パタンを選択する(ステップS41)。
【0050】
ここで、制御情報とは、入力文章中に挿入される、ユーザの指示を表す情報であって、例えば文章の韻律単位において指定する韻律タグ情報である。より具体的には、制御情報は文末ピッチパタンの<上昇><下降>、文章の談話構造を指示する<確認><疑問><命令><断定>などのタグ情報であり、これらが文章中に埋め込まれる。これらに加えて、文末毎に補正の有無(<する><しない>)のタグ情報を埋め込んでもよい。
【0051】
例えば、「食べに行かない。」という文に対し、「<上昇>食べにいかない</上昇>。」というタグ情報を文章中に埋め込んでおくと、文末の「ない」の部分が上昇し、疑問や勧誘を表現することになる。「<下降>食べにいかない</下降>。」というタグ情報を文章中に埋め込んだ場合は、文末が下降し、断定の表現になる。
【0052】
これらの制御情報(タグ情報)を属性情報として加えることにより、代表補正パタン選択規則41を作成しておく。ステップS41では、図4で説明した言語属性情報に基づく代表補正パタン選択手法と同様に、決定木に基づく方法や、近似誤差を最小とする方法などにより、代表差分パタンを選択する。また、制御情報として直接差分クラスタを指示してもよい。
【0053】
次に、ステップS41で選択された代表補正パタンを音韻継続時間長情報で示される音韻継続時間長に従って時間軸方向に伸縮することにより、補正パタンを生成する(ステップS42)。ステップS42の処理は、図4中に示したステップS22と同様であるので、詳細な説明を省略する。
【0054】
(補正パタン生成その3)
図8に、図2における補正パタン生成ステップS4のもう一つの具体的な処理例を示す。図8から明らかなように、この処理例は図4と図7に示した処理を併用した例である。
【0055】
すなわち、図2中のステップS1で入力される言語属性情報のうち、入力文章101の文末アクセント句から生成されるアクセント型、モーラ数、品詞、文末形態素、文末記号などの情報、入力文章101中に埋め込まれた、基本ピッチパタンを制御するための制御情報のいずれかを参照して、代表補正パタン選択規則41に従い、代表補正パタン辞書42から一つの代表補正パタンを選択する(ステップS51)。
【0056】
次に、図4中に示したステップS22と同様に、ステップS51で選択された代表補正パタンを音韻継続時間長情報で示される音韻継続時間長に従って時間軸方向に伸縮することにより、補正パタンを生成する(ステップS52)。
【0057】
この例の補正パタン生成方法によると、入力文章を解析して得られる言語属性情報のみでは適切な代表補正パタンを選択することが困難、もしくは不可能な場合、ユーザの指示により補正パタンを容易に選択することができる。
【0058】
【発明の効果】
以上説明したように、本発明によれば口語的文末表現を含む文や発話者の意図を伝達する文など文末表現に特徴のある入力文章に対して的確なピッチパタンを生成することができる。また、このようにして生成されるピッチパタンを用いることにより、上述のような入力文章に対して自然性に優れた合成音声信号を生成することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声合成システムの構成を示すブロック図
【図2】同実施形態におけるピッチパタン生成部の処理手順を示すフローチャート
【図3】図2における基本ピッチパタン生成ステップの処理手順を示すフローチャート
【図4】図2における補正パタン生成ステップの処理手順の例を示すフローチャート
【図5】代表補正パタン選択規則の具体例を説明する図
【図6】同実施形態におけるピッチパタン生成の具体例を説明する図
【図7】図2における補正パタン生成ステップの処理手順の他の例を示すフローチャート
【図8】図2における補正パタン生成ステップの処理手順のさらに別の例を示すフローチャート
【符号の説明】
11…言語処理部
12…韻律生成部
13…音韻継続時間長生成部
14…ピッチパタン生成部
15…音声信号生成部
101…入力文章
102…音韻記号列
103…言語属性情報
104…音韻継続時間長情報
105…ピッチパタン
106…合成音声信号

Claims (10)

  1. 入力文章を解析して生成される言語属性及び音韻継続時間長の情報から、合成音声信号の生成のための第1のピッチパタンを生成する生成ステップと、
    予め生成された複数の補正パタンを含む補正パタン辞書から、前記第1のピッチパタンを補正するための一つの補正パタンを選択する選択ステップと、
    選択された補正パタンを前記第1のピッチパタンに各々の終端位置を一致させて加え合わせることにより、前記第1のピッチパタンを補正して第2のピッチパタンを生成する補正ステップとを具備するピッチパタン生成方法。
  2. 前記選択ステップは、前記言語属性の情報のうちアクセント型、文末の形態素及び文末の記号の少なくとも一つの情報を参照して、予め定められた選択規則により前記補正パタン辞書から前記一つの補正パタンを選択する請求項1記載のピッチパタン生成方法。
  3. 前記入力文章は、前記第1のピッチパタンのうち該入力文章の文末に対応するパタンを制御するための制御情報が埋め込まれており、
    前記選択ステップは、前記制御情報を参照して、予め定められた選択規則により前記補正パタン辞書から前記一つの補正パタンを選択する請求項1記載のピッチパタン生成方法。
  4. 前記選択ステップは、前記言語属性の情報のうちアクセント型、文末の形態素及び文末の記号の少なくとも一つの情報、または前記入力文章に埋め込まれた、前記第1のピッチパタンのうちの該入力文章の文末に対応するパタンを制御するための制御情報のいずれかを参照して、予め定められた選択規則により前記補正パタン辞書から前記一つの補正パタンを選択する請求項1記載のピッチパタン生成方法。
  5. 前記補正パタン辞書は、所定の音声データの韻律単位から抽出される第1の学習用ピッチパタンと、該韻律単位の言語属性情報に従って生成される第2の学習用ピッチパタンとの差分パタンとして生成される請求項1記載のピッチパタン生成方法。
  6. 入力文章を解析して音韻記号列及び言語属性の情報を生成するステップと、
    前記音韻記号列及び言語属性の情報を参照して音韻継続時間長の情報を生成するステップと、
    前記言語属性及び前記音韻継続時間長の情報から第1のピッチパタンを生成するステップと、
    予め生成された複数の補正パタンを含む補正パタン辞書から、前記第1のピッチパタンを補正するための一つの補正パタンを選択するステップと、
    選択された補正パタンを前記第1のピッチパタンに各々の終端位置を一致させて加え合わせることにより、前記第1のピッチパタンを補正して第2のピッチパタンを生成するステップと、
    前記音韻記号列と前記音韻継続時間長の情報及び前記第2のピッチパタンを用いて合成音声信号を生成するステップとを具備する音声合成方法。
  7. 前記選択ステップは、前記言語属性の情報のうちアクセント型、文末の形態素及び文末の記号の少なくとも一つの情報を参照して、予め定められた選択規則により前記補正パタン辞書から前記一つの補正パタンを選択する請求項6記載の音声合成方法。
  8. 前記入力文章は、前記第1のピッチパタンのうち該入力文章の文末に対応するパタンを制御するための制御情報が埋め込まれており、
    前記選択ステップは、前記制御情報を参照して、予め定められた選択規則により前記補正パタン辞書から前記一つの補正パタンを選択する請求項6記載の音声合成方法。
  9. 入力文章を解析して音韻記号列及び言語属性の情報を生成する手段と、
    前記音韻記号列及び言語属性の情報を参照して音韻継続時間長の情報を生成する手段と、
    前記言語属性及び前記音韻継続時間長の情報から第1のピッチパタンを生成する手段と、
    予め生成された複数の補正パタンを含む補正パタン辞書から、前記第1のピッチパタンを補正するための一つの補正パタンを選択する手段と、
    選択された補正パタンを前記第1のピッチパタンに各々の終端位置を一致させて加え合わせることにより、前記ピッチパタンを補正して第2のピッチパタンを生成する手段と、
    前記音韻記号列と前記音韻継続時間長の情報及び前記第2のピッチパタンを用いて合成音声信号を生成する手段とを具備する音声合成システム。
  10. 入力文章に対応する合成音声信号を生成する処理をコンピュータに行わせるプログラムであって、
    前記入力文章を解析して音韻記号列及び言語属性の情報を生成する処理と、
    前記音韻記号列及び言語属性の情報を参照して音韻継続時間長の情報を生成する処理と、
    前記言語属性及び前記音韻継続時間長の情報から第1のピッチパタンを生成する処理と、
    予め生成された複数の補正パタンを含む補正パタン辞書から、前記第1のピッチパタンを補正するための一つの補正パタンを選択する処理と、
    選択された補正パタンを前記第1のピッチパタンに各々の終端位置を一致させて加え合わせることにより、前記第1のピッチパタンを補正して第2のピッチパタンを生成する処理と、
    前記音韻記号列と前記音韻継続時間長の情報及び前記第2のピッチパタンを用いて前記合成音声信号を生成する処理とを前記コンピュータに行わせる音声合成プログラム。
JP2003011602A 2003-01-20 2003-01-20 ピッチパタン生成方法、音声合成方法とシステム及びプログラム Pending JP2004226505A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003011602A JP2004226505A (ja) 2003-01-20 2003-01-20 ピッチパタン生成方法、音声合成方法とシステム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003011602A JP2004226505A (ja) 2003-01-20 2003-01-20 ピッチパタン生成方法、音声合成方法とシステム及びプログラム

Publications (1)

Publication Number Publication Date
JP2004226505A true JP2004226505A (ja) 2004-08-12

Family

ID=32900461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003011602A Pending JP2004226505A (ja) 2003-01-20 2003-01-20 ピッチパタン生成方法、音声合成方法とシステム及びプログラム

Country Status (1)

Country Link
JP (1) JP2004226505A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008015362A (ja) * 2006-07-07 2008-01-24 Sharp Corp 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
JP2010060886A (ja) * 2008-09-04 2010-03-18 Yamaha Corp 音声処理装置およびプログラム
JP2015102771A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102772A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102773A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2016142936A (ja) * 2015-02-03 2016-08-08 株式会社日立超エル・エス・アイ・システムズ 音声合成用データ作成方法、及び音声合成用データ作成装置
CN112912954A (zh) * 2018-10-31 2021-06-04 三星电子株式会社 电子装置及其控制方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63174100A (ja) * 1987-01-14 1988-07-18 株式会社日立製作所 音声規則合成方式
JPH032800A (ja) * 1989-05-30 1991-01-09 Meidensha Corp 音声合成装置の抑揚制御方式
JPH06236197A (ja) * 1992-07-30 1994-08-23 Ricoh Co Ltd ピッチパターン生成装置
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JP2000047681A (ja) * 1998-07-31 2000-02-18 Toshiba Corp 情報処理方法
JP2000075883A (ja) * 1997-11-28 2000-03-14 Matsushita Electric Ind Co Ltd 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP2000075880A (ja) * 1998-09-01 2000-03-14 Nippon Telegr & Teleph Corp <Ntt> ピッチパタン変形方法及びその記録媒体
JP2000148175A (ja) * 1998-09-10 2000-05-26 Ricoh Co Ltd テキスト音声変換装置
JP2001100777A (ja) * 1999-09-28 2001-04-13 Toshiba Corp 音声合成方法及び装置
JP2001249677A (ja) * 2000-03-03 2001-09-14 Oki Electric Ind Co Ltd テキスト音声変換装置におけるピッチパタン制御方法
JP2002196800A (ja) * 2000-12-22 2002-07-12 Sharp Corp 音声合成装置
JP2002258886A (ja) * 2001-03-02 2002-09-11 Sony Corp 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
WO2002073595A1 (fr) * 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
JP2003005776A (ja) * 2001-06-21 2003-01-08 Nec Corp 音声合成装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63174100A (ja) * 1987-01-14 1988-07-18 株式会社日立製作所 音声規則合成方式
JPH032800A (ja) * 1989-05-30 1991-01-09 Meidensha Corp 音声合成装置の抑揚制御方式
JPH06236197A (ja) * 1992-07-30 1994-08-23 Ricoh Co Ltd ピッチパターン生成装置
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JP2000075883A (ja) * 1997-11-28 2000-03-14 Matsushita Electric Ind Co Ltd 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP2000047681A (ja) * 1998-07-31 2000-02-18 Toshiba Corp 情報処理方法
JP2000075880A (ja) * 1998-09-01 2000-03-14 Nippon Telegr & Teleph Corp <Ntt> ピッチパタン変形方法及びその記録媒体
JP2000148175A (ja) * 1998-09-10 2000-05-26 Ricoh Co Ltd テキスト音声変換装置
JP2001100777A (ja) * 1999-09-28 2001-04-13 Toshiba Corp 音声合成方法及び装置
JP2001249677A (ja) * 2000-03-03 2001-09-14 Oki Electric Ind Co Ltd テキスト音声変換装置におけるピッチパタン制御方法
JP2002196800A (ja) * 2000-12-22 2002-07-12 Sharp Corp 音声合成装置
JP2002258886A (ja) * 2001-03-02 2002-09-11 Sony Corp 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
WO2002073595A1 (fr) * 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
JP2003005776A (ja) * 2001-06-21 2003-01-08 Nec Corp 音声合成装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008015362A (ja) * 2006-07-07 2008-01-24 Sharp Corp 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
JP2010060886A (ja) * 2008-09-04 2010-03-18 Yamaha Corp 音声処理装置およびプログラム
JP2015102771A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102772A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102773A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2016142936A (ja) * 2015-02-03 2016-08-08 株式会社日立超エル・エス・アイ・システムズ 音声合成用データ作成方法、及び音声合成用データ作成装置
CN112912954A (zh) * 2018-10-31 2021-06-04 三星电子株式会社 电子装置及其控制方法
US11893982B2 (en) 2018-10-31 2024-02-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method therefor
CN112912954B (zh) * 2018-10-31 2024-05-24 三星电子株式会社 电子装置及其控制方法

Similar Documents

Publication Publication Date Title
US7603278B2 (en) Segment set creating method and apparatus
US10540956B2 (en) Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus
US6845358B2 (en) Prosody template matching for text-to-speech systems
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP3667950B2 (ja) ピッチパターン生成方法
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US20200365137A1 (en) Text-to-speech (tts) processing
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
KR20070077042A (ko) 음성처리장치 및 방법
WO2012164835A1 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
US20220189455A1 (en) Method and system for synthesizing cross-lingual speech
JP2009175345A (ja) 音声情報処理装置及びその方法
WO2012032748A1 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP3737788B2 (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP3571925B2 (ja) 音声情報処理装置
JP2001075585A (ja) 自然言語処理方法及び前記方法を用いた音声合成装置
JP2024017194A (ja) 音声合成装置、音声合成方法およびプログラム
WO2008038994A1 (en) Method for converting pronunciation using boundary pause intensity and text-to-speech synthesis system based on the same
JP2003330482A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060911

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070424