JP3034911B2 - テキスト音声合成装置 - Google Patents

テキスト音声合成装置

Info

Publication number
JP3034911B2
JP3034911B2 JP2158905A JP15890590A JP3034911B2 JP 3034911 B2 JP3034911 B2 JP 3034911B2 JP 2158905 A JP2158905 A JP 2158905A JP 15890590 A JP15890590 A JP 15890590A JP 3034911 B2 JP3034911 B2 JP 3034911B2
Authority
JP
Japan
Prior art keywords
phrase
word
inter
prosody
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2158905A
Other languages
English (en)
Other versions
JPH0451099A (ja
Inventor
治 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2158905A priority Critical patent/JP3034911B2/ja
Publication of JPH0451099A publication Critical patent/JPH0451099A/ja
Application granted granted Critical
Publication of JP3034911B2 publication Critical patent/JP3034911B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、入力された文から韻律的情報を抽出してパ
ラメータ時系列を生成し音声を合成するテキスト音声合
成装置に関する。
[従来の技術] 一般にテキスト音声合成装置における韻律の制御は、
生成される合成音声の自然性に大きな影響を与える。
従来のテキスト音声合成装置における韻律制御方法
は、文節間結合度を定義してその文節間結合度からフレ
ーズ指令及びポーズ長の大きさを決定する。
以下、文節間結合度に応じてフレーズ指令及びポーズ
長の大きさを決定する韻律制御方法の概略を説明する。
第6図は文節間結合度のピッチパタ−ンとの関係を示
す。
図中、ケース1は、両文節の結合が最も弱い場合を示
す。この場合には明確なポーズが文節間に入り、それぞ
れの文節が独立に句を構成する。
ケース2は、文節結合度が強まるにつれ、ポーズ長が
短くなると共に、それぞれのフレーズ成分が一本のフレ
ーズ成分に近づくことを示す。
ケース3は、一本のフレーズ成分上に2つの文節がの
っており、後続文節には単独のフレーズ指令が無いこと
を示す。
ケース4は、上記のケース3よりも文節間の結合が進
み、後続文節のアクセント指令が小さな値になることを
示す。
ケース5は、文節間結合度が最も大きい場合であり、
最終的に一つの複合語のピッチパタンになることを示し
ている。
上述の文節結合度の大きさとピッチパタンとの関係で
問題になるのは、文節間結合度の算出方法である。その
1つとして、構文解析による係受け距離を用いる方法が
以前から提案されている。しかし、この方法は比較的短
い単文の解析結果に基づいており、現状のテキスト解析
技術では実用的な文章を制度良く構文解析することが難
しく、また、そのままでは韻律制御に導入することがで
きない。
そこで韻律制御に導入できる方法の1つとして、1つ
の文をいくつかのフレーズに分割して局所的な係受解析
を行う方法が用いられている。また、文節の文法的役割
(以後、係受け関係と称する)、句読点、文章の位置情
報等のテキスト情報と音調結合型(以後、文節間結合度
と称する)との関係を定式化するための線形モデルによ
る方法も同様に用いられている。
[発明が解決しようとする課題] しかし、上述の韻律制御方法を用いた従来のテキスト
音声合成装置では、1つの文全体の構文を解析しない
で、係受け関係にある文節のみに着目して文節間結合度
を算出するので、係受け関係の強い文節が連鎖した場
合、長いモーラに渡って文節間結合度が小さくならず、
呼気の関係で一息に発声出来る文章(以後、呼気段落と
称する)が非常に長くなり、生成された合成音声が不自
然な音声になるという問題点がある。
また、自然音声では呼気段落に制限があり、その呼気
段落は発声スピードにより変化するが、上述の韻律制御
方法を用いた従来のテキスト音声合成装置では、発声ス
ピードが考慮されないので、実用的な文章及び多様な発
声スピードを有する音声を合成することが難しく、生成
された合成音声が不自然な音声になるという問題点があ
る。
本発明の目的は、上述の従来の音声合成装置の問題点
に鑑みて、呼気段落が極端に長くなったり、逆に短くな
ったりすることを防ぎ、実用的な文章及び多様な発声ス
ピードを有する音声を合成することができるテキスト音
声合成装置を提供することにある。
[課題を解決するための手段] 本発明のテキスト音声合成装置は、入力された文を各
単語に分割する分割手段と、前記分割された各単語に対
してアクセントの型及び読みを設定する設定手段と、前
記各単語のアクセントの型に基づいて韻律を制御する韻
律制御手段と、前記各単語の読みに対応する合成単位を
検索して音声パラメータの時系列を出力するパラメータ
出力手段とを備えており、前記韻律制御手段は、隣接す
る文節の単語間の係受け結合度とモーラ数とに基づいて
文節間結合度を算出し、前記入力された文から求めた平
均文節間結合度と前記文節間結合度との比較結果に基づ
いて文節の結合を制御し、ピッチパターン及び呼気段落
間のポーズ長を設定するように構成されていることを特
徴とする。
[作用] 分割手段が入力された文を特定の方法により各単語に
分割し、設定手段が単語分割処理部で分割された各単語
を入力して分割された各単語に対してアクセントの型及
び読みを設定し、韻律制御手段は、隣接する文節の単語
間の係受け結合度とモーラ数とに基づいて文節間結合度
を算出し、前記入力された文から求めた平均文節間結合
度と前記文節間結合度との比較結果に基づいて文節の結
合を制御し、算出された文節間の結合度により設定手段
により与えられた各単語のアクセントの型に基づいてピ
ッチパタン及び呼気段落間のポーズ長を設定して韻律を
制御し、パラメータ生成手段が単語読みアクセント処理
部により与えられた各単語の読みに対応する合成単位を
検索して音声パラメータの時系列を出力する。
[実施例] 以下、本発明のテキスト音声合成装置における一実施
例を図面を参照して説明する。
第1図は、本実施例のテキスト音声合成装置の構成を
概略的に示したブロック図である。
第1図のテキスト音声合成装置は、入力部10、制御部
11、音声合成部12、出力部13、日本語辞書用メモリ14、
韻律制御用メモリ15、音声データ辞書用メモリ16により
構成されている。なお、入力部10、制御部11、音声合成
部12、日本語辞書用メモリ14、韻律制御用メモリ15及び
音声データ辞書用メモリ16は、バス17を介して互いに接
続されている。
また、制御部11は、プログラムされたコンピュータで
主として構成されており、後述するごとく、入力部10か
ら入力させたデータから日本語辞書用メモリ14、韻律制
御用メモリ15及び音声データ辞書用メモリ16を用いて音
声パラメータを生成する。
次に、第1図の制御部11の詳細な構成を第2図に示
す。
第2図に示すように、制御部11は、入力部10及び日本
語辞書用メモリ14に接続された分割手段としての単語分
割処理部21、単語分割処理部21に接続された設定手段と
しての単語読みアクセント処理部22を含む文字列解析部
20、文字列解析部20及び韻律制御用メモリ15に接続され
た韻律制御手段としての韻律処理部23、韻律処理部23及
び合成用単位の音声データ辞書用メモリ16に接続された
パラメータ生成手段としての音声パラメータ生成部24に
より構成されている。
以下、上述の各構成部分の動作を説明する。
まず、入力部10は漢字仮名交じり文を入力して、単語
分割処理部21に出力する。
単語分割処理部21は、入力部10から出力された漢字仮
名交じり文を入力し、入力された漢字仮名交じり文を、
日本語辞書用メモリ14を参照して最長一致法又は文中の
文節数が最少となるように単語を選択する文節最小法等
を用いて各単語に分割する。ここで、日本語辞書用メモ
リ14には、単語毎に品詞、読み、モーラ数、及びアクセ
ント等があらかじめ格納されている。
単語分割処理部21で分割された単語は、単語読みアク
セント処理部22により単語毎にアクセントの型及び読み
が設定されて韻律処理部23に出力される。
韻律処理部23は、単語読みアクセント処理部22で得ら
れた各単語のアクセントの型から、単語が連鎖した際の
文節のアクセントの設定を特定の方法により行い、後述
する方法によりピッチパタン及び呼気段落間のポーズ長
の設定を行って韻律を制御する。
音声パラメータ生成部24は、合成用単位の音声データ
辞書用メモリ16を参照して各単語に読みに対応する合成
単位を検索し、最終的に音声合成用の音声パラメータの
時系列を音声合成部12を介して出力部13から出力する。
次に、上記の韻律処理部23におけるピッチパタン及び
呼気段落間のポーズ長の設定の方法について詳述する。
第3図は、ピッチパタン及び呼気段落間のポーズ長の
設定に用いるための文節間結合度の算出過程を示すフロ
ーチャートである。
まず、単語分割処理部21により漢字仮名交じりから文
単語列T(i)(1≦i≦n)がすでに算出されている
ものとする。ただし、iは入力文章の文頭からの単語番
号、nは単語数を表わす正の整数とする。また、単語間
の結合度を表わす配列COT(i)(1≦i≦n)をクリ
アして“0"に設定する。
入力文章の単語列T(i)(1≦i≦n)から文節列
B(j)(1≦j≦m,但しmを文節の数とする)を算出
する。この文節列B(j)は、文節の先頭の単語T{Bj
(1)}、末尾の単語T{Bj(2)}を示すポインタ及
び次式 (但し、j1,j2はkの取り得る範囲の両端を表す)で算
出した文節モーラ長MO{B(j)}をそれぞれ格納して
いる(ステップ1)。
上述のステップ1に続いて、各文節の先頭の単語T
{Bj(1)}及び末尾の単語{Bj(2)}のラベルを、
第1表及び第2表を用いて求める。例えば『私は』とい
う文節の場合、先頭の単語『私』という名詞と、末尾の
単語『は』という付属語の格助詞から構成されており、
第1表から『私』のラベルとしてNを選択し、第2表か
ら『は』のラベルとしてlを選択するので『私は』とい
う文節のラベルとして(N,l)を得る(ステップ2)。
先に、先行文節B(j)の末尾の単語T{Bj(2)}
と後続文節B(j+1)の先頭の単語T{Bj+1(1)}
との結合の強さ(以後、係受け結合度と称する)を、ス
テップ2で算出したラベルと第3表とを用いて算出す
る。ここでは、ステップ2で算出したラベルが第3表に
合致した場合に算出する。そして、この係受け結合度と
各文節のモーラ数MO{B(j)}とから次式 文節間結合度CO(j)=係受け結合度× 〔MIN[MO{B(J)},MO{B(j+1)}] +C〕+MAX[MO{B(j)},MO{B(j+1)}] … により文節間結合度CO(j)を算出する。ただし、この
文節間結合度CO(j)は結合の強さを逆数で表してい
る。また、C(例えばC=3)は定数でMIN,MAXは因数
の最小値及び最大値を表す。
ステップ2で得られた結合度は文節B(j)の末尾の
単語T{Bj(2)}と後続文節B(j+1)の先頭の単
語T{Bj+1(1)}との結合度とも考えられるので、単
語間結合度COT{BJ(2)}に文節間結合度CO(j)の
値を代入する(ステップ3)。
次に、平均文節間結合度を表すMEAN[CO]を次式 により算出する(ステップ4)。
上記のステップ4で算出した平均文節間結合度MEAN
[CO]と、文節毎に文節間結合度CO(x)、CO(x+
1)とを比較し、文節B(x)(1≦x≦m、但しmは
文節数を表す正の整数)を少し大きくした句MB(y)
(1≦y≦nk、但しnkは句数を表す正の整数)を第4図
に示す手順に従って作成する(ステップ5)。
以下、第4図を参照して句MB(y)の作成手順を詳細
に説明する。
まず、x=1,y=1に設定する(ステップ5−1)。
次に、平均文節間結合度MEAN[CO]が文節間結合度CO
(x)よりも大きいと共に文節間結合度CO(x+1)が
文節間結合度CO(x)よりも大きい場合にはステップ5
−3に進み、そうでなければステップ5−5に進む(ス
テップ5−2)。
平均文節間結合度MEAN[CO]が文節間結合度CO(x)
よりも大きいと共に文節間結合度CO(x+1)が文節間
結合度CO(x)よりも大きい場合には、先行の文節B
(x)と次の文節B(x+1)との文節間結合が大きい
ので、句MB(y)の先頭単語ポインタT{MB
y(1)}、末尾の単語ポインタT{MBy(2)}及びモ
ーラ数MO{MB(y)}を次式、及び MB(y)の先頭の単語ポインタT{MBy(1)}= B(x)の先頭の単語ポインタT{Bx(1)}… MB(y)の末尾の単語ポインタT{MBy(2)}= B(x+1)の末尾の単語ポインタT{B
x+1(2)} … MO{MB(y)}= MO{B(x)}+MO{B(x+1)} … に従って算出する(ステップ5−3)。
上記のステップ5−3が終了したら変数x,yをx=x
+2,y=y+1に夫々インクリメントしてステップ5−
7に行く(ステップ5−4)。
ステップ5−2において、平均文節間結合度MEAN[C
O]が文節間結合度CO(x)よりも小さい場合、又は平
均文節間結合度MEAN[CO]が文節間結合度CO(x)より
も大きいが、文節間結合度CO(x+1)が文節間結合度
CO(x)よりも小さい場合には、句MB(y)の先頭単語
ポインタT{MBy(1)}、末尾の単語ポインタT{MBy
(2)}及びモーラ数MO{MB(y)}を次式、及び
MB(y)の先頭の単語ポインタT{MBy(1)}= B(x)の先頭の単語ポインタT{Bx(1)}… MB(y)の末尾の単語ポインタT{MBy(2)}= B(x)の末尾の単語ポインタT{Bx(2)}… MO{MB(y)}=MO{B(x)} … に従って算出する(ステップ5−5)。
上記のステップ5−5に続いて、変数x,yをx=x+
1,y=y+1にそれぞえインクリメントする(ステップ
5−6)。
ステップ5−4又はステップ5−6に続いて、xがm
−1よりも小さいか否の判定を行って、xがm−1より
も小さい場合にはステップ5−2に進む(ステップ5−
7)。
句列MB(z)を、B(z)=MB(z)(但し、z=1
〜m)として文節の配列B(z)に代入する(ステップ
5−8)。
全ての操作が終了したらメンインル−トにリタ−ンす
る(ステップ5−9)。
上記のステップ5の処理で、まとめる文節が無くなる
まで、即ち、x=yとなるまでステップ2からステップ
5の処理を繰り返す(ステップ6)。
上記ステップ6が終了したならば、入力文章の単語列
T(i)(1≦i≦n)を各文節に区切り、文節間結合
度を文節の境界となる単語の単語間結合度COT(i)
(1≦i≦n、但しnは単語数)から算出する(ステッ
プ7)。
ステップ7で算出された文節間結合度を、第4表のテ
ーブルと照らし合わせてフレーズ指令の大きさ及びポー
ズの長さを算出する(ステップ8)。
上記のステップ8に続いて、ピッチパタンF(t)を
下記の式により算出する。
ln{F(t)}=ln(Fmin)+Ap・Gp(t−T0)+Aa ・{GA(t−T1)−Ga(t−T2)} … 上記の式においてはGp(t)及びGa(t)は、 Gp(t)=a・t・exp(−a・t)、 Ga(t)= 1−(1+b・a)exp(−b・t) によりそれぞれ示される。
但し、lnはlnの次に記載されている関数の自然対数、
Ap・Gp(t−T0)はフレーズ成分、Aa・F0・{Ga(t−
T1)−Ga(t−T2)}はアクセント成分、Fminは下限臨
界値、Aaはアクセント成分の振幅、Apはフレ−ズ成分の
振幅、T0はフレーズ成分の開始指令時点、T1はアクセン
ト成分の開始指令時点、T2はアクセント成分の終了指令
時点、aはフレーズ成分の下降時係数、bはアクセント
成分の下降時係数、tは時間をそれぞれ表す。
なお、フレーズ成分の振幅Apは、ステップ8で算出し
たフレーズ成分の大きさに比例した値、例えばフレーズ
成分の大きさを0.04倍した値を用いる。合成される音声
の自然性は、フレーズ成分の振幅Apの値を発声様式に対
応して変化させることにより向上する(ステップ9)。
韻律処理部23においては、上述したステップ1〜9に
基づいて韻律の制御を行う。従って韻律処理部23では、
このように文節間の接合度を階層的な構造に基づいて算
出するため、例えばポーズを多く入れたい場合には、第
4表を第5表に変えるだけで、文全体の中でバランス良
くポーズを多くすることが出来る。また、修飾語が連鎖
するような場合でも、階層的に文節をまとめてモーラ長
の大きな文節とみなして処理をするため、極端に長い呼
気段落は生じにくい。
次に上述のテキスト音声合成装置による発声文章の解
析方法を概念的に第5図に示す。
第5図では、まず、最も結合度の大きい文節間を結合
した結果、文節A、(文節B・C)、文節D、文節Eの
4セグメントになる(レベル2)。更に結合すると、文
節A・B・Cと文節D・Eの2つのセグメントになる
(レベル3)、最終的に1つのセグメントになる(レベ
ル4)。この結果、文節Cと文節Dの境界に最もポーズ
が入りやすく、次に文節Aと文節B、文節Dと文節Eの
境界がポーズの候補になることが分かる。
文節間の結合度を階層的な構造に基づいて算出するた
め、発声スピードに応じてポーズを入れる頻度を変える
場合にも、文全体の中でバランス良くポーズを与えるこ
とが出来る。また、修飾語が連鎖するような場合でも、
階層的に文節をまとめてモーラ長の大きな文節とみなし
て処理をするため、極端に長い呼気段落は生じにくい。
[発明の効果] 本発明によれば、呼気段落が極端に長くなったり、短
くなったり、又、単語あるいは文節の発声スピードが変
化した場合にも文全立の中でバランス良くポーズを挿入
して、自然な音声を合成できる。
【図面の簡単な説明】
第1図は本発明のテキスト音声合成装置の一実施例の構
成を示すブロック図、第2図は第1図中の制御部の構成
を示すブロック図、第3図は文節間結合度算出処理の動
作のを示すフローチャート、第4図は第3図中の1ステ
ップを詳細に説明するためのフローチャート、第5図は
第1図に示すテキスト音声合成装置で文節間結合度を算
出するときの入力文章の解析を概念的に説明する図、第
6図は従来のテキスト音声合成装置の文節間結合度及び
韻律の関係を示す図である。 10……入力部、11……制御部、12……音声合成部、13…
…出力部、14……日本語辞書用メモリ、15……韻律制御
用メモリ、16……音声データ辞書用メモリ、17……バ
ス、20……文字列解析部、21……単語分割処理部、22…
…単語読みアクセント処理部、23……韻律処理部、24…
…音声パラメータ生成部。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された文を各単語に分割する分割手段
    と、前記分割された各単語に対してアクセントの型及び
    読みを設定する設定手段と、前記各単語のアクセントの
    型に基づいて韻律を制御する韻律制御手段と、前記各単
    語の読みに対応する合成単位を検索して音声パラメータ
    の時系列を出力するパラメータ出力手段とを備えてお
    り、 前記韻律制御手段は、隣接する文節の単語間の係受け結
    合度とモーラ数とに基づいて文節間結合度を算出し、前
    記入力された文から求めた平均文節間結合度と前記文節
    間結合度との比較結果に基づいて文節の結合を制御し、
    ピッチパターン及び呼気段落間のポーズ長を設定するよ
    うに構成されていることを特徴とするテキスト音声合成
    装置。
JP2158905A 1990-06-18 1990-06-18 テキスト音声合成装置 Expired - Lifetime JP3034911B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2158905A JP3034911B2 (ja) 1990-06-18 1990-06-18 テキスト音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2158905A JP3034911B2 (ja) 1990-06-18 1990-06-18 テキスト音声合成装置

Publications (2)

Publication Number Publication Date
JPH0451099A JPH0451099A (ja) 1992-02-19
JP3034911B2 true JP3034911B2 (ja) 2000-04-17

Family

ID=15681922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2158905A Expired - Lifetime JP3034911B2 (ja) 1990-06-18 1990-06-18 テキスト音声合成装置

Country Status (1)

Country Link
JP (1) JP3034911B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3655808B2 (ja) * 2000-05-23 2005-06-02 シャープ株式会社 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60195596A (ja) * 1984-03-19 1985-10-04 三洋電機株式会社 音声合成装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子通信学会誌 Vol.J63−D No.9(1980年)PP715−722

Also Published As

Publication number Publication date
JPH0451099A (ja) 1992-02-19

Similar Documents

Publication Publication Date Title
US7035794B2 (en) Compressing and using a concatenative speech database in text-to-speech systems
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
JP3085631B2 (ja) 音声合成方法及びシステム
JPH10222187A (ja) 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JP3034911B2 (ja) テキスト音声合成装置
JPH08335096A (ja) テキスト音声合成装置
JPH06318094A (ja) 音声規則合成装置
JP3314106B2 (ja) 音声規則合成装置
JP3314116B2 (ja) 音声規則合成装置
JPH05134691A (ja) 音声合成方法および装置
JPH037995A (ja) 歌音声合成データの作成装置
JP2000056788A (ja) 音声合成装置の韻律制御方法
JP3078073B2 (ja) 基本周波数パタン生成方法
JP2728440B2 (ja) 音声出力装置
JP3023957B2 (ja) 音声合成装置
JPH06167989A (ja) 音声合成装置
JPH06176023A (ja) 音声合成システム
JPH06214585A (ja) 音声合成装置
JPH09292897A (ja) 音声合成装置
JP2003308084A (ja) 音声合成方法および音声合成装置
JPH09198073A (ja) 音声合成装置
JP3088211B2 (ja) 基本周波数パタン生成装置
JPH08328578A (ja) テキスト音声合成装置
JP2006215109A (ja) 音声合成装置及び音声合成プログラム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080218

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090218

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100218

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100218

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110218

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110218

Year of fee payment: 11