JP3060276B2

JP3060276B2 - 音声合成装置

Info

Publication number: JP3060276B2
Application number: JP6195178A
Authority: JP
Inventors: 伸之片江
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-08-19
Filing date: 1994-08-19
Publication date: 2000-07-10
Anticipated expiration: 2015-07-10
Also published as: JPH0863187A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声合成装置に関し、
特に交通情報や天気概況の音声サービスなどに用いる、
合成すべき一群のメッセージのすべてに共通する固定情
報（以下、定型部と呼ぶ。）とメッセージ群で共通しな
い可変情報（以下、非定型部と呼ぶ。）からなる音声を
合成する音声合成装置に関する。

【０００２】近年、社会一般の省力化・機械化の要請が
益々強くなり、各種音声サービスの分野も例外ではな
く、現在、交通情報や天気概況の音声サービス、銀行の
振り込み照会サービスなどに、音声合成装置が使用され
ている。このため、音声合成装置は聞取りやすく、自然
な韻律をもつ合成音声を提供する必要がある。

【０００３】

【従来の技術】従来の音声合成装置では、定型部には、
あらかじめ録音しておいた音声を再生する録音編集方
式、あるいは該音声をなんらかの音声パラメータに変換
したものを蓄積しておき、そのパラメータから音声を合
成する分析合成方式が用いられている。また、固有名詞
や数字などの非定型部は、文字列から規則を用いて、音
声を生成する規則合成方式を用い、それぞれの方式で合
成した音声を接続して、あるいは切替えて出力するのが
一般的であった。

【０００４】従来技術による音声合成装置の構成図を図
９に示す。図中、１はテキスト入力手段、２はテキス
ト解析手段、３は定型部合成手段、４は非定型部合成手
段、５は出力音声接続手段、６は音声出力手段をそれぞ
れ示す。テキスト入力手段１に入力されたテキスト
を、テキスト解析手段２において、単語辞書を参照しな
がら解析する。その結果、定型部の部分は定型部合成手
段３に入力され、蓄積してある定型部音声データから音
声を合成する。可変な情報からなる部分は、非定型部合
成手段４に入力され、文字列からの規則合成を行なう。
それぞれの合成手段で合成した音声を、文として継るよ
うに出力音声接続手段５で接続し、音声出力手段６を介
して出力する。

【０００５】

【発明が解決しようとする課題】ところが、音声の品質
を見ると、規則合成方式の音声品質は録音編集方式や分
析合成方式に比べて劣っているのが現状である。

【０００６】従って、録音編集方式または分析合成方式
による定型部と規則合成方式による非定型部とを接続し
た音声では、定型部と非定型部の品質にギャップがあ
り、文中の重要な情報を含む非定型部が聞き取りにくい
という問題があった。これに対して、文全体を同じ品質
で生成するほうが聞き取りやすく、特に近年、技術の改
良によって規則合成方式の音声品質が向上してきたこと
もあり、すべてを規則合成によって合成しても、十分に
実用に耐えうるようになってきた。もちろん、すべて規
則合成方式を用いれば、定型部を変更したい場合でも、
音声を再収録する手間も省ける。

【０００７】ところで、我々が日常生活に用いている漢
字かな混じり文から音声を合成するとき、規則合成方式
では録音編集方式や分析合成方式とは異なり、辞書と規
則を参照しながら、自然な韻律（イントネーション、ア
クセント、ポーズ等）を生成する必要がある。この過程
で以下の２個の問題が存在する。

【０００８】第１の問題は、漢字かな混じり文を解析し
て表音文字列を生成する過程におけるものである。ここ
で、表音文字列とは、音素（日本語ではローマ字表記と
ほぼ等しい。）列または音節（日本語では仮名文字表記
とほぼ等しい。）列に、ポーズ位置、アクセントの位置
を示す表記を含めた文字列のことである。日本語は単語
でわかち書きされておらず、漢字には幾通りもの読み方
があるため、辞書と規則から表音文字列を生成しようと
すると、誤読やアクセントの誤り、不自然なポーズの挿
入などが頻繁に起こる。第１の問題は、韻律情報を含
む予め作成した入力文字列を記憶した記憶手段としての
音声変換用入力列ファイルから抽出した文字列規則合成
することにより解決されている（特開平4-107598参
照。）が、構成費用の低減が要求され。

【０００９】第２の問題は、表音文字列から音響的（物
理的）なパラメータを生成する過程におけるものであ
る。例えば、イントネーションは声の高さの変化であ
り、有声音の音声が包含する最低周波数である基本周波
数の時間変化パターン（以下、Ｆ０パターンと称す
る。）を用いて制御するのが一般的である。これは数ミ
リ秒(msec)毎の基本周波数の時系列で表される。上記の
表音文字列からこのＦ０パターンを生成するための規則
として、有名なものに、藤崎モデルや点ピッチモデルな
どがあるが、人間の複雑な発声機構や、内容、意味によ
っても微妙に変化するＦ０パターンを簡単な規則によっ
て求めるのは困難である。また、発声がつかえたり間延
びしたりせずに自然になるように、各音素あるいは音節
の時間長を適切な値に設定している。ところが、この時
間長は音素あるいは音節の種類によって一意に決まるも
のではなく、この音素あるいは音節が置かれている文中
の位置や周辺の音韻環境によって複雑に影響されるもの
であり、これもまた単純な規則では求まらないものであ
る。

【００１０】

【課題を解決するための手段】図２は本発明の概念図で
ある。以下、同図と「今夜の［東京］地方の天気は
［晴れ］でしょう。」という例文によって説明する。

【００１１】本文は「今夜の・・地方の天気は・・・で
しょう。」という定型部と「東京」「晴れ」という非定
型部から構成されており、非定型部はそれぞれ「神奈川
県」「雨」のような単語と置換することが可能であると
する。このような文を合成するときに、定型部に関して
は、同文を人間が発声した音声から定型部のＦ０パター
ンや持続時間長を抽出し、例えば、Ｆ０パターンであれ
ば数msec毎の基本周波数値の時系列として、持続時間長
であれば各音素の長さの系列として蓄積しておく。非定
型部に関しては、非定型部への入力が期待される単語あ
るいは文節などの音節数とアクセント型のすべての組合
せのＦ０パターンを蓄積しておき、入力文、またはそれ
を解析した表音文字列から、同じ音節数とアクセント型
の組合せのＦ０パターンを読み込む。このＦ０パターン
は、音節数とアクセント型だけでなく、文全体のＦ０パ
ターンの中で決まるものであるから、定型部のいずれの
位置に挿入するかによって、Ｆ０パターンはそれぞれ異
なるものを持ち、選択する必要がある。たとえば、「東
京」という単語であれば４モーラ０型であるから、定型
部の「今夜の・・・地方」の位置に挿入されるパターン
の中から４モーラ０型のＦ０パターンを選択する。非定
型部の持続時間長は規則により生成する。定型部と非定
型部に分けて検索した（あるいは生成した）Ｆ０パター
ンと持続時間長を順に接続することによって、文全体の
Ｆ０パターンを作成する。Ｆ０パターンは、文全体で連
続して接続される。

【００１２】また、非定型部に関してＦ０パターンを蓄
積しておかずに、規則によって生成しても、文全体のＦ
０パターンをすべて規則で生成した場合よりも高品質な
音声が得られる。

【００１３】

【作用】本発明の原理図を図１に示す。図中、１はテ
キスト入力手段、７はテキスト解析手段、８は定型部Ｆ
０パターン・持続時間長生成手段、９は非定型部Ｆ０パ
ターン・持続時間長生成手段、１０はＦ０パターン・持
続時間長接続編集手段、１１は音響パラメータ生成手
段、１２は音声信号生成手段、６は音声出力手段をそれ
ぞれ示す。テキスト入力手段１に合成するテキストが
入力される。テキスト解析手段７では、入力テキストを
非定型部と定型部に分離する。入力されたテキストが通
常の漢字かな混じり文の場合は、定型部と非定型部に分
離するために、任意文の規則合成に用いるようなテキス
ト解析が必要であるが、ユーザインタフェースによっ
て、定型部と非定型部を分けて入力できる場合には、単
純に定型部と非定型部をそれぞれのＦ０パターン・持続
時間長生成手段に出力するだけでよい。又、テキスト解
析手段７では入力文から表音文字列（音素列または音節
列）を生成して音響パラメータ生成手段１１に出力す
る。定型部については定型部Ｆ０パターン・持続時間長
生成手段８において、非定型部については非定型部Ｆ０
パターン・持続時間長生成手段９において、それぞれ、
Ｆ０パターンおよび持続時間長を生成する。これらのＦ
０パターンおよび持続時間長は、Ｆ０パターン・持続時
間長接続編集手段１０において順次接続され、文全体の
Ｆ０パターンおよび持続時間長が生成される。音響パラ
メータ生成手段１１では、音素列または音節列などの表
音文字列を基に、ホルマント等の音響パラメータを生成
する。音響パラメータは音声信号生成手段１２に用いる
合成方式によって決まる。また、合成方式としては波形
を直接編集する波形編集方式があり、この方式を用いた
場合は音響パラメータではなく、それに相当するものと
して、波形接続情報を生成することになるが、ここで
は、音響パラメータに含めて扱う。音声信号生成手段１
２では、Ｆ０パターン、持続時間長、および音響パラメ
ータから、音声信号を生成し、音声出力手段６から出力
する。

【００１４】

【実施例】Ｆ０パターン生成方法には３つのレベルが考
えられる。第１のレベルは、自然音声から抽出したＦ０
パターンをそのまま基本周波数の時系列の形式で蓄積し
ておき合成時に読み込む方法であり、最も自然な音声の
合成が期待されるものである。第２のレベルは、自然音
声のＦ０パターンをモデルにより近似して、そのモデル
のパラメータを蓄積しておき、合成時にパラメータから
基本周波数の時系列の形式に変換する方法である。第３
のレベルは、テキスト解析結果からモデルのパラメータ
を規則的に生成し、該パラメータから基本周波数の時系
列を生成する方法である。

【００１５】また、持続時間長生成方法には２つのレベ
ルが考えられる。第１のレベルは、自然音声から抽出し
た持続時間長をそのまま時間長の系列として蓄積してお
き合成時に読み込む方法である。第２のレベルは、上記
の時間長をテキスト解析結果から規則的に生成する方法
である。非定型部と定型部のＦ０パターンおよび持続時
間長生成方法として、上記のレベルそれぞれの組合せが
考えられる。これらを実施例として以下に述べる。

【００１６】本発明の第１の実施例の構成図を図３に示
す。本実施例は特許の請求項２、４、８および９に対
応している。図中、０１１はテキスト入力部、７１はテ
キスト解析部、７２は定型／非定型判定部、７３は出力
切替部、７４は単語辞書、７５は定型部文例蓄積部、８
１は定型部持続時間長読み込み部、８２は定型部Ｆ０パ
ターン読み込み部、８３は定型部持続時間長蓄積部、８
４は定型部Ｆ０パターン蓄積部、９１は非定型部持続時
間長生成部、９２は非定型部Ｆ０パターン読み込み部、
９３はアクセント辞書、９４は非定型部Ｆ０パターン蓄
積部、１０１は持続時間長接続編集部、１０２はＦ０パ
ターン接続編集部、１１１は音響パラメータ生成部、１
１２は音響パラメータ蓄積部、１２１は音声信号生成
部、６１は音声出力部を示す。

【００１７】あらかじめ、定型部について自然音声より
抽出した定型部Ｆ０パターンを定型部Ｆ０パターン蓄積
部８４に格納し、非定型部について、その音節数とアク
セント型のすべての組合せの非定型部Ｆ０パターンを非
定型部Ｆ０パターン蓄積部９４に格納し、定型部につい
て自然音声より抽出した定型部持続時間長を定型部持続
時間長蓄積部８３に格納してある。合成するテキストが
テキスト入力部０１１に入力される。入力が漢字かな混
じり表記である場合は、テキスト解析部７１において、
単語辞書７４を参照しながら、テキストを解析する。定
型／非定型判定部７２では、定型部文例蓄積部７５に格
納されている定型文例を参照し、解析結果を定型部と非
定型部に分離する。出力切替部７３は定型部と非定型部
をそれぞれの持続時間長、Ｆ０パターン生成部に出力す
る。またこのとき、テキストを解析した結果として、入
力テキストの表音文字列（音素列または音節列など）を
音響パラメータ生成部１１１に出力する。

【００１８】定型部については、定型部持続時間長読み
込み部８１において、定型部持続時間長蓄積部８３から
持続時間長を読み込み、又、定型部Ｆ０パターン読み込
み部８２において、定型部Ｆ０パターン蓄積部８４から
Ｆ０パターンを読み込み、それぞれ持続時間長接続編集
部１０１を経由し、Ｆ０パターン接続編集部１０２に出
力する。非定型部については、非定型部持続時間長生成
部９１において、規則により持続時間長を生成する。規
則による持続時間長生成は、非定型部の各音素または音
節について時間長テーブルを検索し、音素環境などによ
って補正するといった方法がとられるのが一般的であ
る。次に、非定型部Ｆ０パターン読み込み部９２では、
非定型部の単語のアクセントをアクセント辞書９３から
獲得し、音節数とアクセント型から非定型部Ｆ０パター
ン蓄積部９４を参照して、読み込んだＦ０パターンを持
続時間長接続編集部１０１、Ｆ０パターン接続編集部１
０２に出力する。持続時間長接続編集部１０１では、定
型部と非定型部それぞれの音素時間長を順番に接続し、
文全体の持続時間長の系列を作成する。Ｆ０パターン接
続編集部１０２では、定型部と非定型部のそれぞれのＦ
０パターンを順番に接続し、文全体のＦ０パターンを作
成する。Ｆ０パターンは発声中連続であるので、二つの
定型部と非定型部で読み込んだＦ０パターンのそれぞれ
に不連続がある場合には、適切なスムージングを行なう
などの編集を行なわなければならない。

【００１９】一方、音響パラメータ生成部１１１では、
入力の表音文字列をもとに音響パラメータを生成する。
音響パラメータ蓄積部１１２には、音響パラメータが格
納されている。ここで言う、音響パラメータとは、デー
タ容量を圧縮するために音声生成モデルを用いて音声デ
ータを数値化したものであり、ホルマント、ＰＡＲＣＯ
Ｒ、ＬＳＰなどの種類があり。これらの音響パラメータ
を用いた合成方式を、それぞれホルマント合成、ＰＡＲ
ＣＯＲ合成、ＬＳＰ合成と呼び、音声信号生成部１２１
によって実現される。また、合成方式としては波形を
直接編集する波形編集方式があり、この方式を用いた場
合は音響パラメータではなく、それに相当するものとし
て、波形接続情報を生成することになるが、ここでは、
音響パラメータに含めて扱う。音響パラメータは、表音
文字ごと、あるいはそれを前後の音素環境などにより細
分化した単位で蓄積されている。表音文字列にしたがっ
てこれを読み込み、連接することによって、合成文の音
響パラメータ列が生成される。音声信号生成部１２１で
は、以上で生成された合成文の持続時間長、Ｆ０パター
ン、音響パラメータ列より音声信号を生成する。音声出
力部６１では、その音声信号をＤＡ変換することによ
り、合成音声として出力する。

【００２０】本発明の第２の実施例の構成図を図４に示
す。本実施例は特許の請求項３および５に対応してい
る。本実施例は、実施例１の定型部Ｆ０パターン読み込
み部８２と定型部Ｆ０パターン蓄積部８４を定型部Ｆ０
パラメータ読み込み部８５、定型部Ｆ０パターン生成部
８６、および定型部Ｆ０パラメータ蓄積部８７に、ま
た、非定型部Ｆ０パターン読み込み部９２と非定型部Ｆ
０パターン蓄積部９４を非定型部Ｆ０パラメータ読み込
み部９５、非定型部Ｆ０パターン生成部９６、および非
定型部Ｆ０パラメータ蓄積部９７に置き換えたものであ
る。

【００２１】本実施例では、あらかじめ、自然音声から
抽出したＦ０パターンをモデルにより近似して、そのパ
ラメータを定型部Ｆ０パラメータ蓄積部８７と非定型部
Ｆ０パラメータ蓄積部９７に蓄積しておく。音声を合成
する際に、定型部に関しては、定型部Ｆ０パラメータ読
み込み部８５において、定型部のＦ０パラメータを定型
部Ｆ０パラメータ蓄積部８７から読みだし、定型部Ｆ０
パターン生成部８６において、パラメータから基本周波
数の時系列（Ｆ０パターン）を生成する。同様に、非定
型部についても、非定型部Ｆ０パラメータ読み込み部９
５において、非定型部の単語のアクセントをアクセント
辞書９３から獲得し、その音節数とアクセント型によっ
て、非定型部Ｆ０パラメータ蓄積部９７から適切なＦ０
パラメータを読みだし、非定型部Ｆ０パターン生成部９
６において、パラメータから基本周波数の時系列（Ｆ０
パターン）を生成する。

【００２２】本発明の第３の実施例の構成図を図５に示
す。本実施例は特許の請求項６に対応している。本実施
例は、実施例１の非定型部Ｆ０パターン読み込み部９２
と非定型部Ｆ０パターン蓄積部９４を非定型部Ｆ０パタ
ーン生成部９８に置き換えたものである。その他の部分
の処理は実施例１と同様であるから、非定型部Ｆ０パタ
ーン生成部９８についてのみ説明する。

【００２３】非定型部Ｆ０パターン生成部９８では、非
定型部の単語のアクセントをアクセント辞書９３から獲
得し、文中の位置などを考慮してＦ０パターンを規則に
より生成する。Ｆ０パターンを規則により生成する方法
としては、藤崎モデルや点ピッチモデルなどのモデルを
用いる方式が一般的であり、この場合もこれらが応用で
きる。

【００２４】本発明の第４の実施例の構成図を図６に示
す。本実施例は請求項１０および１１に対応してい
る。本実施例は、実施例１のテキスト入力部のユーザイ
ンタフェイスを置き換えることで、テキストの解析をよ
り正確にしたものである。入力インターフェイス部０１
２では、定型部文例蓄積部０１３より定型部を読みだ
し、ユーザインタフェースとして、図７または図８のよ
うに表示する。図７では、定型部には表示のみの機能し
かないカラムを、非定型部には、自由に単語の入力／編
集ができるエディット機能のあるカラムを用意し、使用
者に非定型部の入力を促す。このようなインターフェイ
スで入力すると、定型部と非定型部の判定が不必要で、
定型部のみを単語辞書７４で検索することによって、テ
キスト解析が可能である。

【００２５】図８では定型文例蓄積部１３に、非定型部
の入力候補を蓄積しておき、非定型部のカラムを指定す
るとその箇所に入るべき入力候補が表示され、候補選択
手段を用いて、いずれを入力とするか指定できるという
インターフェイスを持っている。こちらも同様に、定型
部と非定型部の判定が不必要で、定型部のみを単語辞書
７４で検索することによって、テキスト解析が可能であ
る。以降の処理は他の実施例と同様である。

【００２６】

【発明の効果】以上説明した様に、本発明によれば、交
通情報や天気概況の音声サービスなどに用いる、定型文
音声を合成するための音声合成装置において、聞き取り
やすく、自然な韻律をもつ音声を合成することができ
る。

【図面の簡単な説明】

【図１】本発明の原理図である。

【図２】本発明の基本的な考え方を示した概念図であ
る。

【図３】本発明の第１の実施例である。

【図４】本発明の第２の実施例である。

【図５】本発明の第３の実施例である。

【図６】本発明の第４の実施例である。

【図７】本発明のユーザインターフェースの第１の例
である。

【図８】本発明のユーザインターフェースの第２の例
である。

【図９】従来例である。

【符号の説明】

１テキスト入力手段２、７テキスト解析手段３定型部合成手段４非定型部合成手段５出力音声接続手段６音声出力手段８定型部Ｆ０パターン・持続時間長生成手段９非定型部Ｆ０パターン・持続時間長生成手段１０Ｆ０パターン・持続時間長接続編集手段（編集手
段と略す。）１１音響パラメータ生成手段１２音声信号生成手段６１音声出力部７１、７１’ テキスト解析部７２定型／非定型判定部７３出力切替部７４単語辞書７５、０１３定型部文例蓄積部８１定型部持続時間長読み込み部８２定型部Ｆ０パターン読み込み部８３定型部持続時間長蓄積部８４定型部Ｆ０パターン蓄積部８５定型部Ｆ０パラメータ読み込み部８６定型部Ｆ０パターン生成部８７定型部Ｆ０パラメータ蓄積部９１非定型部持続時間長生成部９２非定型部Ｆ０パターン読み込み部９３アクセント辞書９４非定型部Ｆ０パターン蓄積部９５非定型部Ｆ０パラメータ読み込み部９６、９８非定型部Ｆ０パターン生成部９７非定型部Ｆ０パラメータ蓄積部０１１テキスト入力部０１２入力インターフェース部１０１持続時間長接続編集部１０２Ｆ０パターン接続編集部１１１音響パラメータ生成部１１２音響パラメータ蓄積部１２１音声信号生成部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭57−4098（ＪＰ，Ａ) 特開平７−129188（ＪＰ，Ａ) 特開昭62−215299（ＪＰ，Ａ) 特開平４−349499（ＪＰ，Ａ) 特開平３−160500（ＪＰ，Ａ) 特開昭57−32498（ＪＰ，Ａ) 特開昭61−57998（ＪＰ，Ａ) 特開平７−110697（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00 - 13/08 G10L 19/00 - 21/06

Claims

(57)【特許請求の範囲】

【請求項１】合成すべき一群のメッセージに共通する
固定情報と該一群のメッセージ毎に異なる可変情報をつ
なぎ合わせて一群のメッセージを合成する音声合成装置
において、基本周波数の時間変化パターンの生成にあたって、固定
情報の基本周波数の時間変化パターンを生成する第１の
生成手段と、可変情報の基本周波数の時間変化パターン
を生成する第２の生成手段と、当該各生成手段により生
成した基本周波数の時間変化パターンを順次接続して文
の基本周波数の時間変化パターンを生成する編集手段
と、該編集手段で生成された基本周波数の時間変化パタ
ーンを用いて音声信号を合成する合成手段とを備えるこ
とを特徴とする音声合成装置。
【請求項２】請求項１に記載の第１の生成手段は、自然音声より抽出した固定情報の基本周波数の時間変化
パターンを、基本周波数の時系列の形式を用いて記憶す
る手段と、入力文に適切な基本周波数の時系列を該記憶
手段より読み込む手段とを備えることにより、基本周波
数の時間変化パターンを生成することを特徴とする音声
合成装置。
【請求項３】請求項１に記載の第１の生成手段は、自然音声より抽出した固定情報の基本周波数の時間変化
パターンを、該基本周波数の時間変化パターンを近似し
たモデルのパラメータの形式を用いて記憶する手段と、
入力文に適切なパラメータを該憶記する手段より読み込
む手段と、該パラメータより基本周波数の時系列を生成
する手段を備えることにより、基本周波数の時間変化パ
ターンを生成することを特徴とする音声合成装置。
【請求項４】請求項１に記載の第２の生成手段は、可
変情報の音節数とアクセント型の組合せについて自然音
声より抽出した基本周波数の時間変化パターンを、基本
周波数の時系列の形式を用いて記憶する手段と、入力文
に適切な基本周波数の時系列を該記憶手段より選択し読
み込む手段とを備えることにより、基本周波数の時間変
化パターンを生成することを特徴とする音声合成装置。
【請求項５】請求項１に記載の第２の生成手段は、可変情報の音節数とアクセント型のすべての組合せにつ
いて自然音声より抽出した基本周波数の時間変化パター
ンを、該基本周波数の時間変化パターンを近似したモデ
ルのパラメータの形式を用いて記憶する手段と、入力に
適切なパラメータを該記憶手段より選択し読み込む手段
と、該パラメータより基本周波数の時系列を生成する手
段を備えることにより、基本周波数の時間変化パターン
を生成することを特徴とする音声合成装置。
【請求項６】請求項１に記載の第２の生成手段は、可変情報の基本周波数の時間変化パターンを規則によっ
て生成する手段を持つことを特徴とする音声合成装置。
【請求項７】合成単位の各時間長の系列である持続時
間長の生成にあたって、固定情報の持続時間長を生成する第１の生成手段と、可
変情報の持続時間長を生成する第２の生成手段と、当該
各生成手段により生成した持続時間長を順次接続して、
文の持続時間長を生成する編集手段と、該持続時間長を
用いて音声信号を合成する手段とを備えることを特徴と
する音声合成装置。
【請求項８】請求項７に記載の第１の生成手段は、自然音声より抽出した固定情報の持続時間長を記憶する
手段と、入力文に適切な持続時間長を該記憶手段より読
み込む手段とを備えることによって、持続時間長を生成
することを特徴とする音声合成装置。
【請求項９】請求項７に記載の第２の生成手段におい
て、可変情報の持続時間長を生成する生成手段を持つことを
特徴とする音声合成装置。
【請求項１０】請求項１または請求項７に記載の音声
合成装置において、当該音声合成装置が固定情報を提示
し、ユーザが可変情報の入力および編集を行なうユーザ
インターフェイスを用いて合成文を入力することによっ
て、固定情報と可変情報を分離することを可能にするテ
キスト入力手段を備えることを特徴とする音声合成装
置。
【請求項１１】請求項１または請求項７に記載の音声
合成装置において、当該音声合成装置が固定情報の提示と可変情報の入力候
補の提示を行ない、該候補の可変情報を指定する選択手
段と、固定情報と可変情報を分離することを可能にする
テキスト入力手段を備えることを特徴とする音声合成装
置。