JP2007086185A

JP2007086185A - 音声合成装置

Info

Publication number: JP2007086185A
Application number: JP2005272494A
Authority: JP
Inventors: Takahiro Otsuka; 貴弘大塚; Satoshi Furuta; 訓古田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-09-20
Filing date: 2005-09-20
Publication date: 2007-04-05

Abstract

【課題】従来は、文中の特定の文節または１文字を聞き直したい時、文内におけるその箇所の位置を覚えておく必要がある。また、聞き直したい箇所の指定は、一文を読み上げた後に行うので、読み上げが終了するまで、待たねばならず時間がかかる。
【解決手段】テキストを入力し、文解析処理して言語情報を得る文解析手段と、この言語情報を記憶する言語情報記憶手段と、ユーザからの制御情報を入力する入力処理手段と、入力処理手段からの制御情報の内容によって異なる範囲の言語情報を言語情報記憶手段から取得する言語情報取得手段と、言語情報取得手段が取得した言語情報から音声を生成する音声生成手段と、音声生成手段で生成された音声を出力する音声出力手段とを備える。
【選択図】図１

Description

この発明は、テキストを文解析して、その解析結果である言語情報から音声信号を生成し、出力する音声合成装置に関するものである。

テキスト音声合成を用いて、任意の文字列を読み上げる文章読み上げ技術として、たとえば、特開平４−１７７５２６公報に記載の技術がある。

この従来技術では、読み上げの途中で、聞き逃しや、聞き取りにくい部分、意味が理解できない場合に、元の音声とは異なる態様で文の読み上げを行う機能を設けている。読み直しを指示すると、指定位置から、指定された態様に従い、一文を読み上げる。

特開平４−１７７５２６号公報

上記従来の方法では、文中の特定の文節または１文字などを聞き直したい場合に、その箇所が文内のどの位置にあるか覚えておく必要がある問題点があった。また、聞き直したい箇所の指定は、一文を読み上げた後に行うので、読み上げが終了するまで、ユーザは待つ必要があり、時間がかかる問題点もあった。
そこで、この発明の目的は、ユーザが、聞き取れなかったり意味がわからなかったりする場合に、聞き直したい箇所を即座に聞き直すことがきることと、聞き取れない箇所を複数回聞き直すうちに、聞き直したい箇所を絞り込んで行くことで、効率よく読み上げ内容を正しく理解するような音声を生成する音声合成装置を提供することにある。

この発明に係る音声合成装置は、
テキスト文を入力し、文解析して言語情報を得、この言語情報から音声信号を生成して、テキスト文の読みを音声出力する音声合成装置であって、
テキスト文を入力し、文解析処理して言語情報を得る文解析手段と、
文解析手段で得た言語情報を記憶する言語情報記憶手段と、
ユーザからの制御情報を入力する入力処理手段と
入力処理手段からの制御情報の内容に基づき異なる範囲の言語情報を言語情報記憶手段から取得する言語情報取得手段と、
言語情報取得手段が取得した言語情報から音声を生成する音声生成手段と、
音声生成手段で生成された音声を出力する音声出力手段とを備える。

この発明に係る音声合成装置によれば、ユーザは、聞き取れなかった箇所、理解できなかった箇所を、即座に聞き直すことも可能になり、一回の聞き直しで理解できない場合には、聞き直しの範囲を限定していくことも可能で、読み上げ内容を容易に理解できる効果がある。

実施の形態１．
図１は、この発明の形態１における音声合成装置の構成図である。図１において文解析手段１１は、入力したテキストを形態素解析や構文解析などの言語解析を実施することにより、その解析結果として、例えば、“よみ”の言語情報を出力する。
言語情報記憶手段１２は、文解析手段１１より出力された言語情報を記憶する。
入力処理手段１５は、ユーザからの制御情報、例えば処理継続要求或いは再出力要求を受け付ける処理を実施する。
言語情報取得手段１３は、言語情報記憶手段１２に記憶されている言語情報の一部を入力処理手段１５からの制御情報に基づき選択し、取得する処理を実施する。

言語情報編集手段１４は、言語情報取得手段１３で取得した言語情報を正しく認識可能に編集する処理、例えば言語情報“カ”に対し、“カキクケコノカ”に編集を実施する。
音声生成手段１６は、言語情報編集手段１４で編集した言語情報から音声信号を生成する処理を実施する。
音声出力手段１７は、音声生成手段１６で生成した音声信号を音声に変換し出力する処理を実施する。

次に動作について図２で説明する。
文解析手段１１は、テキストを入力すると、そのテキストに対して形態素解析や、構文解析などの解析を実施することにより、その解析結果として、例えば“よみ”の言語情報を出力する（ステップＳ１）。
言語情報の生成については、公知の技術を利用すればよいので、ここでは詳細な説明を省略する。

言語情報記憶手段１２は、文解析手段１１の出力を受け取ると、その言語情報を記憶する（ステップＳ２）。例えば、図３または図４に示すような情報を記憶する。ここでは、まず、図３の場合について説明し、図４の場合については後述する。

図３において文節番号３１は、テキストを文解析手段１１で解析して得られた文節に対し、付与された番号を記憶する。テキスト３２は、文解析手段１１に入力されたテキストを文解析手段１１で文節ごとにわけて記憶する。よみ３３は、各文節に対応した読みを記憶する。文字番号３４は、よみ３３の文字ごとに付与した番号を記憶する。文字３５はよみ３３を１文字ずつ記憶する。フラグ３６は、文解析手段１１で得られた区切り情報を記憶する。この区切り情報において、値０は文末であることを表し、値１は文節末であることを表し、値２は上記の値０または１以外であることを表している。

ステップＳ３では、次に示す［処理Ａ］、［処理Ｂ］、［処理Ｃ］を行うことで、読み直しの処理を実施する。
［処理Ａ］は一文の読み直しの処理、［処理Ｂ］は一文節の読み直しの処理、［処理Ｃ］は一語または単漢字の読み直しの処理を行うもので、それぞれ、［処理Ａ］は図５、［処理Ｂ］は図６，［処理Ｃ］は図７，８，９を用いて説明し、ステップＳ３の（読み直し処理）の動作を詳しく説明する。

図５は一文の読み直しの処理を行う［処理Ａ］の動作と処理データの例を表している。図５の処理番号５１は、処理内容５２ごと付与された番号である。処理データ例５３は、動作を説明するためのデータの例である。
ここでは、「先生の回答を待った。返事はなかった。」がテキストとして文解析手段１１に入力され、文解析の結果が、図３のように記憶されているとする。

（処理１）
開始文字番号を変数ＳＴで表し、これを初期化する。ここでは、最初の処理であるから入力された最初の文字から処理を行うので、ＳＴに１を代入する（処理データ例P01）。

（処理２）
言語情報取得手段１３で、文字番号３４がＳＴからフラグ０までの言語情報を言語情報記憶手段１２から取り出す。つまり、ここでは一つの文を処理するので、フラグの値が文末の区切り情報値０までを取り出す。ここで取り出す言語情報がない場合は、ステップＳ３の動作を終了する。
言語情報記憶手段１２には、図３で表す内容が記憶されているとすると、“センセーノカイトーヲマッタ”が言語情報取得手段１３によって取り出される（処理データ例P02）。

（処理３）
音声生成手段１６で、言語情報取得手段１３によって取り出された言語情報“センセーノカイトーヲマッタ”から音声を生成する。音声信号の生成については、公知の技術を利用すればよいので、ここでは説明を省略する。

（処理４）
音声出力手段１７で、音声生成手段１６で生成した音声信号を文節単位で出力する。文節単位で出力を行う意味は、音声を途切れ途切れに出力するということではなく、他の処理へ移る単位を表している。ここでは、「センセーノ」を出力する（処理データ例P03）。

（処理５）
出力した文節の末の文字に対応するフラグの値によって、次の処理の内容を決める。フラグの値が０の場合は（処理６）へ移行し、フラグの値が０でない場合は（処理９）へ移行する。ここでは、文節末の文字は「ノ」で、そのフラグの値は１であるので、（処理９）へ移行する（処理データ例P04）。

（処理９）
音声の出力中に、入力処理手段１５で受けたユーザからの制御情報によって、次に実施する処理を決める。すなわち、再出力要求があれば、［処理Ｂ］へ移行し、再出力要求がなければ、次の文節の音声を出力する（処理４）へ移行する。制御情報は、ユーザの操作に伴って入力される情報で、ボタンによる入力や、ソフトウエア上で実現されるボタン等による入力情報である。また、マイクを介して音情報を用いた入力方法でもよい。

入力処理手段１５は、音声の出力中も動作させ、随時、ユーザからの入力を受け付け、即座にユーザが入力した制御情報による処理に移行する。
ここでは、再出力の要求がなかったことを想定し、次に実施する処理を（処理４）と決定する（処理データ例P05）。

（処理４）
ここでは、「カイトーヲ」を音声出力し（処理データ例P06）、（処理５）へ移る。

（処理５）
ここでは、文節末の文字は「ヲ」で、そのフラグは１であり、０でないので、（処理９）へ移行する（処理データ例P07）。

（処理９）
ここでは、再出力要求があったことを想定すると、次に実施する処理を、［処理Ｂ］と決定する（処理データ例P08）。

［処理Ｂ］は一文節毎の処理を行うもので、図６に［処理Ｂ］の動作と処理データの例を示している。図６の符号は、図５の符号と同一である。

（処理１０）
言語情報取得手段１３で、文字番号がＳＴに対応する文節番号の言語情報を言語情報記憶手段１２から取り出す。ここの例では、ＳＴに１が代入されているので、文節番号１の言語情報“センセーノ”が取り出される（処理データ例P09）。

（処理１１）
音声生成手段１６で、言語情報取得手段１３によって取り出された言語情報“センセーノ”から音声を生成する。

（処理１２）
音声出力手段１７で、音声生成手段１６で生成された音声を出力する。ここでは、「センセーノ」を出力する（処理データ例P10）。

（処理１３）
言語情報取得手段１３で取り出された一文節の音声が出力されたので、入力処理手段１５で、入力があるまで待機する。ここでは、継続要求を入力として受け取ったことを想定する（処理データ例P11）。

（処理１４）
入力処理手段１５で受け取った入力によって、次に実施する処理を決定する。すなわち、再出力要求の場合は、（処理Ｃ）へ移行し、継続要求の場合は、（処理１５）へ移行する。
ここでは、継続要求を受け取ったことを想定するので、（処理１５）へ移行する。

（処理１５）
開始文字番号ＳＴを更新する。ここでは、「センセーノ」の出力が完了し、次の“カイトーヲ”を指定するように、開始文字番号ＳＴを設定する。すなわちＳＴに６を設定する（処理データ例P12) 。

（処理１６）
（処理１０）で言語情報取得手段１３が言語情報記憶手段１２から取り出した、言語情報の末尾のフラグによって、次に実施する処理を決定する。末尾のフラグが０の場合は、図５に示す［処理Ａ］の（処理２）へ移行し、末尾のフラグが０でない場合は、図６に示す［処理Ｂ］の（処理１０）へ移行する。ここでは、言語情報取得手段１３により言語情報記憶手段１２から取り出した言語情報“センセーノ”の末尾文字「ノ」に対応するフラグは１であり、０でないので、次に実施する処理を、［処理Ｂ］の（処理１０）と決定する（処理データ例 P13)。

ここの例では、（処理１０）で、文字番号がＳＴ＝６に対応する文節番号２の言語情報“カイトーヲ”が取り出され（処理データ例 P14)、次に、（処理１１）で音声生成手段１６により音声生成を行い、（処理１２）で音声出力手段１７により「カイトーヲ」という音声の出力を行う（処理データ例P15）。次に、（処理１３）で入力処理手段１５からの入力をまつ。ここでは、再出力要求を受け取ったことを想定する（処理データ例P16）。再出力要求であるから（処理１４）で、次に実施する処理を［処理Ｃ］と決定する。

［処理Ｃ］は一語毎または単漢字毎の読み直しの処理を行うもので、ここでは一語の読み直し処理の例について説明する。図７は［処理Ｃ］の動作と処理データの例を表しており、図７の符号は、図５の符号と同一である。

（処理１７）
言語情報取得手段１３で、開始文字番号ＳＴの言語情報を取り出す。ここの例ではＳＴに６が設定されているので、“カ”が取り出される（処理データ例P17）。

（処理２４）
取り出された言語情報を、言語情報編集手段１４によって編集する。言語情報編集手段１４では、編集を行っても良いし、行わなくても良い。この例では、編集を行わずに、編集結果を“カ”とする。

（処理１８）
音声生成手段１６で、言語情報編集手段１３によって編集された言語情報から音声を生成する。ここでは、「カ」を生成する。

（処理１９）
音声出力手段１７で、音声生成手段１６で生成された音声を出力する。ここでは、「カ」を出力する（処理データ例P18）。

（処理２０）
入力処理手段１５で、入力があるまで待機する。ここでは、継続要求を入力として受け取ったことを想定する（処理データ例P19）。

（処理２１）
入力処理手段１５で受け取った入力によって、次に実施する処理を決定する。すなわち、再出力要求の場合は（処理１９）へ移行し、継続要求の場合は（処理２２）へ移行する。ここでは、継続要求を受け取ったことを想定するので（処理２２）へ移行する。

（処理２２）
開始文字番号ＳＴを更新する。ここでは、「カ」の出力が完了し、次の“イ”を指定するように、開始文字番号ＳＴを設定する。すなわちＳＴに７を設定する（処理データ例P20) 。

（処理２３）
（処理１７）で取り出した言語情報のフラグによって、次に実施する処理を決定する。フラグが０の場合は、［処理Ａ］の（処理２）へ移行し、フラグが１の場合は、［処理Ｂ］の（処理１０）へ移行し、フラグが２の場合は、（処理１７）へ移行する。
ここでは、取り出された文字「カ」に対応するフラグは２なので、次に実施する処理を、（処理１７）と決定する（処理データ例 P21) 。

ここの例では、（処理１７）で、言語情報取得手段１３によって“イ”が取り出され（処理データ例 P22）、次に、（処理１８）で音声生成手段１６により音声生成を行い、（処理１９）で「イ」という音声出力を音声出力手段１７で行う（処理データ例 P23）。次に、（処理２０）で入力をまつ。ここでは、再出力要求を受け取ったことを想定する（処理データ例 P24）。再出力要求であるから（処理２１）で、次に実施する処理を（処理１９）と決定する。

（処理１９）で音声出力手段１７により「イ」という音声出力を行う（処理データ例 P25）。次に、（処理２０）で入力をまつ。ここでは、継続要求を受け取ったことを想定する（処理データ例 P26）。（処理２１）では、継続要求であるから次に実施する処理を、（処理２２）と決定する。

（処理２２）
開始文字番号ＳＴを更新する。ここでは、「イ」の出力が完了し、次の“ト”を指定するように、開始文字番号ＳＴを設定する。すなわちＳＴに８を設定する（処理データ例P27) 。

（処理２３）
ここでは、言語情報取得手段１３によって取り出された文字「イ」に対応するフラグは２なので、次に実施する処理を、（処理１７）と決定する（処理データ例 P28) 。

（処理１７）で、言語情報取得手段１３によって“ト”が取り出され（処理データ例 P29）、次に、（処理１８）で音声生成手段１６により音声生成を行い、（処理１９）で「ト」という音声出力を音声出力手段１７により行う（処理データ例 P30）。次に、（処理２０）で入力をまつ。ここでは、継続要求を受け取ったことを想定する（処理データ例P31）。（処理２１）で、次に実施する処理を、（処理２２）と決定する。

（処理２２）で、開始文字番号ＳＴを更新する。ここでは、「ト」の出力が完了し、次の“ー”を指定するように、開始文字番号ＳＴを設定する。すなわちＳＴに９を設定する（処理データ例P32) 。（処理２３）で、言語情報取得手段１３によって取り出された文字「ト」に対応するフラグは２なので、次に実施する処理を（処理１７）と決定する（処理データ例 P33) 。

（処理１７）で、言語情報取得手段１３によって“ー”が取り出され（処理データ例P34）、次に、（処理１８）で音声生成手段１６により音声生成を行い、（処理１９）で「チョーオン」という音声出力を音声出力手段１７により行う。ここでは、音声生成手段１６が、“ー”が長音であることを判断し、「チョーオン」という音声信号を生成し、音声出力したことを示している（処理データ例P35）。次に、（処理２０）で入力をまつ。ここでは、継続要求を受け取ったことを想定する（処理データ例P36) 。（処理２１）で、次に実施する処理を（処理２２）と決定する。

（処理２２）で、開始文字番号ＳＴを更新する。ここでは、「チョーオン」の出力が完了し、次の“ン”を指定するように、開始文字番号ＳＴを設定する。すなわちＳＴに１０を設定する（処理データ例P37)。（処理２３）で、言語情報取得手段１３により取り出された文字「ー」に対応するフラグは２なので、次に実施する処理を（処理１７）と決定する（処理データ例 P38) 。

（処理１７）で、言語情報取得手段１３によって“ヲ”が取り出され（処理データ例P39）、次に、（処理１８）で音声生成手段１６により音声生成を行い、（処理１９）で「ヲ」という音声出力を音声出力手段１７により行う（処理データ例P40）。次に、（処理２０）で入力をまつ。ここでは、継続要求を受け取ったことを想定する（処理データ例P41) 。（処理２１）で、次に実施する処理を（処理２２）と決定する。

（処理２２）で、開始文字番号ＳＴを更新する。ここでは、「ヲ」の出力が完了し、次の“マ”を指定するように、開始文字番号ＳＴを設定する。すなわちＳＴに１１を設定する（処理データ例P42)。（処理２３）で、言語情報取得手段１３により取り出された文字「ヲ」に対応するフラグは１で文節末であるので、次に実施する処理を次の文節とし、［処理Ｂ］の（処理１０）と決定する（処理データ例 P43) 。

再び、図６を用いて［処理Ｂ］での動作を説明する。
（処理１０）で、ＳＴに１１が設定されているので、このＳＴに１１に対応する文節番号３の言語情報“マッタ”が取り出され（処理データ例P44）、次に、（処理１１）で音声生成手段１６により音声生成を行い、（処理１２）で音声出力手段１７により「マッタ」という音声出力を行う（処理データ例P45）。
次に、（処理１３）で入力をまつ。ここでは、継続要求を受け取ったことを想定する。（処理１４）で、次に実施する処理を（処理１５）と決定する（処理データ例P46）。

（処理１５）
開始文字番号ＳＴを更新する。ここでは、「マッタ」の出力が完了し、次の“ヘンジワ”を指定するように、開始文字番号ＳＴを設定する。すなわちＳＴに１４を設定する（処理データ例P47) 。

（処理１６）
ここでは、「マッタ」の末尾文字「タ」に対応するフラグは０であるので、次に実施する処理を、［処理Ａ］の（処理２）と決定する（処理データ例 P48) 。

再び、図５を用いて［処理Ａ］での動作を説明する。
（処理２）で、”ヘンジワナカッタ”が言語情報取得手段１３によって取り出される（処理データ例P49）。

このようにして、与えられたテキスト「先生の回答を待った。返事はなかった」から、一文「先生の回答を待った」についての音声出力が完了し、次の文「返事はなかった」へ処理を移す。
「返事はなかった」についての動作は、先に説明した「先生の回答を待った」についての動作と同様なので説明を省略する。

上記の例では説明されなかった、（処理６，７，８）について説明する。
（処理６）では、（処理４）で音声を出力した後、入力処理手段１５から何らかの入力があるのを待機する。入力処理手段１５で、ユーザからの制御情報の入力を受ける。

（処理７）では、（処理６）で受けた入力によって、次に実施する処理を決定する。すなわち、入力が、再出力要求の場合は（処理Ｂ）へ移行し、継続要求の場合は（処理８）へ移行する。

（処理８）では、開始文字番号ＳＴを更新する。すなわち、文節末の文字の次の文字の番号を設定する。ついで、次に、（処理２）へ移行する。

以上のように、この実施の形態によれば、ユーザは、聞き取れなかった箇所、理解できなかった箇所を、入力処理手段に再出力要求を入力することで、この再出力要求が即実行され、即座に聞き直すことが出来、一回の聞き直しで理解できない場合には、聞き直しの範囲を限定していくので、読み上げ内容を容易に理解できる効果がある。

実施の形態２．
上記実施の形態１では、［処理Ｃ］の（処理２４）において、編集を行わなかったが、言語情報を編集して、言語情報を変更しても良い。
この実施の形態の場合の動作例を図８に示す。この動作は、図７の動作の、（処理２４）が異なっている。

（処理２４）では、言語情報取得手段１３で得られた言語情報を、この言語情報に対応する予め用意された言語情報に変換する。図８に示す動作例では、言語情報取得手段１３で得られた言語情報“カ”に対し、“カキクケコノカ”に変換している。この様に変換して音声出力することで“カ”に対し。ユーザが正しく認識できるようになる。

言語情報の変換は、例えば、図１０に示すテーブルを予め用意することで容易に変換することができる。

実施の形態３．
上記実施の形態１では、文解析手段１１で解析した結果を図３のように記憶したが、図４に示すように記憶してもよい。この実施の形態では、図４に示すように、図３の文字３５のみが図４の文字４５のように異なっている。図４の文字４５では、テキスト３２の文字を一文字ずつ記憶する。
この実施の形態３の場合の動作例を図９に示す。この動作は、図８に示す実施の形態２における動作の（処理２４）、（処理２１）のみが異なっている。

すなわち、（処理２４）では、言語情報取得手段１３で得られた言語情報を、この言語情報に対応する予め用意された言語情報に変換する。図９に示す動作例では、図１１のような変換を行っている。この言語情報の変換は、図１１のような、単漢字、ひらがな、カタカナ、とそれを表す言語情報のテーブルを用意することで容易に変換することができる。

（処理２０）で、再出力要求を受け付けた場合は、（処理２４）で、先の読み上げとは異なる言語情報に変換する。一つの文字に対し、複数の言語情報を対応させるテーブルを用意することで、異なる言語情報に変換することができる。
図１１のテーブルでは、”答”に対し、”トーアンノトー”と、”トーベンノトー”をテーブルに用意している。

このように、一つの文字に対し、複数の言語情報を対応させるテーブルを用意し、先の読み上げとは異なる言語情報に変換して、異なる表現の音声を出力することで、出力音声に対しユーザが正しく認識できるようになる。

上記実施の形態１では、文解析手段１１で解析した結果を図３のように、文節番号３１を用いたが、テキスト音声合成で扱う基本単位であってもよい。例えば、アクセントフレーズと呼ばれる、イントネーションのひとつのまとまりを表す単位などである。

上記各実施の形態では、テキストは日本語として説明したが、この発明は言語に依存するものでなく、英語、ドイツ語、中国語などでもよい。例えば英語では、日本語での文節の変わりに単語を対応させ、この発明を適用することができる。

カーナビゲーション等でユーザの視覚に制限があるようなシーンでの音声案内や対話装置に適用されることで音声情報をユーザが素早く、確実に理解できるものである。

この発明の実施の形態１に係る音声合成装置の構成を示すブロック図である。実施の形態１に係る動作を説明するため図である。実施の形態１に係る言語情報記憶手段に格納された情報例を説明するため図である。実施の形態１に係る言語情報記憶手段に格納された他の情報例を説明するため図である。情報の例である。実施の形態１に係る［処理Ａ］の動作と、動作例を説明するための図である。実施の形態１に係る［処理Ｂ］の動作と、動作例を説明するための図である。実施の形態１に係る［処理Ｃ］の動作と、動作例を説明するための図である。実施の形態１に係る別な［処理Ｃ］の動作と、動作例を説明するための図である。実施の形態１に係るさらに別な［処理Ｃ］の動作と、動作例を説明するための図である。一語の言語情報変換用テーブルの説明図である。単漢字、ひらがな、カタカナ等の言語情報変換用テーブルの説明図である。

符号の説明

１１文解析手段、１２言語情報記憶手段、１３言語情報取得手段、１４言語情報編集手段、１５入力処理手段、、１６音声生成手段、１７音声出力手段、３１文節番号、３２テキスト、３３よみ、３４文字番号、３５、４５文字、３６フラグ、５１処理番号、５２処理内容、５３処理データ例。

Claims

テキスト文を入力し、文解析して言語情報を得、この言語情報から音声信号を生成して、テキスト文の読みを音声出力する音声合成装置であって、
テキスト文を入力し、文解析処理して言語情報を得る文解析手段と、
文解析手段で得た言語情報を記憶する言語情報記憶手段と、
ユーザからの制御情報を入力する入力処理手段と
入力処理手段からの制御情報の内容に基づき異なる範囲の言語情報を言語情報記憶手段から取得する言語情報取得手段と、
言語情報取得手段が取得した言語情報から音声を生成する音声生成手段と、
音声生成手段で生成された音声を出力する音声出力手段とを備えたことを特徴とする音声合成装置。
入力処理手段に入力するユーザからの制御情報は音声の再出力要求を含み、
再出力要求の時は出力音声の範囲を先の出力範囲よりも狭くする処理を行うことを特徴とする請求項１記載の音声合成装置。
入力処理手段は音声出力手段が音声を出力中であっても、ユーザからの制御情報を入力し、入力処理手段以外の手段も、その制御情報に伴う処理に移行することを特徴とする請求項１または２に記載の音声合成装置。
言語情報取得手段が取得する言語情報は、句点にはさまれる言語情報、文節または単語を表す言語情報、1文字からなる言語情報の何れかであることを特徴とする請求項１乃至３の何れかに記載の音声合成装置。
言語情報取得手段で取得した1文字からなる言語情報を別な表現に編集処理する言語情報編集手段を備えたことを特徴とする請求項４記載の音声合成装置。