JPH1195784A

JPH1195784A - 音声出力装置

Info

Publication number: JPH1195784A
Application number: JP9254718A
Authority: JP
Inventors: Naoko Satou; 奈穂子佐藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1997-09-19
Filing date: 1997-09-19
Publication date: 1999-04-09
Anticipated expiration: 2017-09-19
Also published as: JP3549372B2

Abstract

(57)【要約】【課題】自然なポーズ設定が可能な音声出力装置を提
供すること。【解決手段】入力されたテキストを音声に変換して読
み上げを行なう音声出力装置であって、入力テキスト読
み上げの際のポーズ挿入位置をテキストの構文解析処理
により文法的にまとまりのある構文構成要素間に設定す
るポーズ設定手段を有している。このポーズ設定手段
は、文構造パタン辞書を参照して、構文解析処理の結果
得られる入力テキストの文構造パタンによりポーズを設
定するとともに、構文構成要素の階層に応じて挿入する
ポーズのポーズ長を変えることができる。前記構文解析
手段は、１構文構成要素が予め定めた一定のモーラ数を
越えた場合、該構文構成要素をそれより下位の階層の構
文構成要素に分解する処理を、分解が不可能となるか又
は構文構成要素のモーラ数が前記一定数内に達するまで
継続実施する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声出力装置に関
し、とくに、電子化された入力テキスト（文書）を音声
に変換する際の出力技術に特徴のある、入力文言を音声
に変換し出力する音声出力装置に関するものである。

【０００２】

【従来の技術】音声出力装置の一例としてテキスト音声
合成システムが挙げられる。このシステムは入力された
テキストに対し、形態素辞書などを参照して一定のアル
ゴリズムにより侯補中から選択した最適解に対して読み
を含む音韻を設定する。さらに一定のルールにしたがっ
てアクセント位置、ポーズ位置を設定し、音声に変換す
るための制御記号列に変換し、この制御記号列を音声合
成器に入力し、入力に応じた音声を出力するものであ
る。

【０００３】従来のテキスト音声合成システムにおける
読み上げ時のポーズ位置設定には、テキスト中の句読点
の位置に設定する他、例えば、入力されたテキストの１
文章分全体の総時間長や総モーラ数、予測モーラ数によ
りポーズ付与の仕方を制御するもの（特開平５−６１９
１号公報）、２〜３文節間という局所的な文節間の係り
受け関係とその結合度に基づく方法（特開平５−１３４
６９１号公報）、アクセント句の句頭、句末の単語の品
詞に基づいてポーズを設定するか否かを決定する方法
（特開平６−１４９２８２号公報）、様々な品詞に対し
てモーラ数の統計的な分布に基づく方法、品詞による影
響を無視した無ポーズ区間の分布に基づく方法（特開平
６−１６１４８５号公報）、テキスト中の複合語、文節
等を同定して、それに対して統計的に求めたポーズ設定
規則を適用するもの（特開平８−１２３４５６号公
報）、などが提案されている。

【０００４】しかしながら、句読点の位置だけではポー
ズが足りず、聞き取りにくい出力となってしまう。入力
テキストの総モーラ数からポーズ位置を算出する方法や
品詞に基づく方法は、文章の構造や意昧を加味しないた
め、不自然な位置にポーズが設定される場合がある。ま
た、局所的な文節間の係り受けの結合度を用いる方法
は、入力テキスト中の１文が長い場合、処理の単位が
２，３文節であるため、その大まかな構文構造は不明な
まま意味的にひとまとまりである句の中に不自然にポー
ズが設定される可能性がある。確率に基づく方法はサン
プルとなる読み上げデータを大量に要し、なおかつ読み
上げには個人差があるため、実現が困難である。

【０００５】

【発明が解決しようとする課題】本発明の課題は、容易
に実用化でき、かつ、入力テキスト中の文の構造や意味
のまとまりを１文単位で構造解析し、更に、生理的に自
然なモーラ数内でポーズ設定が可能で、かつ、文の構造
上の階層に応じて挿入されるポーズの長さを変えるよう
にしてより自然なポーズ設定が可能なポーズ位置設定手
段を有する音声出力装置を提供することである。

【０００６】

【課題を解決するための手段】請求項１記載の発明は、
テキスト入力装置、入力テキストを文法的にまとまりの
ある構文構成要素に分解する構文解析手段、前記構文構
成要素間にポーズを設定するポーズ設定手段、を有する
入力されたテキストを音声に変換して読み上げを行う音
声出力装置である。

【０００７】請求項２記載の発明は、請求項１記載の音
声出力装置において、前記ポーズ設定手段はポーズ設定
規則を参照して、構文解析処理の結果得られる入力テキ
ストの文構造パタンを用いてポーズを設定する音声出力
装置である。

【０００８】請求項３記載の発明は、請求項１記載の音
声出力装置において、前記ポーズ設定手段によるポーズ
設定処理は入力文書中の１文単位に行われる音声出力装
置である。

【０００９】請求項４前記の発明は、請求項１記載の音
声出力装置において、前記構文解析手段は入力テキスト
中の１文単位で構文解析処理を行う音声出力装置であ
る。

【００１０】請求項５の発明は、請求項４記載の音声出
力装置において、前記構文解析手段は、１構文構成要素
が予め定めた一定のモーラ数を越えた場合、該構文構成
要素をそれより下位の階層の構文構成要素に分解する処
理を、分解が不可能となるか又は構文構成要素のモーラ
数が前記一定数内に達するまで継続実施する音声出力装
置である。

【００１１】請求項６記載の発明は、請求項１記載の音
声出力装置において、前記ポーズ設定手段が構文構成要
素の階層に応じて挿入するポーズのポーズ長を変える音
声出力装置である。

【００１２】

【発明の実施の形態】以下、図面を参照しながら本発明
の構成と実施例を説明する。図１は本発明における音声
出力装置の構成の一例を示したもので、テキスト入力部
１、言語処理部２、韻律処理部３、音響処理部４、音声
出力部５、言語データ類６、韻律生成規則７、音素片デ
ータ８から構成されている。この構成において、テキス
ト入力部から入力されたテキストは、以下で説明するよ
うに、言語処理部で、例えば、形態素辞書などの言語デ
ータ類６を用いて形態素解析からポーズ設定までの一連
の処理を行う。そして、言語処理部でポーズ設定された
テキストは次の韻律処理部３において、韻律生成規則７
を用いて韻律が付与され、さらに、音素片データ８を用
いて音響処理部４で処理されて合成音声として出力され
る。

【００１３】図２は、図１の言語処理部の構成を示し、
該言語処理部は、形態素解析部２１、形態素辞書２２−
１、構文解析部２３、構文解析規則２４、アクセント結
合処理部２５、アクセント結合規則２６、ポーズ設定処
理部２７、ポーズ設定規則２８から構成されている。

【００１４】図３は、本発明における構文解析処理の一
例を流れ図で示したものである。入力部にテキストが１
文単位で入力されると（１０２）、形態素解析部２１は
形態素辞書２２−１や単語接続表２２−２などを参照し
て入力された文章の形態素解析処理を行い（１０３）、
形態素侯補列（表１参照）を生成する（１０４）。この
形態素解析処理は最長一致法やコスト最小法など既存の
アルゴリズムで実現することができる。構文解析部２３
は、形態素解析結果を入力とし品詞連接情報２４−１、
係り受け規則２４−２などを含む構文解析規則２４を参
照して構文解析処理を行い（１０５）、形態素侯補列を
文節、連文節、句など各構文構成要素へとくみ上げる
（１０６，１０７，１０８）。この構文解析処理も既存
の手法で実現することができる。各構文構成要素へのく
み上げの際は、各構文構成要素に対して採用した規則が
文法的役割情報として保持される。くみ上げが収束した
ら、文構成確定処理を行い（１０９）、尤もらしい文構
成パタンを選択する。

【００１５】図４は、本発明における構文要素分解処理
の一例を流れ図で示したものである。ポーズ設定処理部
２７から構文要素分解の命令があると（２０２）、構文
解析処理でくみ上げられた最上階層の構文要素レベルか
ら、保持している前記文法的役割情報によって１段下位
の階層の構文要素へ分解する（２０３）。例えば、第１
階層の構文要素が連文節であり、５つの文節で成り立っ
ている場合、保持した文法的役割情報により３文節と２
文節の２つの構文要素へ分解するとする（勿論、他にも
分解パタンは複数あり得る）。さらにポーズ設定処理部
２７から構文要素分解の命令があると、順に下位レベル
の構文要素へ分解する。上記の例において分解された３
文節の方に更に構文要素分解の命令があった場合には、
１文節と２文節の２つの構文要素へ分解することが想定
される。

【００１６】図５は、本発明におけるポーズ設定処理の
一例を流れ図で示したものである。入力テキストの１文
の文構成パタンが、構文解析処理によって同定されたら
（１０５〜１１０）、文構成パタンと、それに対応する
ポーズを記載した文構成対応ポーズパタン２８−１など
である予め用意してあるポーズ設定規則２８を参照して
文構成パタン比較処理を行い（４０３）、文構成パタン
が一致（４０４）していれば、文構成パタン対応ポーズ
設定、つまり、一致した文構成のパタンのポーズ位置に
ポーズを挿入する（４０５）。これにより設定されたポ
ーズを最上階層（第１階層）のポーズとする。予め用意
する文構成対応ポーズパタンは辞書、対応テーブル、テ
ンプレートなどの形式で実現できる。

【００１７】次に、各ポーズとモーラ数との関係につい
て説明する。各ポーズ間の構文要素のモーラ数をカウン
トし（３０１，３０２）、カウントされたモーラ数が発
声生理学の観点から予め設定してある一定のモーラ数を
越えている場合（３０３）、構文要素分解手段に構文要
素分解命令を出し、構文要素分解処理（３０４）を行
う。その結果、分解位置が決まったら（３０５）、ポー
ズ挿入処理を行い、その位置に両隣の第１階層のポーズ
よりも小さい単位の第２階層のポーズを挿入する（３０
６）。第１階層のポーズと第２階層のポーズ間のモーラ
数も予め設定してある一定のモーラ数を越えている場合
には、構文要素分解手段に２回目の構文要素分解命令を
出して前記の処理を行いかつ分解位置が決まったら、そ
の位置に両隣のポーズよりも小さい単位の第３階層のポ
ーズを挿入する。

【００１８】以上のように、第２階層以降、第ｎ階層ま
でのポーズ設定処理は各ポーズ間のモーラ数と予め設定
してある一定のモーラ数との比較が収束するまで繰り返
し行なわれる。予め設定する一定のモーラ数は、生理学
的な観点（発声持続可能時間）から求める方法や、実際
に人間が文章を読み上げた実データから求める方法が考
えられる。

【００１９】次に、本発明の作用を説明する。「勝利を
確信したのはコース半ばを過ぎた東京タワー付近だ。」
というテキストが入力された場合、形態素解析部２１は
形態素辞書２２−１や単語接続表２２−２を参照して表
１に示すような形態素侯補列を生成する。次に、構文解
析部２３は品詞連接情報２４−１等を参照して表２に示
すような文節侯補列を生成し、係り受け規則２４−２を
参照して、連文節が生成可能であれば連文節を収束する
までくみ上げていく。収束した時点で文構成確定処理
（１０９，１１０）により、表３に示すような入力テキ
ストの尤もらしい文構成パタンを選択する。

【００２０】次に、アクセント結合処理部２５（図２）
は、アクセント結合規則２６を参照して複合語などのア
クセント結合処理を行なう。アクセント結合した単語間
にはポーズは挿入されない。本実施例では「東京＋タワ
ー＋付近」がアクセント結合する。選択された文構成パ
タン（表３）と、文構成対応ポーズパタンリスト（表
４）を比較し、一致するパタンがあったら、それを参照
して対応する位置にポーズを挿入する。本実施例では表
３の最尤文構成パタン：く主語節＞句末＝副助詞は、
〈述語節＞句末＝終端記号は、表４の、く主語節＞句末
＝副助詞″Ｐ２″、〈述語節＞句末＝終端記号″Ｅ″と
いうパタンと一致するので、先ずは「勝利を確信したの
は″Ｐ２″コース半ばを過ぎた東京タワー付近だ。″
Ｅ″」のようにポーズが設定される。

【００２１】

【表１】

【００２２】

【表２】

【００２３】

【表３】

【００２４】

【表４】

【００２５】次に、図５に示す手順に従って、文頭から
最初に設定されたポーズまでのモーラ数をカウントす
る。本実施例では「勝利を確信したのは」という文頭か
ら″Ｐ２″までの構文要素をカウントするから、１２モ
ーラである。これを予め設定された一定のモーラ数と比
較する。本実施例で、例えば８モーラを予め設定する
と、前記カウント数はこの設定値を超過しているから、
構文要素分解処理（３０４）を行い、該当要素を第１階
層から第２階層の要素へ分解する。本実施例では表２よ
り「勝利を／確信したのは」と分解位置が確定されるか
ら、ポーズ設定処理部２７により、両端のポーズより小
さいポーズ長のポーズを挿入し（３０６）、「勝利を″
Ｐ１″確信したのは」と設定する。再度、文頭から最初
に設定されたポーズまでのモーラ数をカウントする。今
度は文頭から「勝利を」″Ｐ１″までで４モーラで、設
定された８モーラを超過しないため、文章のこの部分に
おけるポーズの挿入処理を終了し、続いて次のポーズま
でのモーラ数カウントに入る。

【００２６】次は「確信したのは」で、″Ｐ１″から″
Ｐ２″までで８モーラであるため設定モーラ数は超過し
ない。そこで、更に次のポーズまでのモーラ数カウント
に入る。次は「コース半ばを過ぎた東京タワー付近
だ。」であるから、この部分のモーラ数をカウントする
と、″Ｐ２″から″Ｅ″までで２１モーラであり、設定
モーラ数を超過している。そこで、再び、図３の流れ図
に従って説明した構文要素分解処理を行い、該当要素を
第１階層から第２階層の要素へ分解する。

【００２７】本実施例では先ず、第２階層「コース半ば
を過ぎた／東京タワー付近だ」と分解位置が確定され
る。そこでポーズ設定処理により両端のポーズより短い
ポーズ長のポーズを挿入し、「コース半ばを過ぎた″Ｐ
１″東京タワー付近だ」と設定する。そこで、再度、″
Ｐ２″から新たに設定した″Ｐ１″までのモーラ数をカ
ウントすると、「コース半ばを過ぎた」は１０モーラで
設定モーラ数を超過するため、前記の構文要素分解処理
で、更に該当要素を第２階層から第３階層の要素へ分解
する。本実施例では第３階層「コース半ばを／過ぎた」
と分解位置が確定される。そこでポーズ設定処理は両端
のポーズより短いポーズ長のポーズを挿入し、「コース
半ばを″Ｐ０″過ぎた」と設定する。

【００２８】再度、″Ｐ２″から最初に設定されたポー
ズ″Ｐ０″までのモーラ数をカウントする。今度は「コ
ース半ばを」は７モーラで設定モーラ数を超過しないた
め、次のポーズまでのモーラ数カウントに入る。次は
「過ぎた」で、″Ｐ０″から″Ｐ１″までで３モーラで
あるため設定モーラ数は超過しない。そこで、更に次の
ポーズまでのモーラ数カウントに入る。″Ｐ１″から″
Ｅ″までの「東京タワー付近だ」はモーラ数が１１であ
るため、構文要素分解処理手段は、該当要素を第２階層
から第３階層の要素へ分解しようとするが、アクセント
結合処理の結果より、これ以上の分解は不可能であるた
め、分解をせずそのままとする。次のポーズはないの
で、ここでポーズ設定処理は終了し、ポーズ挿入位置は
「勝利を″Ｐ１″確信したのは″Ｐ２″コース半ばを″
Ｐ０″過ぎた″Ｐ１″東京タワー付近だ。″Ｅ″」とな
る。

【００２９】アクセント結合処理、ポーズ設定処理され
たテキストは、最終的に発音記号列に変換され、韻律処
理部３、音響処理部４を経て出力される。

【００３０】

【発明の効果】請求項１に対応する効果：テキストを構
文解析して文法的まとまりで区別して抽出することがで
きるため、構成要素内に不自然なポーズが入ることなく
ポーズを設定することが出来る。

【００３１】請求項２に対応する効果：構文解析により
入力文を一定の構文構造パタンに当てはめることができ
るため、構文構造に適したポーズ位置とポーズ長を設定
することができる。

【００３２】請求項３に対応する効果：１文単位でポー
ズ設定を行なうことで、１文全体でバランス良くポーズ
を設定することが出来、聞いたときに理解し易い読み上
げが可能となる。

【００３３】請求項４に対応する効果：１文単位で構文
解析を行なうことにより、読点までの単位の解析や、数
文節の解析に比べ、構文解析精度が高まり、ポーズ設定
精度の向上に寄与する事ができる。

【００３４】請求項５に対応する効果：文法的まとまり
で纏め上げた構成要素間に設定したポーズ間の要素が、
生理学的に１アクセント句として発声しきれない、もし
くは不自然な発声になってしまう場合に、該構成要素を
細かいレベルの構成要素に再分解することができるた
め、構文構造に適し、かつ生理的に自然なモーラ数内で
ポーズを設定することができる。

【００３５】請求項６に対応する効果：階層の深さによ
って挿入されるポーズ長が変化することにより、聞き取
る単位がはっきりするだけでなく、読み上げにリズムが
付き自然性が高まる。

【図面の簡単な説明】

【図１】本発明による音声出力装置を概略的に示すブ
ロック図である。

【図２】本発明による音声出力装置による言語処理部
の構成を示すブロック図である。

【図３】本発明による音声出力装置による構文解析処
理手順を示す流れ図である。

【図４】本発明による音声出力装置による構文要素分
解処理手順を示す流れ図である。

【図５】本発明による音声出力装置によるポーズ設定
処理手順を示す流れ図である。

【符号の説明】

１…入力部、２…言語処理部、３…韻律処理部、４…音
響処理部、５…音声出力部、２１…形態素解析部、２３
…構文解析部、２５…アクセント結合処理部、２７…ポ
ーズ設定処理部。

Claims

【特許請求の範囲】

【請求項１】テキスト入力装置、入力テキストを文法
的にまとまりのある構文構成要素に分解する構文解析手
段、前記構文構成要素間にポーズを設定するポーズ設定
手段、を有することを特徴とする入力されたテキストを
音声に変換して読み上げを行う音声出力装置。
【請求項２】前記ポーズ設定手段はポーズ設定規則を
参照して、構文解析処理の結果得られる入力テキストの
文構造パタンを用いてポーズを設定することを特徴とす
る請求項１記載の音声出力装置。
【請求項３】前記ポーズ設定手段によるポーズ設定処
理は入力文書中の１文単位に行われることを特徴とする
請求項１記載の音声出力装置。
【請求項４】前記構文解析手段は入力テキスト中の１
文単位で構文解析処理を行うことを特徴とする請求項１
記載の音声出力装置。
【請求項５】前記構文解析手段は、１構文構成要素が
予め定めた一定のモーラ数を越えた場合、該構文構成要
素をそれより下位の階層の構文構成要素に分解する処理
を、分解が不可能となるか又は構文構成要素のモーラ数
が前記一定数内に達するまで継続実施することを特徴と
する請求項４記載の音声出力装置。
【請求項６】前記ポーズ設定手段は、構文構成要素の
階層に応じて挿入するポーズのポーズ長を変えることを
特徴とする請求項１記載の音声出力装置。