JP3549372B2

JP3549372B2 - 音声出力装置

Info

Publication number: JP3549372B2
Application number: JP25471897A
Authority: JP
Inventors: 奈穂子佐藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1997-09-19
Filing date: 1997-09-19
Publication date: 2004-08-04
Anticipated expiration: 2017-09-19
Also published as: JPH1195784A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声出力装置に関し、とくに、電子化された入力テキスト（文書）を音声に変換する際の出力技術に特徴のある、入力文言を音声に変換し出力する音声出力装置に関するものである。
【０００２】
【従来の技術】
音声出力装置の一例としてテキスト音声合成システムが挙げられる。このシステムは入力されたテキストに対し、形態素辞書などを参照して一定のアルゴリズムにより侯補中から選択した最適解に対して読みを含む音韻を設定する。さらに一定のルールにしたがってアクセント位置、ポーズ位置を設定し、音声に変換するための制御記号列に変換し、この制御記号列を音声合成器に入力し、入力に応じた音声を出力するものである。
【０００３】
従来のテキスト音声合成システムにおける読み上げ時のポーズ位置設定には、テキスト中の句読点の位置に設定する他、例えば、入力されたテキストの１文章分全体の総時間長や総モーラ数、予測モーラ数によりポーズ付与の仕方を制御するもの（特開平５−６１９１号公報）、
２〜３文節間という局所的な文節間の係り受け関係とその結合度に基づく方法（特開平５−１３４６９１号公報）、
アクセント句の句頭、句末の単語の品詞に基づいてポーズを設定するか否かを決定する方法（特開平６−１４９２８２号公報）、
様々な品詞に対してモーラ数の統計的な分布に基づく方法、品詞による影響を無視した無ポーズ区間の分布に基づく方法（特開平６−１６１４８５号公報）、
テキスト中の複合語、文節等を同定して、それに対して統計的に求めたポーズ設定規則を適用するもの（特開平８−１２３４５６号公報）、
などが提案されている。
【０００４】
しかしながら、句読点の位置だけではポーズが足りず、聞き取りにくい出力となってしまう。入力テキストの総モーラ数からポーズ位置を算出する方法や品詞に基づく方法は、文章の構造や意味を加味しないため、不自然な位置にポーズが設定される場合がある。
また、局所的な文節間の係り受けの結合度を用いる方法は、入力テキスト中の１文が長い場合、処理の単位が２，３文節であるため、その大まかな構文構造は不明なまま意味的にひとまとまりである句の中に不自然にポーズが設定される可能性がある。
確率に基づく方法はサンプルとなる読み上げデータを大量に要し、なおかつ読み上げには個人差があるため、実現が困難である。
【０００５】
【発明が解決しようとする課題】
本発明の課題は、容易に実用化でき、かつ、入力テキスト中の文の構造や意味のまとまりを１文単位で構造解析し、更に、生理的に自然なモーラ数内でポーズ設定が可能で、かつ、文の構造上の階層に応じて挿入されるポーズの長さを変えるようにしてより自然なポーズ設定が可能なポーズ位置設定手段を有する音声出力装置を提供することである。
【０００６】
【課題を解決するための手段】
請求項１記載の発明は、音声に変換するテキストを入力するテキスト入力手段と、入力テキストを１文単位で文法的にまとまりのある構文構成要素に分解して文構成パタンを選択する構文解析手段と、構文解析処理の結果得られる文構造パタンを用いてポーズを設定するポーズ設定手段と、ポーズ設定されたテキストに韻律および音素を付加して合成音声を生成して出力する音声出力手段とを有し、前記ポーズ設定手段は、文構成パタンに対応するポーズ設定規則を予め用意しておき、前記構文解析処理で得られた文構成パタンと一致する前記ポーズ設定規則中の文構成パタンに対応するポーズ位置にポーズを挿入するようにして、入力されたテキストを音声に変換して読み上げを行う音声出力装置である。
【０００７】
請求項２記載の発明は、請求項１記載の音声出力装置において、前記ポーズ設定手段は、所定のモーラ数を越える１構文構成要素に対して、それより下位の階層の構文構成要素に分解する処理を、分解が不可能となるか又は構文構成要素のモーラ数が前記所定数内に達するまで継続実施する音声出力装置である。
【０００８】
請求項３記載の発明は、請求項２記載の音声出力装置において、前記ポーズ設定手段は、１構文構成要素をそれより下位の階層の構文構成要素に分解した場合、この分解位置に該構文構成要素の両隣の階層のポーズとは異なるポーズ長のポーズを挿入する音声出力装置である。
【００１２】
【発明の実施の形態】
以下、図面を参照しながら本発明の構成と実施例を説明する。
図１は本発明における音声出力装置の構成の一例を示したもので、テキスト入力部１、言語処理部２、韻律処理部３、音響処理部４、音声出力部５、言語データ類６、韻律生成規則７、音素片データ８から構成されている。
この構成において、テキスト入力部から入力されたテキストは、以下で説明するように、言語処理部で、例えば、形態素辞書などの言語データ類６を用いて形態素解析からポーズ設定までの一連の処理を行う。そして、言語処理部でポーズ設定されたテキストは次の韻律処理部３において、韻律生成規則７を用いて韻律が付与され、さらに、音素片データ８を用いて音響処理部４で処理されて合成音声として出力される。
【００１３】
図２は、図１の言語処理部の構成を示し、該言語処理部は、形態素解析部２１、形態素辞書２２−１、構文解析部２３、構文解析規則２４、アクセント結合処理部２５、アクセント結合規則２６、ポーズ設定処理部２７、ポーズ設定規則２８から構成されている。
【００１４】
図３は、本発明における構文解析処理の一例を流れ図で示したものである。入力部にテキストが１文単位で入力されると（１０２）、形態素解析部２１は形態素辞書２２−１や単語接続表２２−２などを参照して入力された文章の形態素解析処理を行い（１０３）、形態素侯補列（表１参照）を生成する（１０４）。この形態素解析処理は最長一致法やコスト最小法など既存のアルゴリズムで実現することができる。
構文解析部２３は、形態素解析結果を入力とし品詞連接情報２４−１、係り受け規則２４−２などを含む構文解析規則２４を参照して構文解析処理を行い（１０５）、形態素侯補列を文節、連文節、句など各構文構成要素へとくみ上げる（１０６，１０７，１０８）。この構文解析処理も既存の手法で実現することができる。
各構文構成要素へのくみ上げの際は、各構文構成要素に対して採用した規則が文法的役割情報として保持される。くみ上げが収束したら、文構成確定処理を行い（１０９）、尤もらしい文構成パタンを選択する。
【００１５】
図４は、本発明における構文要素分解処理の一例を流れ図で示したものである。ポーズ設定処理部２７から構文要素分解の命令があると（２０２）、構文解析処理でくみ上げられた最上階層の構文要素レベルから、保持している前記文法的役割情報によって１段下位の階層の構文要素へ分解する（２０３）。例えば、第１階層の構文要素が連文節であり、５つの文節で成り立っている場合、保持した文法的役割情報により３文節と２文節の２つの構文要素へ分解するとする（勿論、他にも分解パタンは複数あり得る）。
さらにポーズ設定処理部２７から構文要素分解の命令があると、順に下位レベルの構文要素へ分解する。上記の例において分解された３文節の方に更に構文要素分解の命令があった場合には、１文節と２文節の２つの構文要素へ分解することが想定される。
【００１６】
図５は、本発明におけるポーズ設定処理の一例を流れ図で示したものである。入力テキストの１文の文構成パタンが、構文解析処理によって同定されたら（１０５〜１１０）、文構成パタンと、それに対応するポーズを記載した文構成対応ポーズパタン２８−１などである予め用意してあるポーズ設定規則２８を参照して文構成パタン比較処理を行い（４０３）、文構成パタンが一致（４０４）していれば、文構成パタン対応ポーズ設定、つまり、一致した文構成のパタンのポーズ位置にポーズを挿入する（４０５）。これにより設定されたポーズを最上階層（第１階層）のポーズとする。予め用意する文構成対応ポーズパタンは辞書、対応テーブル、テンプレートなどの形式で実現できる。
【００１７】
次に、各ポーズとモーラ数との関係について説明する。
各ポーズ間の構文要素のモーラ数をカウントし（３０１，３０２）、カウントされたモーラ数が発声生理学の観点から予め設定してある一定のモーラ数を越えている場合（３０３）、構文要素分解手段に構文要素分解命令を出し、構文要素分解処理（３０４）を行う。その結果、分解位置が決まったら（３０５）、ポーズ挿入処理を行い、その位置に両隣の第１階層のポーズよりも小さい単位の第２階層のポーズを挿入する（３０６）。
第１階層のポーズと第２階層のポーズ間のモーラ数も予め設定してある一定のモーラ数を越えている場合には、構文要素分解手段に２回目の構文要素分解命令を出して前記の処理を行いかつ分解位置が決まったら、その位置に両隣のポーズよりも小さい単位の第３階層のポーズを挿入する。
【００１８】
以上のように、第２階層以降、第ｎ階層までのポーズ設定処理は各ポーズ間のモーラ数と予め設定してある一定のモーラ数との比較が収束するまで繰り返し行なわれる。予め設定する一定のモーラ数は、生理学的な観点（発声持続可能時間）から求める方法や、実際に人間が文章を読み上げた実データから求める方法が考えられる。
【００１９】
次に、本発明の作用を説明する。
「勝利を確信したのはコース半ばを過ぎた東京タワー付近だ。」というテキストが入力された場合、形態素解析部２１は形態素辞書２２−１や単語接続表２２−２を参照して表１に示すような形態素侯補列を生成する。次に、構文解析部２３は品詞連接情報２４−１等を参照して表２に示すような文節侯補列を生成し、係り受け規則２４−２を参照して、連文節が生成可能であれば連文節を収束するまでくみ上げていく。収束した時点で文構成確定処理（１０９，１１０）により、表３に示すような入力テキストの尤もらしい文構成パタンを選択する。
【００２０】
次に、アクセント結合処理部２５（図２）は、アクセント結合規則２６を参照して複合語などのアクセント結合処理を行なう。アクセント結合した単語間にはポーズは挿入されない。
本実施例では「東京＋タワー＋付近」がアクセント結合する。
選択された文構成パタン（表３）と、文構成対応ポーズパタンリスト（表４）を比較し、一致するパタンがあったら、それを参照して対応する位置にポーズを挿入する。
本実施例では表３の最尤文構成パタン：く主語節＞句末＝副助詞は、〈述語節＞句末＝終端記号は、表４の、く主語節＞句末＝副助詞″Ｐ２″、〈述語節＞句末＝終端記号″Ｅ″というパタンと一致するので、先ずは「勝利を確信したのは″Ｐ２″コース半ばを過ぎた東京タワー付近だ。″Ｅ″」のようにポーズが設定される。
【００２１】
【表１】

【００２２】
【表２】

【００２３】
【表３】

【００２４】
【表４】

【００２５】
次に、図５に示す手順に従って、文頭から最初に設定されたポーズまでのモーラ数をカウントする。本実施例では「勝利を確信したのは」という文頭から″Ｐ２″までの構文要素をカウントするから、１２モーラである。これを予め設定された一定のモーラ数と比較する。
本実施例で、例えば８モーラを予め設定すると、前記カウント数はこの設定値を超過しているから、構文要素分解処理（３０４）を行い、該当要素を第１階層から第２階層の要素へ分解する。本実施例では表２より「勝利を／確信したのは」と分解位置が確定されるから、ポーズ設定処理部２７により、両端のポーズより小さいポーズ長のポーズを挿入し（３０６）、「勝利を″Ｐ１″確信したのは」と設定する。
再度、文頭から最初に設定されたポーズまでのモーラ数をカウントする。今度は文頭から「勝利を」″Ｐ１″までで４モーラで、設定された８モーラを超過しないため、文章のこの部分におけるポーズの挿入処理を終了し、続いて次のポーズまでのモーラ数カウントに入る。
【００２６】
次は「確信したのは」で、″Ｐ１″から″Ｐ２″までで８モーラであるため設定モーラ数は超過しない。そこで、更に次のポーズまでのモーラ数カウントに入る。次は「コース半ばを過ぎた東京タワー付近だ。」であるから、この部分のモーラ数をカウントすると、″Ｐ２″から″Ｅ″までで２１モーラであり、設定モーラ数を超過している。そこで、再び、図３の流れ図に従って説明した構文要素分解処理を行い、該当要素を第１階層から第２階層の要素へ分解する。
【００２７】
本実施例では先ず、第２階層「コース半ばを過ぎた／東京タワー付近だ」と分解位置が確定される。そこでポーズ設定処理により両端のポーズより短いポーズ長のポーズを挿入し、「コース半ばを過ぎた″Ｐ１″東京タワー付近だ」と設定する。そこで、再度、″Ｐ２″から新たに設定した″Ｐ１″までのモーラ数をカウントすると、「コース半ばを過ぎた」は１０モーラで設定モーラ数を超過するため、前記の構文要素分解処理で、更に該当要素を第２階層から第３階層の要素へ分解する。本実施例では第３階層「コース半ばを／過ぎた」と分解位置が確定される。そこでポーズ設定処理は両端のポーズより短いポーズ長のポーズを挿入し、「コース半ばを″Ｐ０″過ぎた」と設定する。
【００２８】
再度、″Ｐ２″から最初に設定されたポーズ″Ｐ０″までのモーラ数をカウントする。今度は「コース半ばを」は７モーラで設定モーラ数を超過しないため、次のポーズまでのモーラ数カウントに入る。次は「過ぎた」で、″Ｐ０″から″Ｐ１″までで３モーラであるため設定モーラ数は超過しない。
そこで、更に次のポーズまでのモーラ数カウントに入る。″Ｐ１″から″Ｅ″までの「東京タワー付近だ」はモーラ数が１１であるため、構文要素分解処理手段は、該当要素を第２階層から第３階層の要素へ分解しようとするが、アクセント結合処理の結果より、これ以上の分解は不可能であるため、分解をせずそのままとする。
次のポーズはないので、ここでポーズ設定処理は終了し、ポーズ挿入位置は「勝利を″Ｐ１″確信したのは″Ｐ２″コース半ばを″Ｐ０″過ぎた″Ｐ１″東京タワー付近だ。″Ｅ″」となる。
【００２９】
アクセント結合処理、ポーズ設定処理されたテキストは、最終的に発音記号列に変換され、韻律処理部３、音響処理部４を経て出力される。
【００３０】
【発明の効果】
本発明によれば、テキストを構文解析して文法的まとまりで区別して抽出することができるため、構成要素内に不自然なポーズが入ることなくポーズを設定することが出来る。
【００３１】
また、構文解析により入力文を一定の構文構造パタンに当てはめることができるため、構文構造に適したポーズ位置とポーズ長を設定することができる。
【００３２】
また、１文単位でポーズ設定を行なうことで、１文全体でバランス良くポーズを設定することが出来、聞いたときに理解し易い読み上げが可能となる。
【００３３】
また、１文単位で構文解析を行なうことにより、読点までの単位の解析や、数文節の解析に比べ、構文解析精度が高まり、ポーズ設定精度の向上に寄与する事ができる。
【００３４】
また、文法的まとまりで纏め上げた構成要素間に設定したポーズ間の要素が、生理学的に１アクセント句として発声しきれない、もしくは不自然な発声になってしまう場合に、該構成要素を細かいレベルの構成要素に再分解することができるため、構文構造に適し、かつ生理的に自然なモーラ数内でポーズを設定することができる。
【００３５】
また、階層の深さによって挿入されるポーズ長が変化することにより、聞き取る単位がはっきりするだけでなく、読み上げにリズムが付き自然性が高まる。
【図面の簡単な説明】
【図１】本発明による音声出力装置を概略的に示すブロック図である。
【図２】本発明による音声出力装置による言語処理部の構成を示すブロック図である。
【図３】本発明による音声出力装置による構文解析処理手順を示す流れ図である。
【図４】本発明による音声出力装置による構文要素分解処理手順を示す流れ図である。
【図５】本発明による音声出力装置によるポーズ設定処理手順を示す流れ図である。
【符号の説明】
１…入力部、２…言語処理部、３…韻律処理部、４…音響処理部、５…音声出力部、２１…形態素解析部、２３…構文解析部、２５…アクセント結合処理部、２７…ポーズ設定処理部。

Claims

音声に変換するテキストを入力するテキスト入力手段と、入力テキストを１文単位で文法的にまとまりのある構文構成要素に分解して文構成パタンを選択する構文解析手段と、構文解析処理の結果得られる文構造パタンを用いてポーズを設定するポーズ設定手段と、ポーズ設定されたテキストに韻律および音素を付加して合成音声を生成して出力する音声出力手段とを有し、前記ポーズ設定手段は、文構成パタンに対応するポーズ設定規則を予め用意しておき、前記構文解析処理で得られた文構成パタンと一致する前記ポーズ設定規則中の文構成パタンに対応するポーズ位置にポーズを挿入するようにして、入力されたテキストを音声に変換して読み上げを行うことを特徴とする音声出力装置。
請求項１に記載の音声出力装置において、前記ポーズ設定手段は、所定のモーラ数を越える１構文構成要素に対して、それより下位の階層の構文構成要素に分解する処理を、分解が不可能となるか又は構文構成要素のモーラ数が前記所定数内に達するまで継続実施することを特徴とする音声出力装置。
請求項２に記載の音声出力装置において、前記ポーズ設定手段は、１構文構成要素をそれより下位の階層の構文構成要素に分解した場合、この分解位置に該構文構成要素の両隣の階層のポーズとは異なるポーズ長のポーズを挿入することを特徴とする音声出力装置。