JP3549372B2 - 音声出力装置 - Google Patents

音声出力装置 Download PDF

Info

Publication number
JP3549372B2
JP3549372B2 JP25471897A JP25471897A JP3549372B2 JP 3549372 B2 JP3549372 B2 JP 3549372B2 JP 25471897 A JP25471897 A JP 25471897A JP 25471897 A JP25471897 A JP 25471897A JP 3549372 B2 JP3549372 B2 JP 3549372B2
Authority
JP
Japan
Prior art keywords
pause
syntax
sentence
output device
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25471897A
Other languages
English (en)
Other versions
JPH1195784A (ja
Inventor
奈穂子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP25471897A priority Critical patent/JP3549372B2/ja
Publication of JPH1195784A publication Critical patent/JPH1195784A/ja
Application granted granted Critical
Publication of JP3549372B2 publication Critical patent/JP3549372B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声出力装置に関し、とくに、電子化された入力テキスト(文書)を音声に変換する際の出力技術に特徴のある、入力文言を音声に変換し出力する音声出力装置に関するものである。
【0002】
【従来の技術】
音声出力装置の一例としてテキスト音声合成システムが挙げられる。このシステムは入力されたテキストに対し、形態素辞書などを参照して一定のアルゴリズムにより侯補中から選択した最適解に対して読みを含む音韻を設定する。さらに一定のルールにしたがってアクセント位置、ポーズ位置を設定し、音声に変換するための制御記号列に変換し、この制御記号列を音声合成器に入力し、入力に応じた音声を出力するものである。
【0003】
従来のテキスト音声合成システムにおける読み上げ時のポーズ位置設定には、テキスト中の句読点の位置に設定する他、例えば、入力されたテキストの1文章分全体の総時間長や総モーラ数、予測モーラ数によりポーズ付与の仕方を制御するもの(特開平5−6191号公報)、
2〜3文節間という局所的な文節間の係り受け関係とその結合度に基づく方法(特開平5−134691号公報)、
アクセント句の句頭、句末の単語の品詞に基づいてポーズを設定するか否かを決定する方法(特開平6−149282号公報)、
様々な品詞に対してモーラ数の統計的な分布に基づく方法、品詞による影響を無視した無ポーズ区間の分布に基づく方法(特開平6−161485号公報)、
テキスト中の複合語、文節等を同定して、それに対して統計的に求めたポーズ設定規則を適用するもの(特開平8−123456号公報)、
などが提案されている。
【0004】
しかしながら、句読点の位置だけではポーズが足りず、聞き取りにくい出力となってしまう。入力テキストの総モーラ数からポーズ位置を算出する方法や品詞に基づく方法は、文章の構造や意を加味しないため、不自然な位置にポーズが設定される場合がある。
また、局所的な文節間の係り受けの結合度を用いる方法は、入力テキスト中の1文が長い場合、処理の単位が2,3文節であるため、その大まかな構文構造は不明なまま意味的にひとまとまりである句の中に不自然にポーズが設定される可能性がある。
確率に基づく方法はサンプルとなる読み上げデータを大量に要し、なおかつ読み上げには個人差があるため、実現が困難である。
【0005】
【発明が解決しようとする課題】
本発明の課題は、容易に実用化でき、かつ、入力テキスト中の文の構造や意味のまとまりを1文単位で構造解析し、更に、生理的に自然なモーラ数内でポーズ設定が可能で、かつ、文の構造上の階層に応じて挿入されるポーズの長さを変えるようにしてより自然なポーズ設定が可能なポーズ位置設定手段を有する音声出力装置を提供することである。
【0006】
【課題を解決するための手段】
請求項1記載の発明は、音声に変換するテキストを入力するテキスト入力手段と、入力テキストを1文単位で文法的にまとまりのある構文構成要素に分解して文構成パタンを選択する構文解析手段と、構文解析処理の結果得られる文構造パタンを用いてポーズを設定するポーズ設定手段と、ポーズ設定されたテキストに韻律および音素を付加して合成音声を生成して出力する音声出力手段とを有し、前記ポーズ設定手段は、文構成パタンに対応するポーズ設定規則を予め用意しておき、前記構文解析処理で得られた文構成パタンと一致する前記ポーズ設定規則中の文構成パタンに対応するポーズ位置にポーズを挿入するようにして、入力されたテキストを音声に変換して読み上げを行う音声出力装置である。
【0007】
請求項2記載の発明は、請求項1記載の音声出力装置において、前記ポーズ設定手段は、所定のモーラ数を越える1構文構成要素に対して、それより下位の階層の構文構成要素に分解する処理を、分解が不可能となるか又は構文構成要素のモーラ数が前記所定数内に達するまで継続実施する音声出力装置である。
【0008】
請求項3記載の発明は、請求項記載の音声出力装置において、前記ポーズ設定手段は、1構文構成要素をそれより下位の階層の構文構成要素に分解した場合、この分解位置に該構文構成要素の両隣の階層のポーズとは異なるポーズ長のポーズを挿入する音声出力装置である。
【0012】
【発明の実施の形態】
以下、図面を参照しながら本発明の構成と実施例を説明する。
図1は本発明における音声出力装置の構成の一例を示したもので、テキスト入力部1、言語処理部2、韻律処理部3、音響処理部4、音声出力部5、言語データ類6、韻律生成規則7、音素片データ8から構成されている。
この構成において、テキスト入力部から入力されたテキストは、以下で説明するように、言語処理部で、例えば、形態素辞書などの言語データ類6を用いて形態素解析からポーズ設定までの一連の処理を行う。そして、言語処理部でポーズ設定されたテキストは次の韻律処理部3において、韻律生成規則7を用いて韻律が付与され、さらに、音素片データ8を用いて音響処理部4で処理されて合成音声として出力される。
【0013】
図2は、図1の言語処理部の構成を示し、該言語処理部は、形態素解析部21、形態素辞書22−1、構文解析部23、構文解析規則24、アクセント結合処理部25、アクセント結合規則26、ポーズ設定処理部27、ポーズ設定規則28から構成されている。
【0014】
図3は、本発明における構文解析処理の一例を流れ図で示したものである。入力部にテキストが1文単位で入力されると(102)、形態素解析部21は形態素辞書22−1や単語接続表22−2などを参照して入力された文章の形態素解析処理を行い(103)、形態素侯補列(表1参照)を生成する(104)。この形態素解析処理は最長一致法やコスト最小法など既存のアルゴリズムで実現することができる。
構文解析部23は、形態素解析結果を入力とし品詞連接情報24−1、係り受け規則24−2などを含む構文解析規則24を参照して構文解析処理を行い(105)、形態素侯補列を文節、連文節、句など各構文構成要素へとくみ上げる(106,107,108)。この構文解析処理も既存の手法で実現することができる。
各構文構成要素へのくみ上げの際は、各構文構成要素に対して採用した規則が文法的役割情報として保持される。くみ上げが収束したら、文構成確定処理を行い(109)、尤もらしい文構成パタンを選択する。
【0015】
図4は、本発明における構文要素分解処理の一例を流れ図で示したものである。ポーズ設定処理部27から構文要素分解の命令があると(202)、構文解析処理でくみ上げられた最上階層の構文要素レベルから、保持している前記文法的役割情報によって1段下位の階層の構文要素へ分解する(203)。例えば、第1階層の構文要素が連文節であり、5つの文節で成り立っている場合、保持した文法的役割情報により3文節と2文節の2つの構文要素へ分解するとする(勿論、他にも分解パタンは複数あり得る)。
さらにポーズ設定処理部27から構文要素分解の命令があると、順に下位レベルの構文要素へ分解する。上記の例において分解された3文節の方に更に構文要素分解の命令があった場合には、1文節と2文節の2つの構文要素へ分解することが想定される。
【0016】
図5は、本発明におけるポーズ設定処理の一例を流れ図で示したものである。入力テキストの1文の文構成パタンが、構文解析処理によって同定されたら(105〜110)、文構成パタンと、それに対応するポーズを記載した文構成対応ポーズパタン28−1などである予め用意してあるポーズ設定規則28を参照して文構成パタン比較処理を行い(403)、文構成パタンが一致(404)していれば、文構成パタン対応ポーズ設定、つまり、一致した文構成のパタンのポーズ位置にポーズを挿入する(405)。これにより設定されたポーズを最上階層(第1階層)のポーズとする。予め用意する文構成対応ポーズパタンは辞書、対応テーブル、テンプレートなどの形式で実現できる。
【0017】
次に、各ポーズとモーラ数との関係について説明する。
各ポーズ間の構文要素のモーラ数をカウントし(301,302)、カウントされたモーラ数が発声生理学の観点から予め設定してある一定のモーラ数を越えている場合(303)、構文要素分解手段に構文要素分解命令を出し、構文要素分解処理(304)を行う。その結果、分解位置が決まったら(305)、ポーズ挿入処理を行い、その位置に両隣の第1階層のポーズよりも小さい単位の第2階層のポーズを挿入する(306)。
第1階層のポーズと第2階層のポーズ間のモーラ数も予め設定してある一定のモーラ数を越えている場合には、構文要素分解手段に2回目の構文要素分解命令を出して前記の処理を行いかつ分解位置が決まったら、その位置に両隣のポーズよりも小さい単位の第3階層のポーズを挿入する。
【0018】
以上のように、第2階層以降、第n階層までのポーズ設定処理は各ポーズ間のモーラ数と予め設定してある一定のモーラ数との比較が収束するまで繰り返し行なわれる。予め設定する一定のモーラ数は、生理学的な観点(発声持続可能時間)から求める方法や、実際に人間が文章を読み上げた実データから求める方法が考えられる。
【0019】
次に、本発明の作用を説明する。
「勝利を確信したのはコース半ばを過ぎた東京タワー付近だ。」というテキストが入力された場合、形態素解析部21は形態素辞書22−1や単語接続表22−2を参照して表1に示すような形態素侯補列を生成する。次に、構文解析部23は品詞連接情報24−1等を参照して表2に示すような文節侯補列を生成し、係り受け規則24−2を参照して、連文節が生成可能であれば連文節を収束するまでくみ上げていく。収束した時点で文構成確定処理(109,110)により、表3に示すような入力テキストの尤もらしい文構成パタンを選択する。
【0020】
次に、アクセント結合処理部25(図2)は、アクセント結合規則26を参照して複合語などのアクセント結合処理を行なう。アクセント結合した単語間にはポーズは挿入されない。
本実施例では「東京+タワー+付近」がアクセント結合する。
選択された文構成パタン(表3)と、文構成対応ポーズパタンリスト(表4)を比較し、一致するパタンがあったら、それを参照して対応する位置にポーズを挿入する。
本実施例では表3の最尤文構成パタン:く主語節>句末=副助詞は、〈述語節>句末=終端記号は、表4の、く主語節>句末=副助詞″P2″、〈述語節>句末=終端記号″E″というパタンと一致するので、先ずは「勝利を確信したのは″P2″コース半ばを過ぎた東京タワー付近だ。″E″」のようにポーズが設定される。
【0021】
【表1】
Figure 0003549372
【0022】
【表2】
Figure 0003549372
【0023】
【表3】
Figure 0003549372
【0024】
【表4】
Figure 0003549372
【0025】
次に、図5に示す手順に従って、文頭から最初に設定されたポーズまでのモーラ数をカウントする。本実施例では「勝利を確信したのは」という文頭から″P2″までの構文要素をカウントするから、12モーラである。これを予め設定された一定のモーラ数と比較する。
本実施例で、例えば8モーラを予め設定すると、前記カウント数はこの設定値を超過しているから、構文要素分解処理(304)を行い、該当要素を第1階層から第2階層の要素へ分解する。本実施例では表2より「勝利を/確信したのは」と分解位置が確定されるから、ポーズ設定処理部27により、両端のポーズより小さいポーズ長のポーズを挿入し(306)、「勝利を″P1″確信したのは」と設定する。
再度、文頭から最初に設定されたポーズまでのモーラ数をカウントする。今度は文頭から「勝利を」″P1″までで4モーラで、設定された8モーラを超過しないため、文章のこの部分におけるポーズの挿入処理を終了し、続いて次のポーズまでのモーラ数カウントに入る。
【0026】
次は「確信したのは」で、″P1″から″P2″までで8モーラであるため設定モーラ数は超過しない。そこで、更に次のポーズまでのモーラ数カウントに入る。次は「コース半ばを過ぎた東京タワー付近だ。」であるから、この部分のモーラ数をカウントすると、″P2″から″E″までで21モーラであり、設定モーラ数を超過している。そこで、再び、図3の流れ図に従って説明した構文要素分解処理を行い、該当要素を第1階層から第2階層の要素へ分解する。
【0027】
本実施例では先ず、第2階層「コース半ばを過ぎた/東京タワー付近だ」と分解位置が確定される。そこでポーズ設定処理により両端のポーズより短いポーズ長のポーズを挿入し、「コース半ばを過ぎた″P1″東京タワー付近だ」と設定する。そこで、再度、″P2″から新たに設定した″P1″までのモーラ数をカウントすると、「コース半ばを過ぎた」は10モーラで設定モーラ数を超過するため、前記の構文要素分解処理で、更に該当要素を第2階層から第3階層の要素へ分解する。本実施例では第3階層「コース半ばを/過ぎた」と分解位置が確定される。そこでポーズ設定処理は両端のポーズより短いポーズ長のポーズを挿入し、「コース半ばを″P0″過ぎた」と設定する。
【0028】
再度、″P2″から最初に設定されたポーズ″P0″までのモーラ数をカウントする。今度は「コース半ばを」は7モーラで設定モーラ数を超過しないため、次のポーズまでのモーラ数カウントに入る。次は「過ぎた」で、″P0″から″P1″までで3モーラであるため設定モーラ数は超過しない。
そこで、更に次のポーズまでのモーラ数カウントに入る。″P1″から″E″までの「東京タワー付近だ」はモーラ数が11であるため、構文要素分解処理手段は、該当要素を第2階層から第3階層の要素へ分解しようとするが、アクセント結合処理の結果より、これ以上の分解は不可能であるため、分解をせずそのままとする。
次のポーズはないので、ここでポーズ設定処理は終了し、ポーズ挿入位置は「勝利を″P1″確信したのは″P2″コース半ばを″P0″過ぎた″P1″東京タワー付近だ。″E″」となる。
【0029】
アクセント結合処理、ポーズ設定処理されたテキストは、最終的に発音記号列に変換され、韻律処理部3、音響処理部4を経て出力される。
【0030】
【発明の効果】
本発明によれば、テキストを構文解析して文法的まとまりで区別して抽出することができるため、構成要素内に不自然なポーズが入ることなくポーズを設定することが出来る。
【0031】
また、構文解析により入力文を一定の構文構造パタンに当てはめることができるため、構文構造に適したポーズ位置とポーズ長を設定することができる。
【0032】
また、1文単位でポーズ設定を行なうことで、1文全体でバランス良くポーズを設定することが出来、聞いたときに理解し易い読み上げが可能となる。
【0033】
また、1文単位で構文解析を行なうことにより、読点までの単位の解析や、数文節の解析に比べ、構文解析精度が高まり、ポーズ設定精度の向上に寄与する事ができる。
【0034】
また、文法的まとまりで纏め上げた構成要素間に設定したポーズ間の要素が、生理学的に1アクセント句として発声しきれない、もしくは不自然な発声になってしまう場合に、該構成要素を細かいレベルの構成要素に再分解することができるため、構文構造に適し、かつ生理的に自然なモーラ数内でポーズを設定することができる。
【0035】
また、階層の深さによって挿入されるポーズ長が変化することにより、聞き取る単位がはっきりするだけでなく、読み上げにリズムが付き自然性が高まる。
【図面の簡単な説明】
【図1】本発明による音声出力装置を概略的に示すブロック図である。
【図2】本発明による音声出力装置による言語処理部の構成を示すブロック図である。
【図3】本発明による音声出力装置による構文解析処理手順を示す流れ図である。
【図4】本発明による音声出力装置による構文要素分解処理手順を示す流れ図である。
【図5】本発明による音声出力装置によるポーズ設定処理手順を示す流れ図である。
【符号の説明】
1…入力部、2…言語処理部、3…韻律処理部、4…音響処理部、5…音声出力部、21…形態素解析部、23…構文解析部、25…アクセント結合処理部、27…ポーズ設定処理部。

Claims (3)

  1. 音声に変換するテキストを入力するテキスト入力手段と、入力テキストを1文単位で文法的にまとまりのある構文構成要素に分解して文構成パタンを選択する構文解析手段と、構文解析処理の結果得られる文構造パタンを用いてポーズを設定するポーズ設定手段と、ポーズ設定されたテキストに韻律および音素を付加して合成音声を生成して出力する音声出力手段とを有し、前記ポーズ設定手段は、文構成パタンに対応するポーズ設定規則を予め用意しておき、前記構文解析処理で得られた文構成パタンと一致する前記ポーズ設定規則中の文構成パタンに対応するポーズ位置にポーズを挿入するようにして、入力されたテキストを音声に変換して読み上げを行うことを特徴とする音声出力装置。
  2. 請求項1に記載の音声出力装置において、前記ポーズ設定手段は、所定のモーラ数を越える1構文構成要素に対して、それより下位の階層の構文構成要素に分解する処理を、分解が不可能となるか又は構文構成要素のモーラ数が前記所定数内に達するまで継続実施することを特徴とする音声出力装置。
  3. 請求項2に記載の音声出力装置において、前記ポーズ設定手段は、1構文構成要素をそれより下位の階層の構文構成要素に分解した場合、この分解位置に該構文構成要素の両隣の階層のポーズとは異なるポーズ長のポーズを挿入することを特徴とする音声出力装置。
JP25471897A 1997-09-19 1997-09-19 音声出力装置 Expired - Fee Related JP3549372B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25471897A JP3549372B2 (ja) 1997-09-19 1997-09-19 音声出力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25471897A JP3549372B2 (ja) 1997-09-19 1997-09-19 音声出力装置

Publications (2)

Publication Number Publication Date
JPH1195784A JPH1195784A (ja) 1999-04-09
JP3549372B2 true JP3549372B2 (ja) 2004-08-04

Family

ID=17268888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25471897A Expired - Fee Related JP3549372B2 (ja) 1997-09-19 1997-09-19 音声出力装置

Country Status (1)

Country Link
JP (1) JP3549372B2 (ja)

Also Published As

Publication number Publication date
JPH1195784A (ja) 1999-04-09

Similar Documents

Publication Publication Date Title
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
KR100403293B1 (ko) 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체
Chu et al. Locating boundaries for prosodic constituents in unrestricted Mandarin texts
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
Carlson et al. Speech and music performance: Parallels and contrasts
KR20080045413A (ko) 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
JP3706758B2 (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
Kaplan et al. Realism in synthetic speech: Synthesized speech may be intelligible, but it often sounds artificial; researchers are solving that problem
JP3549372B2 (ja) 音声出力装置
JPH08335096A (ja) テキスト音声合成装置
JPH05134691A (ja) 音声合成方法および装置
JP4736524B2 (ja) 音声合成装置及び音声合成プログラム
JP2005181840A (ja) 音声合成装置及び音声合成プログラム
JP4056647B2 (ja) 波形接続型音声合成装置および方法
JP2000056788A (ja) 音声合成装置の韻律制御方法
JP3142160B2 (ja) 発音記号生成装置
JP3638000B2 (ja) 音声出力装置及び音声出力方法並びにその記録媒体
JPH08328578A (ja) テキスト音声合成装置
JP3446341B2 (ja) 自然言語処理方法および音声合成装置
JP2001166787A (ja) 音声合成装置および自然言語処理方法
JPH02234198A (ja) テキスト音声合成システム
JP2721018B2 (ja) 音声規則合成装置
JP2000322075A (ja) 音声合成装置および自然言語処理方法
JPH11327594A (ja) 音声合成辞書作成システム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040420

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080430

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090430

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100430

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100430

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110430

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120430

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130430

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140430

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees