JPH10228471A

JPH10228471A - 音声合成システム，音声用テキスト生成システム及び記録媒体

Info

Publication number: JPH10228471A
Application number: JP9194226A
Authority: JP
Inventors: Nobuyuki Katae; 伸之片江; Akihiro Kimura; 晋太木村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-12-10
Filing date: 1997-07-18
Publication date: 1998-08-25

Abstract

(57)【要約】【課題】文字放送受信機等の表示用文字データを音声
に変換する場合、聴取時にユーザが理解しやすい合成音
声または音声合成用テキストを生成する。【解決手段】テキスト入力部１を介して入力された文
章テキストに対して、テキスト解析部２にて、単語辞書
６を参照して文章テキスト中の単語を同定した後、同定
した単語と単語との間の適切な位置に、適切な助詞また
は区切りを表す記号（読点，中点）を挿入する。そし
て、これらを挿入した後の読みシーケンスに従って、韻
律生成部３，音声波形生成部４にて合成音声を生成す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力された文章テ
キストに応じた音声を生成して出力する音声合成システ
ム、及び、入力された表示用の文章テキストから音声用
の文章テキストを生成する音声用テキスト生成システム
に関する。

【０００２】

【従来の技術】文章テキストを音声に変換して出力する
際の一般的な手順は次の通りである。まず、文章テキス
トを入力し、その入力した文章テキストから、単語辞書
を参照して、文章内に含まれる単語を同定する。次に、
同定した単語に応じて、アクセント，音声単位時間長，
ポーズの継続長，発声時の基本周波数等を設定する。そ
して、これらの設定データに基づいて音声波形を生成
し、生成した音声波形に従った音声をユーザに提供す
る。このような処理を行う音声合成システムでは、入力
した文章テキストを忠実に読み上げることが通常であ
る。

【０００３】ところで、テレビジョン文字放送，ＦＭ多
重放送の受信機等において、文字データを表示するだけ
でなく、その表示される文字データを音声出力する機能
が付与されているものがある。従来の音声合成システム
は、入力されたテキストを忠実に読み上げる機能しか備
えておらず、音声出力機能が付与された上述の受信機に
おいても同様であり、表示される文字データを音声出力
する際、何らの語も補わずに、文字データをそのまま読
み上げていた。

【０００４】

【発明が解決しようとする課題】テレビジョン文字放
送，ＦＭ多重放送の受信機等では、文字データを表示す
る場合、ユーザが一定時間内に容易に読めるように、一
度に表示する文字の数を少なくしている。例えば、ＦＭ
多重放送では、一度に表示できる文字の数が15字×２行
の30字に制限されている。限られた文字数の範囲内で情
報を効率良くユーザに提供するために、文中の冗長な語
句である付属語（助詞，助動詞）は極力省略して、多く
の自立語を連続させた文字データを作成して表示する場
合が多い。

【０００５】従来の音声合成システムの技術は、助詞，
助動詞が完全にそろったテキストを忠実に音声に変換す
るように設計されており、助詞，助動詞が省略されたテ
キストでは、読み誤りを起こしやすい。例えば、助詞が
省略されて名詞が連続していれば、それを複合単語と見
なし、区切れを入れず、誤ったアクセント結合をして、
ひと続きに発声する。このような合成音声は、ユーザが
聴取したときに、非常に理解しにくいものになる。

【０００６】従って、テレビジョン文字放送，ＦＭ多重
放送の受信機等において、文字データをそのまま読み上
げる場合には、ユーザが聴取する際にその内容を理解し
難く、誤った理解をもたらすこともあるという問題があ
る。

【０００７】本発明は斯かる事情に鑑みてなされたもの
であり、ユーザが聴取する際に理解しやすい合成音声を
生成することができる音声合成システムを提供すること
を目的とする。

【０００８】本発明の他の目的は、ユーザが聴取する際
に理解しやすい音声に変換することが可能な音声合成用
の文章テキストを生成できる音声用テキスト生成システ
ムを提供することにある。

【０００９】

【課題を解決するための手段】請求項１に係る音声合成
システムは、入力された文章テキストに応じた音声を生
成する音声合成システムにおいて、単語辞書を参照し
て、入力された前記文章テキストの単語の読みを同定す
る手段と、同定した単語と単語との間に助詞を挿入する
手段と、助詞を挿入した後の単語間のつながりを解析す
る手段と、その解析結果に応じて音声を生成する手段と
を備えることを特徴とする。

【００１０】請求項２に係る音声合成システムは、入力
された文章テキストに応じた音声を生成する音声合成シ
ステムにおいて、単語辞書を参照して、入力された前記
文章テキストの単語の読みを同定する手段と、同定した
単語と単語との間に区切りを表す記号を挿入する手段
と、区切りを表す記号を挿入した後の単語間のつながり
を解析する手段と、その解析結果に応じて音声を生成す
る手段とを備えることを特徴とする。

【００１１】請求項３に係る音声合成システムは、入力
された文章テキストに応じた音声を生成する音声合成シ
ステムにおいて、単語辞書を参照して、入力された前記
文章テキストの単語の読みを同定する手段と、助詞また
は読点を伴わないで連続する複数の単語に対して、単語
間のアクセント結合を行うか否かを判断するアクセント
結合判断手段と、該アクセント結合判断手段の判断結果
に応じて前記複数の単語のアクセントを設定する手段と
を備えることを特徴とする。

【００１２】請求項４に係る音声合成システムは、入力
された文章テキストに応じた音声を生成する音声合成シ
ステムにおいて、単語辞書を参照して、入力された前記
文章テキストの単語の読みを同定する手段と、助詞また
は読点を伴わないで連続する複数の単語に対して、単語
間にポーズを挿入するか否かを判断するポーズ挿入判断
手段と、該ポーズ挿入判断手段の判断結果に応じて単語
間にポーズを設定する手段とを備えることを特徴とす
る。

【００１３】請求項５に係る音声用テキスト生成システ
ムは、入力された表示用の文章テキストに応じて、音声
合成時に使用する音声用の文章テキストを生成する音声
用テキスト生成システムであって、入力された前記文章
テキストの単語を同定する手段と、同定した単語と単語
との間に助詞を挿入する手段とを備えることを特徴とす
る。

【００１４】請求項６に係る音声用テキスト生成システ
ムは、入力された表示用の文章テキストに応じて、音声
合成時に使用する音声用の文章テキストを生成する音声
用テキスト生成システムであって、入力された前記文章
テキストの単語を同定する手段と、同定した単語と単語
との間に区切りを表す記号を挿入する手段とを備えるこ
とを特徴とする。

【００１５】請求項７に係る記録媒体は、入力された文
章テキストに応じた音声を生成するためのコンピュータ
プログラムを記録した記録媒体において、単語辞書を参
照して、入力された前記文章テキストの単語の読みを同
定するステップと、同定した単語と単語との間に助詞及
び／または区切りを表す記号を挿入するステップと、助
詞及び／または区切りを表す記号を挿入した後の単語間
のつながりを解析するステップと、その解析結果に応じ
て音声を生成するステップとを含むコンピュータプログ
ラムを記録したことを特徴とする。

【００１６】請求項８に係る記録媒体は、入力された文
章テキストに応じた音声を生成するためのコンピュータ
で読み取り可能であるプログラムコード手段を有する記
録媒体において、単語辞書を参照して、入力された前記
文章テキストの単語の読みを同定することを前記コンピ
ュータにさせるプログラムコード手段と、同定した単語
と単語との間に助詞及び／または区切りを表す記号を挿
入することを前記コンピュータにさせるプログラムコー
ド手段と、助詞及び／または区切りを表す記号を挿入し
た後の単語間のつながりを解析することを前記コンピュ
ータにさせるプログラムコード手段と、その解析結果に
応じて音声を生成することを前記コンピュータにさせる
プログラムコード手段とを有することを特徴とする。

【００１７】多くの自立語が連続するような文章（テキ
スト）について、それを合成音声に変換してユーザに提
供する場合、ユーザが内容を良く理解できるようにする
ためには、以下の３つの方法が考えられる。（１）テキストの単語間に適切な助詞または区切りを表
す記号（読点，中点等）を挿入する。（２）単語間に適切なポーズを挿入した合成音声を生成
する。（３）従来連続する名詞に対して施していたアクセント
結合処理を行わない。

【００１８】これらの方法について、以下のＦＭ多重放
送における２つの文字データ（テキスト）（ａ），
（ｂ）を例にして説明する。（ａ）関東の６月雨量は平年大幅下回る千葉水戸は観測史上最少。（ｂ）労働白書「産業構造の変化に対応専門的人材育成が不可欠」強調。

【００１９】（１）の方法によれば、上記２種のテキス
トに対して、以下のように単語と単語との間の適切な位
置に適切な助詞または区切りを表す記号（読点，中点
等）を挿入することにより、音声で聞いたときに理解し
やすいテキストを生成できる。（）を付した箇所が、
挿入した助詞または読点，中点である。（ａ）「関東の６月（の）雨量は平年（を）大幅（に）
下回る（、）千葉（・）水戸は観測史上（、）最少。」（ｂ）「労働白書（は）産業（の）構造の変化に対
応（、）専門的（な）人材（の）育成が不可欠（と）強
調。」

【００２０】助詞または区切りを表す記号の挿入位置、
及び、挿入する助詞または区切りを表す記号の種類を決
定する方法としては、（Ａ）規則による方法と、（Ｂ）
用例ベースを参照する方法とが考えられる。

【００２１】（Ａ）規則による方法上記の例では「観測史上」「労働白書」等は単語間に助
詞が挿入されていない。「観測史上」は一つの複合単語
として扱われるし、「労働白書」は一つの文書名であっ
て、この単位で単語辞書に格納されており、助詞の挿入
はない。これら以外の名詞の連続、名詞と動詞との連続
には助詞を挿入するという規則が考えられる。「平年大
幅下回る」の場合、「平年」「大幅」「下回る」という
３個の単語の間にそれぞれ目的語，副詞，述語の関係が
考えられるので、目的語のあとには「を」副詞のあとに
は「に」を補うという規則を設定しておけば、「平年を
大幅に下回る」という文を作ることができる。また、
「６月雨量」「産業構造」のように名詞が連続する場合
には「の」を挿入して「６月の雨量」「産業の構造」と
したり、「専門的人材」のように修飾的な意味を持つ
「〜的」と名詞とが連続する場合には「な」を挿入して
「専門的な人材」とするような規則が考えられる。この
ような規則を詳細に定めたものを有しておくことによ
り、適切な位置に適切な助詞を挿入することが可能であ
る。

【００２２】（Ｂ）用例ベースを参照する方法助詞または区切りを表す記号を挿入する位置と、挿入す
る助詞または区切りを表す記号の種類とを決定するため
の用例を格納したデータベースを有し、入力テキストの
単語の連続をこのデータベースの用例に照合し、同一ま
たは類似した用例が存在する場合に、その用例と同じ位
置に同じ助詞を挿入するように決定する。上記の例で
は、データベース中に「経済白書」という用例があれ
ば、同様の「労働白書」には助詞を挿入せず、データベ
ース中に「去年をわずかに上回る」という用例があれ
ば、「平年大幅下回る」に対して「平年を大幅に下回
る」というように助詞の挿入を行う。

【００２３】次に、（２），（３）の方法について説明
する。従来技術によれば、単語の係り受け，呼気段落の
長さ等を考慮して、例えば上記（ａ）の文では、「関東
の６月雨量は（ポーズ）平年大幅下回る（ポーズ）千葉
水戸は（ポーズ）観測史上最少。」のようにポーズが挿
入される。しかし「６月雨量」「観測史上最少」と連続
して発声するよりも、（２）の方法によって適切なポー
ズを挿入して、「６月（ポーズ）雨量」「観測史上（ポ
ーズ）最少」と発声するほうが、一つ一つの単語の聞き
取りが良くなる。

【００２４】また、例えば上記（ｂ）の文で、従来のよ
うに「専門的人材育成」がひとつの複合名詞として発声
されるとすれば、「専門的」「人材」「育成」間でアク
セント結合が起こるので図１０（ａ）に示すようなアク
セントとなり、音声で聞いても理解しにくい。そこで、
（３）の方法によって「専門的」「人材」「育成」間で
アクセント結合を行わないでアクセント句の境界を入れ
るうようにすれば、図１０（ｂ）に示すようなアクセン
トとなって、個々の単語本来のアクセントが保持される
ので、単語が聞き取りやすくなる。

【００２５】図１は、本発明の音声合成システムの基本
構成を示すブロック図であり、本システムは、テキスト
入力部１と、テキスト解析部２と、韻律生成部３と、音
声波形生成部４と、音声出力部５とを備えると共に、単
語辞書６を有する。テキスト入力部１は、音声に変換す
るための文章テキストを外部から入力してテキスト解析
部２へ出力する。テキスト解析部２は、単語辞書６を参
照して、文章テキスト内の単語の同定，単語間の係り受
けの解析等を行って、その結果を韻律生成部３へ送る。
韻律生成部３は、アクセント，音声単位時間長，ポーズ
の継続長，発声時の基本周波数等を設定し、その設定デ
ータを音声波形生成部４へ出力する。音声波形生成部４
は、これらの設定データ及びテキスト解析部２での解析
結果に基づいて音声波形を生成し、生成した音声波形を
音声出力部５へ送る。音声出力部５は、入力された音声
波形に従った音声を出力してユーザに提供する。

【００２６】図２は、第１発明（請求項１）の原理構成
図であり、図１におけるテキスト解析部２に特徴があ
る。第１発明のテキスト解析部２は、単語辞書６を参照
して単語を同定しその読みを決める単語解析手段21と、
単語間に助詞を挿入する助詞挿入手段22と、各単語間の
係り受けを解析する係り受け解析手段23とを有する。

【００２７】単語解析手段21において、単語辞書６を参
照して、文章テキストが単語に分割されて、各単語の読
みが決定する。助詞挿入手段22により読みシーケンス上
の単語間の適切な位置に適切な助詞が挿入される。そし
て、係り受け解析手段23において、助詞が挿入された後
の文における単語間の係り受けの状態が調べられて、単
語同士の接続の仕方が解析される。

【００２８】図３は、第２発明（請求項２）の原理構成
図であり、図２におけるテキスト解析部２に特徴があ
る。第２発明のテキスト解析部２は、単語辞書６を参照
して単語を同定しその読みを決める単語解析手段21と、
単語間に読点を挿入する読点挿入手段24と、各単語間の
係り受けを解析する係り受け解析手段23とを有する。

【００２９】単語解析手段21において、単語辞書６を参
照して、文章テキストが単語に分割されて、各単語の読
みが決定する。読点挿入手段24により読みシーケンス上
の単語間の適切な位置に読点が挿入される。そして、係
り受け解析手段23において、読点が挿入された後の文に
おける単語間の係り受けの状態が調べられて、単語同士
の接続の仕方が解析される。

【００３０】上述した第１発明，第２発明において、助
詞または区切りを表す記号の挿入位置、及び、挿入する
助詞または区切りを表す記号の種類は、前述したよう
に、（Ａ）規則による方法（予め決めておいた挿入の規
則に従ってこれらを挿入する方法）または（Ｂ）用例ベ
ースを参照する方法（予め準備しておいた用例ベースの
中から同一または類似する用例を探してその用例に従っ
てこれらを挿入する方法）によって決定する。

【００３１】図４は、第３発明（請求項３）の原理構成
図であり、図１における韻律生成部３に特徴がある。第
３発明の韻律生成部３は、単語のアクセントを設定する
アクセント設定手段31と、音声の単位時間長を設定する
音声単位時間長設定手段32と、ポーズの位置及びその時
間長を設定するポーズ設定手段33と、音声波形の基本周
波数パターンを生成する基本周波数パターン生成手段34
と、アクセント結合を行うか否かを判断するアクセント
結合判断手段35とを有する。

【００３２】アクセント設定手段31では、単語が接続し
てアクセント句を作るとき、規則的なアクセント結合を
行う。その際に、助詞を伴わない単語の連続に関して
は、アクセント結合判断手段35で、アクセント結合を行
うか否かを判断して、アクセント結合を行わないと判断
した場合は、アクセント設定手段31でアクセント結合を
行わない。例えば、前述の「専門的人材育成」のような
場合には、アクセント結合を行わないと判断する。

【００３３】図５は、第４発明（請求項４）の原理構成
図であり、図１における韻律生成部３に特徴がある。第
３発明の韻律生成部３は、単語のアクセントを設定する
アクセント設定手段31と、音声の単位時間長を設定する
音声単位時間長設定手段32と、ポーズの位置及びその時
間長を設定するポーズ設定手段33と、音声波形の基本周
波数パターンを生成する基本周波数パターン生成手段34
と、ポーズを挿入するか否かを判断するポーズ設定判断
手段36とを有する。

【００３４】ポーズ設定手段33では、テキスト解析手段
２の係り受け解析の結果，呼気段落の長さ等を考慮して
ポーズの位置と長さとを設定する。この際に、助詞を伴
わない単語の連続に関しては、ポーズ設定判断手段36
で、ポーズを挿入するか否かを判断して、ポーズを挿入
すると判断した場合には、ポーズ設定手段33でポーズを
設定する。

【００３５】図６は、第５発明（請求項５）の原理構成
図であり、本システムは、音声に変換するオリジナルの
文章テキストを外部から入力するテキスト入力部１と、
入力されたそのオリジナルの文章テキストを音声合成用
のテキストに変換する音声合成用テキスト生成部７とを
備える。音声合成用テキスト生成部７は、単語辞書６を
参照して文章テキスト内の単語を同定する単語同定手段
71と、単語間に助詞を挿入する助詞挿入手段72とを有す
る。

【００３６】単語同定手段71において、単語辞書６を参
照して入力テキストを単語に分割した後、漢字かな表記
のシーケンスを助詞挿入手段72へ出力する。助詞挿入手
段72により、その漢字かな表記のシーケンス上の単語間
の適切な位置に適切な助詞が挿入されて、音声合成用の
文章テキストが生成され、その音声合成用の文章テキス
トはテキスト解析部２へ出力される。

【００３７】図７は、第６発明（請求項６）の原理構成
図であり、本システムは、音声に変換するオリジナルの
文章テキストを外部から入力するテキスト入力部１と、
入力されたそのオリジナルの文章テキストを音声合成用
のテキストに変換する音声合成用テキスト生成部７とを
備える。音声合成用テキスト生成部７は、単語辞書６を
参照して文章テキスト内の単語を同定する単語同定手段
71と、単語間に読点を挿入する読点挿入手段73とを有す
る。

【００３８】単語同定手段71において、単語辞書６を参
照して入力テキストを単語に分割した後、漢字かな表記
のシーケンスを読点挿入手段73へ出力する。読点挿入手
段73により、その漢字かな表記のシーケンス上の単語間
の適切な位置に読点が挿入されて、音声合成用の文章テ
キストが生成され、その音声合成用の文章テキストはテ
キスト解析部２へ出力される。

【００３９】なお、これらの第５発明，第６発明におい
て、助詞または区切りを表す記号の挿入位置、及び、挿
入する助詞または区切りを表す記号の種類は、第１発
明，第２発明と同様に、前述の（Ａ）規則による方法ま
たは（Ｂ）用例ベースを参照する方法によって決定す
る。また、この第５，第６発明は、図１のテキスト解析
部２に対する前処理として行われるものである。

【００４０】

【発明の実施の形態】以下、本発明をその実施の形態を
示す図面を参照して具体的に説明する。以下に説明する
各実施の形態は、テレビジョン文字放送，ＦＭ多重放送
等で文字データを受信し、これを文字表示と合成音声と
で同時にユーザに提供するシステムを表している。

【００４１】（第１の実施の形態）図８は、本発明の第
１の実施の形態の構成を示すブロック図である。本シス
テムは、文字データを受信する文字データ受信部８と、
文字データ受信部８において受信すべき文字データを選
択する受信選択部９と、単語の同定，助詞・読点の挿
入，係り受けの解析等を行うテキスト解析部２と、テキ
スト解析部２からの読みシーケンスに基づいてアクセン
ト，音声単位時間長，ポーズの位置及び継続長，発声時
の基本周波数パターン等を設定する韻律生成部３と、韻
律生成部３からのデータに基づいて音声波形を生成する
音声波形生成部４と、表示用の文字データと合成音声デ
ータとを同期させて出力する文字表示・音声出力同期部
10と、文字データに応じた文字情報を表示する文字デー
タ表示部11と、合成音声データに応じた合成音声を出力
する音声出力部５とを備えると共に、単語辞書６を有す
る。

【００４２】また、テキスト解析部２は、単語辞書６を
参照して単語を同定しその読みを決める単語解析手段21
と、単語間に助詞を挿入する助詞挿入手段22と、単語間
に読点を挿入する読点挿入手段24と、各単語間の係り受
けを解析する係り受け解析手段23と、助詞を挿入するた
めのルールを格納している助詞挿入ルール格納手段25
と、読点を挿入するためのルールを格納している読点挿
入ルール格納手段26とを有する。

【００４３】次に、動作について説明する。受信選択部
９において適切な文字データを選択し、選択した文字デ
ータを文字データ受信部８で受信する。なお、受信選択
部９での文字データ選択を自動化して、新しい文字デー
タが送信されるたびにその文字データを選択するように
設定することも可能である。文字データ受信部８は、受
信した文字データを文字表示・音声出力同期部10とテキ
スト解析部２とへ出力する。なお、文字表示と音声出力
とを同期させる必要がなければ、文字データを直接文字
データ表示部11へ送って、文字データのみを先に表示す
るようにしても良い。

【００４４】テキスト解析部２内では、まず、単語解析
手段21において、単語辞書６を参照して単語の同定を行
い、文章テキストが単語に分割されて、各単語の読みが
決定する。次に、助詞挿入手段22では、助詞挿入ルール
格納手段25に予め格納しておいた助詞挿入ルールに従っ
て、読みシーケンス上の単語間の適切な位置に適切な助
詞を挿入する。また、読点挿入手段24では、読点挿入ル
ール格納手段26に予め格納しておいた読点挿入ルールに
従って、適切な位置に読点を挿入する。その後、係り受
け解析手段23では、以上のように挿入された助詞，読点
を含む単語のシーケンスに対して、その係り受けの状態
が調べられて、単語同士の接続の仕方が解析される。そ
して、テキスト解析部２から韻律生成部３へ、音声にす
るための読みのシーケンスが出力される。

【００４５】韻律生成部３では、アクセント，音声単位
時間長，ポーズの位置及び継続長，発声時の基本周波数
パターン等を設定し、それらのデータを音声波形生成部
４へ出力する。音声波形生成部４は、これらのデータ及
びテキスト解析部２での解析結果に基づいて音声波形を
生成し、生成した音声波形を文字表示・音声出力同期部
10へ出力する。

【００４６】文字表示・音声出力同期部10では、文字デ
ータ受信部８からの表示用文字データと音声波形生成部
４からの音声出力（音声波形）とを同期して、それぞ
れ、文字データ表示部11と音声出力部５とへ出力する。
文字データ表示部11はその文字データを表示し、音声出
力部５はその音声波形に従った合成音声を出力する。こ
のようにして、文字データと合成音声とを同期させてユ
ーザに提供できる。

【００４７】（第２の実施の形態）図９は、本発明の第
２の実施の形態の構成を示すブロック図である。本シス
テムは、文字データ受信部８と、受信選択部９と、テキ
スト解析部２と、韻律生成部３と、音声波形生成部４
と、文字表示・音声出力同期部10と、文字データ表示部
11と、音声出力部５とを備えると共に、単語辞書６を有
しているが、テキスト解析部２以外の構成要素は、前述
の第１の実施の形態における各構成要素と同様であるの
で、これらの説明は省略する。

【００４８】第２の実施の形態におけるテキスト解析部
２は、単語辞書６を参照して単語を同定しその読みを決
める単語解析手段21と、単語間に助詞を挿入する助詞挿
入手段22と、単語間に読点を挿入する読点挿入手段24
と、各単語間の係り受けを解析する係り受け解析手段23
と、助詞を挿入する際に参照すべき多数の用例を格納し
ている助詞用例データ格納手段27と、読点を挿入する際
に参照すべき多数の用例を格納している読点用例データ
格納手段28とを有する。

【００４９】テキスト解析部２以外の動作は前述の第１
の実施の形態の場合と同様であるのでその説明は省略
し、テキスト解析部２での動作のみを以下に説明する。
テキスト解析部２内では、まず、単語解析手段21におい
て、単語辞書６を参照して単語の同定を行い、文章テキ
ストが単語に分割されて、各単語の読みが決定する。次
に、助詞挿入手段22では、助詞用例データ格納手段27に
同一または類似した単語連接の用例がないかを参照し、
もし存在すれば、その用例に従って助詞を挿入する。ま
た、読点挿入手段24では、読点用例データ格納手段28に
同一または類似した単語連接の用例がないかを参照し、
もし存在すれば、その用例に従って読点を挿入する。そ
の後、係り受け解析手段23では、以上のように挿入され
た助詞，読点を含む単語のシーケンスに対して、その係
り受けの状態が調べられて、単語同士の接続の仕方が解
析される。そして、テキスト解析部２から韻律生成部３
へ、音声にするための読みのシーケンスが出力される。

【００５０】図11は、本発明のシステムを実現するため
のハードウェア構成を示す模式図である。本ハードウェ
アは、処理装置としてのパーソナルコンピュータ81と、
文字データ等を表示するディスプレイ82と、入力装置と
してのキーボード83及びマウス84とを備える。パーソナ
ルコンピュータ81は、上述したような処理を行うための
プログラムを、磁気ディスク，ＣＤ−ＲＯＭ等の可搬型
記録媒体85、パーソナルコンピュータ81と無線または有
線にてプログラム通信が可能である、例えばセンタに備
えられた回線先メモリ86、或いは、パーソナルコンピュ
ータ81に備え付けられたＲＡＭ，ハードディスク等の処
理装置側メモリ87等の記録媒体からロードする。

【００５１】

【発明の効果】以上のように本発明の音声合成システム
では、文章テキストの適切な位置に適切な助詞または区
切りを表す記号（読点，中点）を挿入して合成音声を生
成するようにしたので、特に、テレビジョン文字放送，
ＦＭ多重放送の受信機等において表示用文字データを音
声出力する際に、ユーザが理解しやすい合成音声を生成
することが可能である。

【００５２】また、本発明の音声合成システムでは、不
必要なアクセント結合を行わない、または、必要な位置
にポーズを設定するようにしたので、特に、テレビジョ
ン文字放送，ＦＭ多重放送の受信機等において表示用文
字データを音声出力する際に、ユーザが理解しやすい合
成音声を生成することが可能である。

【００５３】更に、本発明の音声用テキスト生成システ
ムでは、元の文章テキストの適切な位置に適切な助詞ま
たは区切りを表す記号（読点，中点）を挿入して新しい
音声合成用の文章テキストを生成するようにしたので、
この音声合成用の文章テキストに従って合成音声を生成
することにより、聴取時にユーザが理解しやすい音声に
変換することが可能である。

【図面の簡単な説明】

【図１】本発明の音声合成システムの基本構成を示すブ
ロック図である。

【図２】第１発明（請求項１の音声合成システム）の原
理構成図である。

【図３】第２発明（請求項２の音声合成システム）の原
理構成図である。

【図４】第３発明（請求項３の音声合成システム）の原
理構成図である。

【図５】第４発明（請求項４の音声合成システム）の原
理構成図である。

【図６】第５発明（請求項５の音声用テキスト生成シス
テム）の原理構成図である。

【図７】第６発明（請求項６の音声用テキスト生成シス
テム）の原理構成図である。

【図８】本発明の第１の実施の形態の構成を示すブロッ
ク図である。

【図９】本発明の第２の実施の形態の構成を示すブロッ
ク図である。

【図１０】アクセント結合の有無に伴うアクセント状態
を示す図である。

【図１１】本発明のシステムを実現するためのハードウ
ェア構成を示す模式図である。

【符号の説明】

１テキスト入力部２テキスト解析部３韻律生成部４音声波形生成部５音声出力部６単語辞書７音声合成用テキスト生成部 21 単語解析手段 22 助詞挿入手段 23 係り受け解析手段 24 読点挿入手段 25 助詞挿入ルール格納手段 26 読点挿入ルール格納手段 27 助詞用例データ格納手段 28 読点用例データ格納手段 31 アクセント設定手段 32 音声単位時間長設定手段 33 ポーズ設定手段 34 基本周波数パターン生成手段 35 アクセント結合判断手段 36 ポーズ設定判断手段 71 単語同定手段 72 助詞挿入手段 73 読点挿入手段 81 パーソナルコンピュータ 85 可搬型記録媒体 86 回線先メモリ 87 処理装置側メモリ

フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＨ０４Ｎ 7/035

Claims

【特許請求の範囲】

【請求項１】入力された文章テキストに応じた音声を
生成する音声合成システムにおいて、単語辞書を参照し
て、入力された前記文章テキストの単語の読みを同定す
る手段と、同定した単語と単語との間に助詞を挿入する
手段と、助詞を挿入した後の単語間のつながりを解析す
る手段と、その解析結果に応じて音声を生成する手段と
を備えることを特徴とする音声合成システム。
【請求項２】入力された文章テキストに応じた音声を
生成する音声合成システムにおいて、単語辞書を参照し
て、入力された前記文章テキストの単語の読みを同定す
る手段と、同定した単語と単語との間に区切りを表す記
号を挿入する手段と、区切りを表す記号を挿入した後の
単語間のつながりを解析する手段と、その解析結果に応
じて音声を生成する手段とを備えることを特徴とする音
声合成システム。
【請求項３】入力された文章テキストに応じた音声を
生成する音声合成システムにおいて、単語辞書を参照し
て、入力された前記文章テキストの単語の読みを同定す
る手段と、助詞または読点を伴わないで連続する複数の
単語に対して、単語間のアクセント結合を行うか否かを
判断するアクセント結合判断手段と、該アクセント結合
判断手段の判断結果に応じて前記複数の単語のアクセン
トを設定する手段とを備えることを特徴とする音声合成
システム。
【請求項４】入力された文章テキストに応じた音声を
生成する音声合成システムにおいて、単語辞書を参照し
て、入力された前記文章テキストの単語の読みを同定す
る手段と、助詞または読点を伴わないで連続する複数の
単語に対して、単語間にポーズを挿入するか否かを判断
するポーズ挿入判断手段と、該ポーズ挿入判断手段の判
断結果に応じて単語間にポーズを設定する手段とを備え
ることを特徴とする音声合成システム。
【請求項５】入力された表示用の文章テキストに応じ
て、音声合成時に使用する音声用の文章テキストを生成
する音声用テキスト生成システムであって、入力された
前記文章テキストの単語を同定する手段と、同定した単
語と単語との間に助詞を挿入する手段とを備えることを
特徴とする音声用テキスト生成システム。
【請求項６】入力された表示用の文章テキストに応じ
て、音声合成時に使用する音声用の文章テキストを生成
する音声用テキスト生成システムであって、入力された
前記文章テキストの単語を同定する手段と、同定した単
語と単語との間に区切りを表す記号を挿入する手段とを
備えることを特徴とする音声用テキスト生成システム。
【請求項７】入力された文章テキストに応じた音声を
生成するためのコンピュータプログラムを記録した記録
媒体において、単語辞書を参照して、入力された前記文
章テキストの単語の読みを同定するステップと、同定し
た単語と単語との間に助詞及び／または区切りを表す記
号を挿入するステップと、助詞及び／または区切りを表
す記号を挿入した後の単語間のつながりを解析するステ
ップと、その解析結果に応じて音声を生成するステップ
とを含むコンピュータプログラムを記録したことを特徴
とするコンピュータ読み取り可能な記録媒体。
【請求項８】入力された文章テキストに応じた音声を
生成するためのコンピュータで読み取り可能であるプロ
グラムコード手段を有する記録媒体において、単語辞書
を参照して、入力された前記文章テキストの単語の読み
を同定することを前記コンピュータにさせるプログラム
コード手段と、同定した単語と単語との間に助詞及び／
または区切りを表す記号を挿入することを前記コンピュ
ータにさせるプログラムコード手段と、助詞及び／また
は区切りを表す記号を挿入した後の単語間のつながりを
解析することを前記コンピュータにさせるプログラムコ
ード手段と、その解析結果に応じて音声を生成すること
を前記コンピュータにさせるプログラムコード手段とを
有することを特徴とするコンピュータ読み取り可能な記
録媒体。