JP2004145015A

JP2004145015A - テキスト音声合成システム及び方法

Info

Publication number: JP2004145015A
Application number: JP2002310067A
Authority: JP
Inventors: Kentaro Murase; 村瀬　健太郎; Nobuyuki Katae; 片江　伸之; Kazuhiro Watanabe; 渡辺　一宏
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-10-24
Filing date: 2002-10-24
Publication date: 2004-05-20

Abstract

【課題】文章の内容に沿った、より自然な合成音声を生成することができるテキスト音声合成システム又は方法を提供することを目的とする。
【解決手段】テキスト文字列が入力され、テキスト文字列に関する言語情報を解析し、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成するテキスト音声合成方法であって、単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む言語情報を登録する単語データベースと、合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを備え、単語データベースに登録されている単語に印象属性情報が付与されており、かつ韻律データベースに登録されている韻律情報が印象属性情報に対応しており、韻律パターン生成時に、印象属性情報に対応した韻律情報に基づいて、生成する韻律パターンを変更する。
【選択図】　図２

Description

【０００１】
【発明の属する技術分野】
本発明は、テキスト文字列を入力として自動的に合成音声を生成するテキスト音声合成システム及び方法に関する。
【０００２】
【従来の技術】
昨今のコンピュータ技術の進展に伴って、合成音声を用いたシステムとの音声による対話を活用したアプリケーションが多方面において普及している。そして、生成される合成音声の品質についても、向上させるために様々な方法が考えられている。
【０００３】
図１に、従来の一般的なテキスト音声合成装置の概要構成図を示す。従来のテキスト音声合成装置においては、まずテキスト文字列入力部１１において入力されたテキスト文字列について、言語処理部１２において単語や文節単位に分割し、分割された単語や文節ごとに読みやアクセント、あるいは掛かり受け関係等の言語情報を解析する。
【０００４】
そして、音響処理部１３において、音の強弱や長短、高低などの音声の韻律を決定し、読みと韻律に応じた合成波形を生成することになる。
【０００５】
しかし、従来のテキスト音声合成技術においては、いかにも合成音声と感じさせる一様な調子の不自然な読み方になることが多く、合成音声を聞いたときに違和感が生じる。すなわち、人間が読み上げる場合には、明るい内容の印象を与える単語は明るく、暗い内容の印象を与える単語は押さえ気味に読む等、読み上げる意味内容に沿った読み方を行っているが、合成音声の場合には、言語処理部１２から出力された字面を単に読み上げるだけであり、どのような状況でも一定の読み方になることから自然な音声に聞こえないことが多い。
【０００６】
そこで、聞く者にとって自然な音声と聞こえるような合成波形を生成するために、例えば（特許文献１）に開示されている方法においては、音声辞書の韻律情報として、感情の起伏に応じた読み情報を事前に登録しておき、感情情報に応じて最適な韻律で合成音声を生成したり、あるいは感情情報に応じて生成された合成音声の出力ピッチを上下動させる等によって、感情の起伏に応じた自然な音声と聞こえるように音声出力を行っている。
【０００７】
【特許文献１】
特開平９−１７１３９６号公報
【０００８】
【発明が解決しようとする課題】
しかしながら、（特許文献１）に開示されている方法に代表されるような合成音声の生成方法あるいは合成音声の変更方法においては、以下のような問題点が残されていた。
【０００９】
まず、音声辞書の韻律情報として、感情の起伏に応じた読み情報を事前に登録するのは、登録する利用者にとっては作業負担が大きく、かつ数多くの登録データが存在しないと本当に感情の起伏に沿った合成音声を出力することができないことから、計算機資源の物理的な制約条件の観点からも、実用性に乏しいという問題点があった。
【００１０】
また、感情情報に応じて合成音声の音声ピッチ等を変更する方法においては、単語単位での感情情報を単語単位で保持しておくと、文章単位での感情表現と相違する場合も考えられる。例えば、「彼の表情には希望が感じられた。」という肯定文の場合には問題が生じないものの、「彼の表情には希望が感じられない。」といった否定文においては、「希望」を抑え目に読み上げるべきところ、明るめに読み上げてしまうといった現象が発生する可能性が残されている。それに対して文章単位で感情情報を保持することは、計算機資源の物理的な制約条件の観点からも、現実性に乏しいという問題点があった。
【００１１】
本発明は、上記問題点を解決するために、文章の内容に沿った読み上げをすることで、より自然な合成音声を生成することができるテキスト音声合成システム又は方法を提供することを目的とする。
【００１２】
【課題を解決するための手段】
上記目的を達成するために本発明にかかるテキスト音声合成システムは、テキスト文字列が入力されるテキスト文字列入力部と、入力されたテキスト文字列に関する言語情報を解析する言語処理部と、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成する音響処理部とを含むテキスト音声合成システムであって、単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む言語情報を登録する単語データベースと、合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを備え、単語データベースに登録されている単語に印象属性情報が付与されており、かつ韻律データベースに登録されている韻律情報が印象属性情報に対応しており、音響処理部における韻律パターン生成時に、印象属性情報に対応した韻律情報に基づいて、生成する韻律パターンを変更することを特徴とする。
【００１３】
かかる構成により、単語データベースに印象属性情報を付与するとともに、印象属性情報に対応した韻律パターンを用いることによって、単語の印象に応じた韻律パターンを生成することができ、より自然な合成音声を生成することが可能となる。
【００１４】
また、本発明にかかるテキスト音声合成システムは、合成音声波形を生成するために用いる波形素片を登録する波形素片データベースをさらに含み、波形素片データベースに登録されている波形素片が印象属性情報に対応しており、音響処理部における音声波形の合成時に、印象属性情報に対応する波形素片を選択し、印象属性に応じて波形素片を変更することが好ましい。印象属性情報に対応した波形素片を用いることによって、単語の印象に応じた波形素片を選択することができ、より自然な声質の合成音声を生成することができるからである。
【００１５】
また、本発明にかかるテキスト音声合成システムは、音響処理部において、印象属性情報と言語処理部において解析された言語情報に基づいて、単語及び単語の係り先の語句の韻律パターン及び使用する波形素片を変更することが好ましい。言語処理部の解析結果を利用することで、単語のみの印象属性情報だけでは正確に文章全体の印象を判定できない場合であっても、文章全体で表現している印象表現に沿った読み上げを行うことができるからである。
【００１６】
また、本発明にかかるテキスト音声合成システムは、生成する韻律パターン及び使用する波形素片を指定することができる指定部をさらに含むことが好ましい。利用者が特に印象を強調したい単語に対して、利用者の意図に沿った合成音声を生成することができるからである。
【００１７】
また、本発明は、上記のようなテキスト音声合成システムの機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、テキスト文字列が入力される工程と、入力されたテキスト文字列に関する言語情報を解析する工程と、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成する工程とを含むテキスト音声合成方法であって、単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む言語情報を登録する単語データベースと、合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを利用するとともに、単語データベースに登録されている単語に印象属性情報が付与されており、かつ韻律データベースに登録されている韻律情報が印象属性情報に対応しており、韻律パターン生成時に、印象属性情報に対応した韻律情報に基づいて、生成する韻律パターンを変更するテキスト音声合成方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【００１８】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、単語データベースに印象属性情報を付与するとともに、印象属性情報に対応した韻律パターンを用いることによって、単語の印象に応じた韻律パターンを生成することができ、より自然な合成音声を生成することができるテキスト音声合成方法システムを実現することが可能となる。
【００１９】
【発明の実施の形態】
（実施の形態１）
以下、本発明の実施の形態１にかかるテキスト音声合成方法システムについて、図面を参照しながら説明する。図２は本発明の実施の形態１にかかるテキスト音声合成方法システムの構成図である。
【００２０】
図２において、２１はテキスト文字列が入力されるテキスト文字列入力部を、２２はテキスト文字列入力部２１において入力されたテキスト文字列に関する言語情報を解析する言語処理部を、２３は単語ごとの構文や読み、アクセント等に関する情報を含んだ言語情報を登録する単語データベースを、それぞれ示している。
【００２１】
言語処理部２２では、入力されたテキスト文字列を解析するにあたって、単語データベース２３を参照する。単語データベース２３には、テキスト文字列の解析に必要となる、単語の読み情報、活用形、品詞等に関する文法情報、アクセント型等の他、その単語が一般的に利用される文脈における印象を表す印象属性情報が登録されている。そして、単語データベース２３を参照しながら形態素解析や構文解析を行って、入力されたテキスト文字列を、単語や文節等の単位に分割して、読み情報やアクセント型、あるいは構文情報等を求めることになる。
【００２２】
図３は、本発明の実施の形態１にかかるテキスト音声合成方法システムにおける単語データベース２３のデータ構成例示図である。図３に示すように、登録されている単語ごと一般的に利用される文脈における印象を表す印象属性が登録されている。
【００２３】
印象属性の決定方法については様々な方法が考えられる。例えば、印象属性を「明」、「中立」、「暗」の３つに分類し、単語データベース２３に登録されている単語ごとに、当該単語の対義語が存在し、かつ対義語が反対の意味関係にある場合、肯定的な意味を持つ単語に「明」属性を付与し、否定的な意味を持つ単語に「暗」属性を付与する。対義語が相互関係にある場合、例えば単語「親」と「子」などについては、あるいは対義語が存在しない場合には「中立」属性を付与することになる。
【００２４】
もちろん、かかる分類に限定されるものではなく、例えば印象属性として、謝罪や依頼などの発話者の心理状態を表す属性や感情状態を表す属性や、「明１」、「明２」などのように、印象の程度を段階分けして属性を付与することも考えられる。
【００２５】
また、２４は、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成する音響処理部を示している。音響処理部２４は、合成音声の韻律パターンを生成するために、韻律情報を登録する韻律データベース２５を参照することになる。
【００２６】
韻律データベース２５には、単語データベース２３に格納されている各種の印象属性に対応した韻律情報が登録されている。図４に本発明の実施の形態１にかかるテキスト音声合成方法システムにおける韻律データベース２５の構成例示図を示す。
【００２７】
図４（ａ）はルールベースの方法を示している。すなわち、図４（ａ）では、アクセント型、モーラ数、構文情報等の言語情報に基づいて一定の規則で韻律を生成する場合を示している。この韻律生成規則を各印象属性ごとにそれぞれ保持することになる。
【００２８】
例えば、「明」属性の場合には音声ピッチを高めに、かつ音素長をやや短くすることによって、軽快な印象を与える合成音を生成するルールを用意し、「暗」属性の場合には音声ピッチを低めに、かつ音素長を長めにとることによって、押さえ気味の落ち着いた印象を与える合成音を生成するルールを用意しておくことになる。
【００２９】
図４（ｂ）は、いわゆるコーパスベースと呼ばれる方法を示している。すなわち、図４（ｂ）では、できるだけ多くの実際の韻律パターンを、単語や文節単位で、アクセント型、モーラ数、構文情報等に基づいて分類し、登録したデータベース（以下、コーパスという。）を用意しておき、入力されたテキスト文字列に含まれる単語や文節ごとに、アクセント型、モーラ数、構文情報等をキーとして、最も近いキーを持つ韻律パターンをコーパスから取得する場合を示している。なお、コーパスの生成時において、単語データベース２３に格納されている印象情報に応じた韻律で発話された韻律パターンに対して、その印象情報をタグとして付与しておき、当該印象属性タグにより韻律パターンを検索できるようにしておくことになる。
【００３０】
図４（ｃ）は、コーパスを各印象属性ごとに保存しておく方法を示している。すなわち、図４（ｃ）では、単語データベース２３に格納されている印象情報に応じた韻律で発声した韻律パターンを、それぞれの印象属性ごとに異なるコーパスとして保存しておくことになる。
【００３１】
このように、韻律データベース２５に、単語データベースにおける印象属性に対応した印象情報を付与することによって、印象に応じた韻律情報を確実に選択することができ、より自然性の高い合成音声を作成することが可能となる。
【００３２】
そして、韻律パターンの生成時においては、単語データベース２３に登録されている印象属性情報を参照し、登録されている印象属性に応じた韻律パターンを韻律データベース２４から取得することになる。
【００３３】
例えば、「キボウ」という単語の合成音を生成する場合において、単語データベース２３を参照した結果、「明」属性が付与されていたものとする。この場合、韻律データベース２５における「明」属性のコーパスの中から韻律パターンを取得する。例えば、「明」属性のコーパスには、音声ピッチが高めで音素長がやや短い軽快な調子の韻律パターンが格納されており、「希望」という明るい文脈で用いられる単語の印象に合った韻律パターンにより合成音声を生成することができる。
【００３４】
このように、入力されたテキスト文字列に含まれる単語の印象に応じた韻律パターンを生成しながら合成音声を生成することができることから、自然な合成音声を生成することができる。
【００３５】
また、より合成音声の品質を高めるために、図５に示すような音声波形データベース２６を音響処理部２４に追加することも考えられる。音声波形データベース２６には、合成波形を生成する際に使用する波形素片が保存されている。そして、単語データベース２３に登録されている各印象属性に対応したデータとして波形素片データが形成されている。
【００３６】
例えば、単語データベース２３における印象属性が、「明」、「中立」、「暗」であった場合、明るい調子で発声した波形素片を集めた波形データ群と、通常の発声を集めた波形素片データ群、及び暗い調子で発声した波形素片を集めた波形データ群を準備しておくことになる。
【００３７】
そして、音響処理部２４においては、言語処理部２２において分割された単語や文節単位で単語データベース２３に登録されている印象属性情報を参照し、登録されている印象属性に応じて韻律データベース２５を参照して韻律パターンを生成するとともに、音声波形データベース２６からも印象属性に応じて波形素片を選択して、単語の印象に応じた声質で合成波形を生成することになる。
【００３８】
また、音声波形データベース２６として、波形素片それぞれに対して、当該波形素片に対応する音声が発声された調子によって印象属性情報をタグ付けしてあるものであっても良い。例えば、単語データベース２３における印象属性が、「明」、「中立」、「暗」であった場合、音声波形データベース２６は、明るい調子で発声した波形素片には「明」属性を、暗い調子で発声した波形素片には「暗」属性を、その他の波形素片には「中立」属性のタグを付与することになる。
【００３９】
このように、各印象属性に対応した波形素片も準備しておくことによって、より自然な声質の合成音声を生成することが可能となる。
【００４０】
次に、本発明の実施の形態１にかかるテキスト音声合成システムを実現するプログラムの処理の流れについて説明する。図６に本発明の実施の形態１にかかるテキスト音声合成システムを実現するプログラムの処理の流れ図を示す。
【００４１】
図６において、まずテキスト文字列が入力され（ステップＳ６０１）、単語ごとの文法情報や読み、アクセント等に関する情報を含んだ言語情報を登録する単語データベース２３を参照して、入力されたテキスト文字列に関する言語情報を解析する（ステップＳ６０２）。
【００４２】
次に、解析された結果から印象属性を抽出し（ステップＳ６０３）、ステップＳ６０２で求まった言語情報と当該印象属性をキー情報として、韻律データベース２５を参照して、韻律パターンを生成する（ステップＳ６０４）。
【００４３】
そして、生成された韻律パターンに基づいて、合成音声を生成することになる（ステップＳ６０５）。
【００４４】
以上のように本実施の形態１によれば、テキスト文字列に含まれる単語ごとの印象属性情報に対応した韻律情報に基づいて韻律パターンを生成してから合成音声を生成することから、韻律パターン情報をすべて登録しておく必要なく、利用者の感情表現に沿った合成音声を生成することが可能となる。
【００４５】
（実施の形態２）
以下、本発明の実施の形態２にかかるテキスト音声合成方法システムについて、図面を参照しながら説明する。図７は本発明の実施の形態２にかかるテキスト音声合成方法システムの構成図である。
【００４６】
本実施の形態２の構成は、実施の形態１と基本的に同様であることから、同一の機能を有する部分については図２と同一の番号を付することで詳細な説明を省略する。実施の形態１とは、音響処理部２４において合成音声を生成する前に、条件に応じて印象属性を更新する印象属性更新部７１を設けている点で相違する。
【００４７】
すなわち、印象属性更新部７１では、言語処理部２２で解析された構文情報に基づいて、単語データベース２３において単語ごとに付随している印象属性を更新して音響処理部２４へ渡すことになる。具体的には、印象属性を抽出した単語の係り先の語句についても印象属性情報を付与しておき、係り先の語句に関する印象属性を考慮して、当該単語の印象属性を更新することになる。
【００４８】
例えば、入力されたテキスト文字列が、「希望がなかった」という文章であった場合、単語データベース２３においては、「希望」の印象属性として「明」属性が登録されているものの、文章全体の印象としては否定的な「暗」属性を有するべき内容である。そこで、言語処理部２２における構文解析の結果を参照し、単語「希望」の係り先である文節「なかった」を特定し、「なかった」のように否定を含む語句である場合には、文章全体の印象属性が「暗」属性であると判断し、「明」属性を有する単語「希望」についても、印象属性を「明」属性から「暗」属性へと更新することになる。このようにすることで、音響処理部２４において韻律データベース２５あるいは音声波形データベース２６を用いて合成音声を生成する場合に、印象属性が「暗」属性であることを前提として処理を行うことが可能となる。
【００４９】
次に、本発明の実施の形態２にかかるテキスト音声合成システムを実現するプログラムの処理の流れについて説明する。図８に本発明の実施の形態２にかかるテキスト音声合成システムを実現するプログラムの処理の流れ図を示す。
【００５０】
図８において、まずテキスト文字列が入力され（ステップＳ８０１）、単語ごとの文法情報や読み、アクセント等に関する情報を含んだ言語情報を登録する単語データベース２３を参照して、入力されたテキスト文字列に含まれる単語について形態素解析や構文解析により言語情報の解析を行う（ステップＳ８０２）。
【００５１】
次に、入力されたテキスト文字列に含まれる単語の係り先の語句を構文解析の結果に基づいて特定する（ステップＳ８０３）。そして、単語と係り先の語句が否定語であるか否かを判断する（ステップＳ８０４）。
【００５２】
単語と係り先の語句が否定語であると判断された場合には（ステップＳ８０４：Ｙｅｓ）、単語の印象属性を逆の印象属性に更新し（ステップＳ８０５）、当該印象属性をキー情報として、韻律データベース２５を参照して、韻律パターンを生成する（ステップＳ８０６）。
【００５３】
そして、生成された韻律パターンに基づいて、合成音声を生成することになる（ステップＳ８０７）。
【００５４】
以上のように本実施の形態２によれば、言語処理部２２における構文解析結果当を活用することによって、単語のみの印象属性情報だけでは正確に文章全体の印象属性を判断できない場合であっても、適切な印象属性を定めることができ、文章全体の印象に沿った自然な音声合成を生成することが可能となる。
【００５５】
なお、実施の形態１及び実施の形態２において、入力されたテキスト文字列に対して、利用者が印象属性情報を付与することができるように印象属性付与部（図示せず）を設けることも考えられる。この場合、印象属性更新部７１において、印象属性情報が更新される場合であっても、利用者の付与した印象属性情報を優先するようにしても良い。このようにすることで、利用者が特に意図した印象を反映させた合成音声を生成することも可能となる。
【００５６】
同様に、利用者が、生成する韻律パターン及び使用する波形素片を自ら指定することができる指定部（図示せず）を設けることも考えられる。指定部を設けることによって、利用者自身が自分の意図した印象を最も反映していると考えている韻律パターン及び波形素片を用いることができ、利用者の印象を反映させた合成音声を生成することがより容易になる。
【００５７】
また、本発明の実施の形態にかかるテキスト音声合成システムを実現するプログラムは、図９に示すように、ＣＤ−ＲＯＭ９２−１やフレキシブルディスク９２−２等の可搬型記録媒体９２だけでなく、通信回線の先に備えられた他の記憶装置９１や、コンピュータ９３のハードディスクやＲＡＭ等の記録媒体９４のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【００５８】
また、本発明の実施の形態にかかるテキスト音声合成システムで利用される単語データベース２３や韻律データベース２５等についても、図９に示すように、ＣＤ−ＲＯＭ９２−１やフレキシブルディスク９２−２等の可搬型記録媒体９２だけでなく、通信回線の先に備えられた他の記憶装置９１や、コンピュータ９３のハードディスクやＲＡＭ等の記録媒体９４のいずれに記憶されるものであっても良く、例えば本発明にかかるテキスト音声合成システムを利用する際にコンピュータ９３により読み取られる。
【００５９】
【発明の効果】
以上のように本発明にかかるテキスト音声合成システムによれば、単語データベースに印象属性情報を付与するとともに、印象属性情報に対応した韻律パターンを用いることによって、単語の印象に応じた韻律パターンを生成することができ、より自然な合成音声を生成することができる。
【００６０】
また、本発明にかかるテキスト音声合成システムによれば、言語処理部の解析結果を利用することで、単語のみの印象属性情報だけでは正確に文章全体の印象を判定できない場合であっても、文章全体で表現している感情表現に沿った読み上げを行うことが可能となる。
【図面の簡単な説明】
【図１】従来のテキスト音声合成システムの構成図
【図２】本発明の実施の形態１にかかるテキスト音声合成システムの構成図
【図３】本発明の実施の形態１にかかるテキスト音声合成システムにおける単語データベースのデータ構成例示図
【図４】本発明の実施の形態１にかかるテキスト音声合成システムにおける韻律データベースの構成例示図
【図５】本発明の実施の形態１にかかるテキスト音声合成システムにおける他の構成図
【図６】本発明の実施の形態１にかかるテキスト音声合成システムにおける処理の流れ図
【図７】本発明の実施の形態２にかかるテキスト音声合成システムの構成図
【図８】本発明の実施の形態２にかかるテキスト音声合成システムにおける処理の流れ図
【図９】コンピュータ環境の例示図
【符号の説明】
１１、２１　テキスト文字列入力部
１２、２２　言語処理部
１３、２４　音響処理部
２３　単語データベース
２５　韻律データベース
２６　音声波形データベース
７１　印象属性更新部
９１　回線先の記憶装置
９２　ＣＤ−ＲＯＭやフレキシブルディスク等の可搬型記録媒体
９２−１　ＣＤ−ＲＯＭ
９２−２　フレキシブルディスク
９３　コンピュータ
９４　コンピュータ上のＲＡＭ／ハードディスク等の記録媒体

Claims

テキスト文字列が入力されるテキスト文字列入力部と、
入力された前記テキスト文字列に関する言語情報を解析する言語処理部と、
解析された前記言語情報に基づいて韻律パターンを生成し、音声波形を合成する音響処理部とを含むテキスト音声合成システムであって、
単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む前記言語情報を登録する単語データベースと、
合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを備え、
前記単語データベースに登録されている単語に印象属性情報が付与されており、かつ前記韻律データベースに登録されている前記韻律情報が前記印象属性情報に対応しており、前記音響処理部における韻律パターン生成時に、前記印象属性情報に対応した前記韻律情報に基づいて、生成する韻律パターンを変更することを特徴とするテキスト音声合成システム。
合成音声波形を生成するために用いる波形素片を登録する波形素片データベースをさらに含み、
前記波形素片データベースに登録されている前記波形素片が前記印象属性情報に対応しており、前記音響処理部における音声波形の合成時に、前記印象属性情報に対応する前記波形素片を選択し、前記印象属性に応じて、前記波形素片を変更する請求項１に記載のテキスト音声合成システム。
前記音響処理部において、前記印象属性情報と前記言語処理部において解析された前記言語情報に基づいて、単語及び前記単語の係り先の語句の韻律パターン及び使用する波形素片を変更する請求項２に記載のテキスト音声合成システム。
生成する韻律パターン及び使用する波形素片を指定することができる指定部をさらに含む請求項１から３のいずれか一項に記載のテキスト音声合成システム。
テキスト文字列が入力される工程と、
入力された前記テキスト文字列に関する言語情報を解析する工程と、
解析された前記言語情報に基づいて韻律パターンを生成し、音声波形を合成する工程とを含むテキスト音声合成方法であって、
単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む前記言語情報を登録する単語データベースと、
合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを利用するとともに、
前記単語データベースに登録されている単語に印象属性情報が付与されており、かつ前記韻律データベースに登録されている前記韻律情報が前記印象属性情報に対応しており、韻律パターン生成時に、前記印象属性情報に対応した前記韻律情報に基づいて、生成する韻律パターンを変更することを特徴とするテキスト音声合成方法。
テキスト文字列が入力されるステップと、
入力された前記テキスト文字列に関する言語情報を解析するステップと、
解析された前記言語情報に基づいて韻律パターンを生成し、音声波形を合成するステップとを含むテキスト音声合成方法を具現化するコンピュータ実行可能なプログラムであって、
単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む前記言語情報を登録する単語データベースと、
合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを利用するとともに、
前記単語データベースに登録されている単語に印象属性情報が付与されており、かつ前記韻律データベースに登録されている前記韻律情報が前記印象属性情報に対応しており、韻律パターン生成時に、前記印象属性情報に対応した前記韻律情報に基づいて、生成する韻律パターンを変更することを特徴とするコンピュータ実行可能なプログラム。