JP4636673B2

JP4636673B2 - 音声合成装置および音声合成方法

Info

Publication number: JP4636673B2
Application number: JP2000349066A
Authority: JP
Inventors: 勝義山上; 弓子加藤; 由実脇田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2000-11-16
Filing date: 2000-11-16
Publication date: 2011-02-23
Anticipated expiration: 2020-11-16
Also published as: JP2002149180A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力されたテキストの読み上げ音声を合成する音声合成装置および書き言葉を話し言葉に変換して読み上げるための音声合成方法（自然言語処理方法）に関する。
【０００２】
【従来の技術】
テキスト音声合成システムにおいては、読み上げの対象となるテキストは、読まれることを前提として書かれた書き言葉の表現で記述されている場合が多い。
書き言葉の表現にはそのまま読み上げると理解しにくいものがあるので、書き言葉の表現を、読み上げに適した話し言葉の表現に変換してから読み上げるという音声合成の方式が提案されている。
【０００３】
例えば、難意語や紛らわしい同音異義語を平易な単語に置き換えてから読み上げる機能を有したテキスト音声合成装置（例えば、特開平３−３５２９６号公報）が提案されている。
【０００４】
また、単語を置き換えるだけでなく、イントネーションも調整して、読み上げ音声の了解性を高めようとする試みもある。
【０００５】
【発明が解決しようとする課題】
しかしながら、話し言葉の自然音声では、文節の区切れや意味の切れ目等において、音の高低，音声強度や音韻時間長などが微妙に調整されており、規則に基づく音声合成方式のみで自然な音声を生成することは、なかなか困難である。
【０００６】
より具体的にいえば、例えば、文章を読み上げる場合には、文の意味、あるいは、内容を反映した読み方をすることが望ましい。
【０００７】
文の意味は、構成要素である単語、あるいは文節自体の意味と、文の構造、すなわち、単語を含む各文節同士の互いの関係によって表現される。訓練されたアナウンサー等は、イントネーションをうまく使い分けることで、文の構造を分かりやすくするなどのテクニックを有している。
【０００８】
これに対し、現状の音声合成装置において、例えば、「〜するようです」などの定型的で１つの文節、あるいはアクセント句に関して話し言葉らしいイントネーション（あるいは韻律）を付与することに成功したとしても、変換後の話し言葉の表現が複数の文節に渡る場合（意味の係り結びが複数の文節に渡って生じる場合）では、文節間のイントネーションのバランスが考慮されない。よって、文の構造を反映した読み上げ音声を生成できないという、さらなる不都合が問題となる。
【０００９】
本発明は、このような、本発明者の検討に基づいてなされたものであり、上述した従来の書き言葉から話し言葉への変換機能を有する音声合成装置の不都合を解消し、わかりやすい表現、かつ、自然なイントネーションでテキストを音声出力することができる新規な音声合成装置と音声合成方法（自然言語処理方法）を提供することを目的とする。
【００１０】
【課題を解決するための手段】
本発明は、”単語”や”特定の言いまわし”に対して置換やイントネーションの制御を行うという従来の手法に加えて、文書の構文を解析し、複数の文節に渡る意味の関連性を検出し、その検出結果に基づく韻律パラメータの調整（基本韻律の微調整）を行うことで、読み上げる文章の内容を、分かりやすくするものである。
【００１１】
本発明の音声合成装置の好ましい態様の一つは、入力テキストを言語解析して単語列に分解し、各単語の意味情報を含む言語情報を付与し、前記言語情報が付与された単語列を、文節を単位としてグループ化して、言語解析結果として出力する言語解析手段と、この言語解析手段から出力される、言語処理結果の文節列につき、前記意味情報の配列パターンに基づいて構文構造を解析し、構文解析の結果を示す構文識別情報を付与して出力する構文解析手段と、構文識別情報に対応する韻律制御情報を用いて、構文構造を反映した韻律情報の制御を行う韻律制御手段と、韻律制御手段によって生成された韻律情報にしたがって、音声波形を合成する波形合成手段と、を有する。
【００１２】
この構成によれば、構文解析手段と韻律制御手段の組み合わせにおいて、テキストの構文構造に応じた韻律制御を行うことができるので、複数の文節にわたる表現の変換に対しても構文的な関係を反映し、バランスの良い韻律制御が可能である。
【００１３】
また、入力テキストの書き言葉の部分を話し言葉の表現に変換し、かつ、変換後のテキストの構文構造を反映して読み上げることができるので、テキストの内容をわかりやすい音声で、正確に伝えることが可能である。
【００１４】
また、テキスト変換規則により、わかりやすい表現に変換され、構文の構造に対応した韻律制御を行うので、文の内容がわかりやすいイントネーションで読み上げることが可能である。
【００１５】
さらに、言語情報のパターン照合に意味情報を利用することにより、同義の単語、表現に対して変換規則を１つにまとめることが可能になり、効率的に変換規則を記述可能である、という副次的な効果も得ることができる。
【００１６】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
【００１７】
図１は、本発明の実施の形態にかかる音声合成装置の構成を表すブロック図である。
【００１８】
参照符号１０１は、テキストを入力する入力部である。
【００１９】
参照符号１０２は、入力のテキストを単語に分割し、表記、読み、アクセント、品詞、意味情報（意味ラベル）などを含む言語情報を付与し、単語列を文節単位にグループ化した言語解析結果を出力する言語解析部である。参照符号１０３は、言語解析部１０２が単語に付与する言語情報を記述した言語解析用辞書である。
【００２０】
また、参照符号１０５は、テキストの単語単位、あるいは、文節単位での置換を行うテキスト変換規則を格納するテキスト変換規則テーブルである。テキスト変換規則は、例えば、言語解析結果の変換すべき部分に関する単語単位、あるいは、文節単位での、表記、読み、品詞、意味情報などを含む言語情報のパターンと、パターンに該当する部分の変換後の単語単位、あるいは、文節単位での言語情報の列として記述される。
【００２１】
参照符号１０４は、テキスト変換規則テーブル１０５に格納されるテキスト変換規則と言語解析結果の照合を行い、照合部分の置換を行う。
【００２２】
テキスト変換規則を書き言葉の表現の言語情報パターンから、書き言葉に対応する話し言葉の言語情報列として記述することにより、書き言葉から話し言葉へ変換して読み上げることが可能となる。また、言語情報パターンにおいて、単語、あるいは、文節の意味情報を指定することで、１つのテキスト変換規則で同義の表現に適用可能であるように効率的にテキスト変換規則を記述することが可能である。
【００２３】
参照符号１０７は、言語解析結果と照合可能な、言語情報のパターンとして記述された構文パターン（および、構文パターンに対応する韻律制御情報）を格納する構文パターンデータベースである。
【００２４】
また、参照符号１０６は、構文パターン韻律情報データベース１０７に格納されている構文パターンと言語解析結果を照合して、照合部分に言語解析結果の構文構造を一意に決定する構文識別情報を設定する構文パターン照合部である。
【００２５】
参照符号１０８は、構文解析結果の単語単位に付与された読み、アクセント、品詞、文節のグループなどの言語情報から、アクセント句単位で音韻情報および韻律パラメータ（基本韻律）を生成する韻律生成部である。
【００２６】
参照符号１１０は、構文パターンデータベース１０７に格納されている各構文パターンにより与えられる構文識別情報と対応した韻律制御情報を格納する韻律制御データベースである。
【００２７】
参照符号１０９は、韻律生成部１０８で生成された１文の韻律パラメータの系列に対して、韻律制御データベース１１０の構文識別情報と対応する韻律制御情報を用いて韻律パラメータの調整を行う韻律制御部である。
【００２８】
参照符号１１１は、韻律生成部１０８で生成された音韻系列、および、韻律制御部で調整された韻律パラメータに従って、音声波形を合成する波形合成部である。参照符号１１２は、波形合成部１１１が必要とする音声素片を格納した音声素片データベースである。
【００２９】
上述の構成において、テキスト変換規則テーブル１０５および変換処理部１０４は、テキスト変換手段１１５（図１中、太い点線で囲んで示される）の構成要素である。
【００３０】
また、構文パターン照合部１０６および構文パターンデータベース１０７は、構文解析手段１１６（図１中、太い点線で囲んで示される）の構成要素である。また、韻律制御部１０９および韻律制御データベース１１０は、韻律制御手段（韻律パラメータを微調整するための手段）１１７の構成要素である。
【００３１】
このような構成をもつ本実施の形態の音声合成装置の特徴的な動作が、図３に示される。
【００３２】
すなわち、言語解析部１０２は、入力テキストを言語解析する（ステップ３０１）。このとき、各単語の意味ラベル（意味情報）も併せて付与する。例えば、「Ａ」の「Ｂ」の「Ｃ」という構文パターンである場合に、「Ａ」は”地域”を意味する名詞であり、「Ｂ」は”動作の主体”を意味する名詞であり、「Ｃ」は”グループの種別”を意味する名詞であることを示す意味ラベル（意味情報）を、「Ａ」，「Ｂ」，「Ｃ」の各々について付与する。
【００３３】
次に、テキスト変換処理部１０４において、テキスト変換規則テーブル１０５を参照して登録されているパターンに一致するものがテキスト中に存在するかを検出し、一致したパターンを書き言葉のパターンに置き換え、テキスト変換を行う（ステップ３０２）。これにより、書き言葉が話し言葉に変換される。
【００３４】
例えば、「開設を検討するという。」というテキストが入力された場合、「という。」は「ということです。」に変換される。
【００３５】
ここで注目すべきことは、テキスト変換処理にあたり、言語解析部１０２にて付与された意味ラベルを考慮した、パターン検索を行うことにより、同義の単語や表現に対して変換規則を１つにまとめることが可能になり、効率的に変換規則を記述可能である、という効果が得られる点である。
【００３６】
例えば、「開設を予定する。」と、「開設の予定。」とは、同じ意味の表現であり、共に、「開設の予定です」という話し言葉に変換するのが望ましい。単語のパターンだけに基づいてテキスト変換を行おうとすると、各パターン毎に変換規則を設定しておく必要がある。
【００３７】
しかし、「意味の配列のパターン」として見れば、両者は同じであり、この意味の配列のパターンに基づいて変換規則を記述しておけば、変換規則を共通化することができる。つまり、言語解析の結果として付与される意味ラベルを活用することで、テキスト変換を効率化することができる。
【００３８】
次に、構文パターン照合部１０６が、構文パターンデータベース１０７を参照して、構文パターンを解析する（図３のステップ３０３）。
【００３９】
この構文パターンの解析処理（照合処理）は、ステップ３０２を経てテキスト変換された部分および、テキスト変換されない部分の双方を対象として実施される。また、構文パターンの照合は、「意味ラベルの並び方（配置）」が、構文パターンデータベース１０７に登録されているパターンと一致するか否かを検出することで行う。そして、登録されている構文パターンと一致した部分に、構文識別情報（例えば、”ＩＤ１”という識別情）が付与される。
【００４０】
次に、韻律生成部１０８において、ピッチ（音の高低）等の基本的な韻律を生成する（ステップ３０４）。この基本的な韻律の生成は、言語解析部１０２により解析された情報を利用して行う。
【００４１】
次に、韻律制御部１０９が、構文パターン照合部１０６において付与された構文識別情報（例えば、上述の”ＩＤ１”という識別情報）に従って韻律パラメータを調整（微調整）する（ステップ３０５）。
【００４２】
これにより、連続する複数の文節相互の意味の関係を考慮した、バランスのとれた韻律形成が可能となる。
【００４３】
韻律制御部１０９における韻律パラメータの調整は、構文識別情報（例えば”ＩＤ１”）をインデックスとして韻律制御データベース１１０を検索し、この”ＩＤ１”に対応する韻律制御情報を読み出すことにより行われる。つまり、構文パターンデータベース１０７と韻律制御データベース１１０との間に、構文パターン識別情報に基づく対応関係を構築しておくことで、韻律制御パラメータの調整を、きわめて簡単に行うことができる。
【００４４】
例えば、「Ａ」の「Ｂ」の「Ｃ」という構文パターンに”ＩＤ１”という構文識別情報が付与されているとすると、この構文パターンについては、例えば、「Ａの」という部分のピッチパターンと、「Ｂの」という部分のピッチパターンとの相互の連続性が断ち切られるように韻律制御パラメータを調整し、「Ｂの」という部分のピッチパターンと、「Ｃ」という部分のピッチパターンとの相互の連続性が確保されるように韻律制御パラメータを調整するのであり、このようなパラメータの微調整を行うための情報が、”ＩＤ１”というインデックスの下で韻律制御データベースに登録されている、ということである。
【００４５】
ここで、韻律制御パラメータは、例えば、各文節のピッチパターンのダイナミックレンジの上限値および下限値、および、その上限値および下限値の時間に対する変化率の少なくとも一つを含むものであり、これらを調整することにより、構文の意味を考慮した、バランスのとれた韻律を生成することが可能となる。
【００４６】
最後に、波形合成部１１１において、音声素片を接続し、韻律パラメータに従って波形を合成する（ステップ３０６）。
【００４７】
このように、本実施の形態によれば、合理的（効率的）なプロセスにより、入力テキストの書き言葉の表現を話し言葉の表現に変換し、かつ、文の構造を分かりやすく表現する読み上げることが可能となる。
【００４８】
このような音声合成装置は、例えば、図２に示すようなコンピュータシステム上に構築されるものである。
【００４９】
このコンピュータシステムは、本体部２０１と、キーボード２０２と、ディスプレイ２０３と、入力装置(マウス)２０４と、スピーカ２０８と、を含むテキスト入力と音声出力が可能なシステムである。
【００５０】
図１の言語解析用辞書１０３、テキスト変換規則テーブル１０５、構文パターン韻律制御データベース１０７、音声素片データベース１１１は、本体部２０１にセットされるＣＤ−ＲＯＭ２０９内、本体部２０１が内蔵するディスク(メモリ)２０５内、あるいは、回線２０７で接続された他のシステムのディスク２０６内に格納される。
【００５１】
以下、図４〜図７に示されるテキスト変換規則の具体例および構文パターンの具体例を用いて、テキスト変換処理や韻律制御処理の内容を詳細に説明する。
【００５２】
図４は、テキスト変換規則テーブル１０５のテキスト変換規則の一例を示す図である。
【００５３】
図中の参照符号４０１が、１つのテキスト変換規則を構成している。参照符号４０２が変換すべき単語列の言語情報のパターン部分であり、テキスト変換規則４０１の例では、品詞が‘名詞’である単語が３つ連続するパターンを表す。
【００５４】
参照符号４０３は、言語情報パターン４０２に照合した部分を置き換える単語列を指定する。
【００５５】
ここで、単語列４０３の[$1]、[$2]、[$3]は、それぞれ、言語情報パターン４０２の‘[名詞],[名詞],[名詞]’の３つの言語情報パターンとそれぞれ照合した部分の言語情報を、[$1],[$2],[$3]の場所にコピーすることを示す。
【００５６】
例えば、「日本銀行券」という「日本」、「銀行」、「券」という３つの名詞からなる単語列は、テキスト変換規則４０１によって、「日本の銀行の券」という単語列に置き換えられる。
【００５７】
図５（ａ），（ｂ）はそれぞれ、構文パターンデータベース１０７の構文パターンの１例を示す図である。
【００５８】
図５（ａ）の参照符号５０１および図５（ｂ）の参照符号５０２はそれぞれ、１つの構文パターンを示している。
【００５９】
図５（ａ）において、参照符号５０１Ａは、単語列の言語情報のパターンである。‘[Region],[Agent],[Group]’は、それぞれ、意味情報を表す。言語解析結果の単語列の言語情報がもつ意味情報が、言語情報パターン５０１Ａに記述された意味情報と一致する場合に、構文パターンと言語解析結果が照合する。また、参照符号５０１Ｂは、構文識別情報である。
【００６０】
構文パターン５０１Ａに照合する単語列は、構文の構造として、文節‘[Region][の]’が文節‘[Group]’に係り、文節‘[Agent][の]’が文節‘[Group]’に係る。この関係を図５の中では、曲線の矢印によって表している。
【００６１】
一方、図５（ｂ）の参照符号５０２は、構文パターンのもう１つの例である。言語情報パターン５０２Ａに照合する単語列は、構文の構造として、文節‘[Object][の]’が文節‘[Action][の]’に係り、文節‘[Action][の]’が文節‘[Action]’に係る。
【００６２】
意味情報での区別を考慮しなければ、言語情報パターン５０１Ａと５０２Ａは、同じパターンであるが、単語の意味情報を考慮すれば，それぞれの構文パターンに照合する単語列は、構文構造が異なる。よって、それぞれの表現を読み上げる際には、構文構造の違いが分かるようにイントネーションを使い分けて読み上げるのが望ましい。
【００６３】
例えば、「全国のユーザの会」の言語解析結果が、‘[全国:ニホン:名詞:Region][の:ノ:助詞:*][ユーザ:ユーザ:名詞:Agent][の:ノ:助詞:*][会:カイ:品詞:Group]’だとすると、構文パターン５０１と照合するので、この単語列に対しては構文識別情報５０１Ｂが付与される。
【００６４】
また、「情報の公開の制度化」の言語解析結果が、‘[情報:ジョーホー:名詞:Object][の:ノ:助詞:*][公開:コーカイ:サ変名詞:Action][の:ノ:助詞:*][制度化:セードカ:サ変名詞:Action]’だとすると、構文パターン５０２と照合するので、この単語列に対しては構文識別情報５０２Ｂが付与される。
【００６５】
図６は、「全国のユーザの会は、」の言語解析結果に対して、図７は、「情報の公開の制度化を」の言語解析結果に対して、それぞれの構文構造に応じて韻律パラメータが調整される様子を示す図である。なお、ここでは、調整される韻律パラメータとしてピッチパターンだけを図中に示してある。
【００６６】
まず、図６では、言語解析解析結果６０１が、構文パターン５０１と合致するので、構文識別情報としてID-1が与えられる。
【００６７】
次に、韻律生成部１０８が、言語情報の読み、アクセントなどからアクセント句ごとにピッチパターン６０２が生成される。韻律制御部１０９は、構文識別情報ID_1に対応する韻律パラメータの制御情報を韻律制御データベース１１０取得し、ピッチパターン６０２を調整する。
【００６８】
韻律制御パラメータ（韻律制御情報）としては，例えば、ピッチ変化の最大値と最小値、および、それらの値の時間に対する変化率がある。つまり、これらを調整すれば、読み上げ音声の韻律を変化させることができる。ピッチパターン６０２は、韻律制御情報にしたがって、図６の下側に示されるようなピッチパターン（音声の高低のパターン）６０３のように変形される。
【００６９】
つまり、図６の下側において、調整後のピッチパターン６０３の上下に記載されている点線の直線Ａ（Ａ１，Ａ２），Ｂ（Ｂ１，Ｂ２）が、ピッチ（音声の高低）の最大値と最小値を規定している。つまり、点線の直線Ａと直線Ｂに挟まれた領域がピッチの変動可能幅（ダイナミックレンジ）となる。上限値Ａと下限値Ｂの値を、一つのアクセント句（文節）と次のアクセント句（文節）とで異ならせたり、あるいは、所定の値に設定することで、調整後のピッチパターンの相対的な位置を異ならせたり、あるいは、なめらかに連続させたりすることが可能となる。
【００７０】
また、点線の直線ＡとＢの傾き（時間に対する変化率）は、音声の高低の変化の割合を示しており、この傾きにより、イントネーションの微調整を行える。
【００７１】
図６の場合には、「全国の」というアクセント句（文節）と、「ユーザーの」というアクセント句（文節）間のピッチパターンは、不連続性が強調されるように調整されている（Ａ１とＡ２，Ｂ１とＢ２は不連続となるように調整されている）。
【００７２】
また、「ユーザーの」というアクセント句（文節）と「会は、」というアクセント句（文節）との間は、なめらかに連続するピッチパターンとなるように調整されている（ピッチの上限値を示す値Ａ２，下限値を示す値Ｂ２はともに連続しており、それらの時間に対する変化率も、ほぼ一定で変化しない）。こうすることで、「全国の、」と「ユーザーの」との間では、意味的な不連続が明らかになり、「全国の」と「会」，および「ユーザーの」と「会」との意味的結合が明らかになる。つまり、構文の意味にもとづく、複数の文節に渡るバランスのとれた韻律制御が可能となる。
【００７３】
一方、図７では、図６と同様の過程により、構文識別情報ID-2に対応した韻律制御情報により調整されたピッチパターン７０３が得られる。
【００７４】
つまり、図７では、「情報の」というアクセント句（文節）と、「公開の」というアクセント句（文節）との間で、また、「公開の」というアクセント句（文節）と「制度化を」というアクセント句（文節）との間で、共に、ピッチの上限値の変化を示す直線（Ａ１），下限値の変化を示す直線（Ｂ１）は、なめらかに連続している。つまり、ピッチが連続するように、Ａ１，Ｂ１の値と、その時間に対する変化率の２つの韻律パラメータを微調整する。
【００７５】
これにより、「情報の」、「公開の」、「制度化を」という各アクセント句（文節）間の意味的な連続性を考慮した、適正な韻律形成が可能となる。
【００７６】
このように、表層の言語表現としては、３つの名詞が助詞の‘の’ではさまれた形式の単語列であるが、各名詞の意味関係から、言語解析結果６０１と言語会席結果７０１の構文構造が異なっており、その違いをピッチパターンの違いとして表現することが可能である。よって、内容を正確にわかりやすく伝える合成音声を提供することができる。以上、図６，図７を用いて韻律パラメータの調整処理について説明した。
【００７７】
このように、本実施の形態の音声合成装置では、言語解析に基づいて付与された意味ラベルの配列に着目して構文パターンを解析し、音律と基本韻律を生成し、さらに、韻律パラメータを調整して、文章の意味に着目したバランスを考慮した韻律を形成する。
【００７８】
ここで、構文パターン照合処理および韻律パラメータの調整処理における判断の具体的な内容についてまとめておく。
【００７９】
構文パターンの照合に際しては、下記の▲１▼〜▲５▼の判断を行う。
▲１▼Ａ，Ｂ，Ｃをそれぞれ名詞とした場合、「Ａ」の「Ｂ」の「Ｃ」、という構文パターンが存在するかを判定する。
▲２▼上記判断ステップで、該当する構文パターンがテキスト中に存在する場合、「Ａ」は”地域”を意味する名詞であり、「Ｂ」は”動作の主体”を意味する名詞であり、「Ｃ」は”グループの種別”を意味する名詞であるかを判定する。
▲３▼上記▲２▼の判断の結果、該当するテキストの構文パターンが存在する場合には、構文識別情報”ＩＤ１”を付与する。
▲４▼上記▲２▼の判断ステップで、該当するパターンがテキスト中に存在しない場合には、次に、「Ａ」は"動作の対象（目的語）”を意味する名詞であり、「Ｂ」は”動作”を意味する名詞であり、同じく「ｃ」も”動作”を意味する名詞であるかを判定する。
▲５▼上記▲４▼の判断の結果、該当するテキストの構文パターンが存在する場合には、構文識別情報”ＩＤ２”を付与する。
【００８０】
また、韻律パラメータの制御処理にあたっては、以下の▲１▼および▲２▼の判断を実施する。
▲１▼構文識別情報”ＩＤ１”が付与された構文パターンについては、「Ａの」という部分のピッチパターンと、「Ｂの」という部分のピッチパターンとの相互の連続性が断ち切られるように前記韻律制御パラメータを調整し、「Ｂの」という部分のピッチパターンと、「Ｃ」という部分のピッチパターンとの相互の連続性が確保されるように前記韻律制御パラメータを調整する。
▲２▼構文識別情報”ＩＤ２”が付与された構文パターンについては、「Ａの」という部分のピッチパターンと、「Ｂの」という部分のピッチパターンとの相互の連続性が確保されるように前記韻律制御パラメータを調整し、さらに、「Ｂの」という部分のピッチパターンと、「Ｃ」という部分のピッチパターンとの相互の連続性が確保されるように前記韻律制御パラメータを調整する。
【００８１】
このようにして、文の内容がわかりやすくより正確に伝わる合成音声が実現される。
【００８２】
【発明の効果】
以上説明したように本発明によれば、書き言葉で書かれた入力テキストを話し言葉の表現に置き換え、さらに、文の構文を反映して読み上げることで、文の内容がわかりやすくより正確に伝わる合成音声を実現することができる。
【図面の簡単な説明】
【図１】本発明の実施の形態にかかる音声合成装置の構成を示すブロック図
【図２】本発明を実施するためのコンピュータシステムの一例を示す図
【図３】本発明の実施の形態にかかる音声合成装置の主要な動作を説明するためのフロー図
【図４】本発明の実施の形態にかかる音声合成装置のテキスト変換規則の一例を示す図
【図５】（ａ）本発明の実施の形態にかかる音声合成装置の構文パターンデータベースの内容の一例を示す図
（ｂ）本発明の実施の形態にかかる音声合成装置の構文パターンデータベースの内容の他の例を示す図
【図６】本発明の実施の形態にかかる音声合成装置での構文に応じた韻律制御処理の一例を説明するための図
【図７】本発明の実施の形態にかかる音声合成装置での構文に応じた韻律制御処理の他の例を説明するための図
【符号の説明】
１０１入力部
１０２言語解析部
１０３言語解析用辞書
１０４変換処理部
１０５テキスト変換規則テーブル
１０６構文パターン照合部
１０７構文パターンデータベース
１０８韻律生成部
１０９韻律制御部
１１０韻律制御データベース
１１１波形合成部
１１２音声素片データベース
１１３出力部
１１５テキスト変換手段
１１６構文解析手段
１１７韻律制御手段

Claims

入力テキストを言語解析して、複数の単語又は文節からなる単語列に分解し、かつ、前記複数の単語毎に又は前記複数の単語の少なくとも２つからなる文節毎に意味情報を含む言語情報を付与し、前記複数の単語または文節に付与された意味情報の並び方を出力する言語解析手段と、
複数の単語間または文節間が意味的に連続か不連続かを示す意味的な連続性の情報を含む構文構造と、複数の単語または文節の意味情報の並び方とが対応付けられている構文パターンを格納する構文パターンデータベースと、
前記構文パターンデータベースを参照して、この言語解析手段から出力される前記単語または文節の意味情報の並び方と対応する、単語間または文節間の意味的な連続性の情報を含む構文構造を構文識別情報として出力する構文解析手段と、
前記構文識別情報に対応する韻律制御情報を用いて、構文構造を反映した韻律情報の制御を行う韻律制御手段と、
前記韻律制御手段によって生成された韻律情報にしたがって、音声波形を合成する波形合成手段と、
を有することを特徴とする音声合成装置。
請求項１において、
前記韻律制御手段は、前記構文解析手段から出力される構文識別情報において、一つの単語又は文節の表現が、その単語又は文節に続く次の単語又は文節の表現に意味的に連続である場合には、前記一つの単語又は文節のピッチパターンと前記次の単語又は文節のピッチパターンとの連続性の確保を重視した韻律情報を生成し、
一方、前記構文解析手段から出力される構文識別情報において、前記一つの単語又は文節の表現が、その単語又は文節に続く次の単語又は文節の表現に意味的に不連続である場合には、前記一つの単語又は文節のピッチパターンと前記次の単語又は文節のピッチパターンの不連続性を強調するような韻律情報を生成することを特徴とする音声合成装置。
請求項１または請求項２において、
前記韻律制御情報は、韻律を調整するためのパラメータとして、各文節のピッチパターンのダイナミックレンジの上限値および下限値、および、その上限値および下限値の時間に対する変化率、を具備することを特徴とする音声合成装置。
入力テキストを言語解析して、複数の単語又は文節からなる単語列に分解し、かつ、前記複数の単語毎に又は前記複数の単語の少なくとも２つからなる文節毎に意味情報を含む言語情報を付与し、前記複数の単語または文節に付与された意味情報の並び方を出力する言語解析手段と、
前記言語解析結果について、書き言葉から話し言葉への変換を施すテキスト変換手段と、
複数の単語間または文節間が意味的に連続か不連続かを示す意味的な連続性の情報を含む構文構造と、複数の単語または文節の意味情報の並び方とが対応付けられている構文パターンを格納する構文パターンデータベースと、
前記構文パターンデータベースを参照して、前記単語または文節の意味情報の並び方と対応する、単語間または文節間の意味的な連続性の情報を含む構文構造を構文識別情報として出力する構文解析手段と、
前記言語解析結果に含まれる前記言語情報に基づいて、音韻情報および韻律パラメータを含む韻律情報を生成して出力する韻律生成手段と、
前記韻律生成手段の出力に対して、前記構文識別情報に対応する韻律制御情報を用いた、構文構造を反映した韻律情報の生成処理を実行し、前記韻律パラメータの調整を行う韻律制御手段と、
前記韻律制御手段によって調整された前記韻律パラメータを含む前記韻律情報にしたがって、音声波形を合成する波形合成手段と、
を有することを特徴とする音声合成装置。
請求項４において、
前記テキスト変換手段は、
前記言語解析結果と照合可能であり、単語毎の表記，読み，品詞，意味情報などを含む単語単位の、あるいは文節単位の言語情報パターンと、
前記言語情報パターンに対応する変換後の単語単位の、あるいは文節単位の言語情報列と、を変換規則の１単位として保持している、テキスト変換規則テーブルと、
このテキスト変換規則テーブルの変換規則と、入力された言語解析結果とを照合し、一致した部分については、前記変換規則に指定される変換後の言語情報列に置換する変換処理部と、を具備することを特徴とする音声合成装置。
請求項４において、
前記韻律生成手段は、
前記構文解析手段により構文識別情報を付与された言語解析結果に含まれる言語情報に基づいて、読みに応じた音韻列，ピッチ，パワー，音韻持続時間，ポーズ長，話速変化の少なくともいずれかを対象とする韻律パラメータを含む基本的な韻律情報を生成する機能を具備し、
また、前記韻律制御手段は、
文節間の韻律パラメータを相対的に調整するための韻律制御情報を保持する韻律制御情報データベースと、
前記韻律生成部で生成された文節ごとの韻律情報を、前記韻律制御情報データベースの韻律制御情報に従って、修正する韻律制御部と、を具備することを特徴とする音声合成装置。
請求項６において、
前記韻律制御情報データベースは、前記構文データベースの構文パターンにより一意に与えられる前記構文識別情報に対応付けられた韻律制御情報を保持することを特徴とする音声合成装置。
請求項４に記載の音声合成装置における、前記テキスト変換手段で用いられるテキスト変換規則と、前記構文解析手段で用いられる構文データベースと、前記韻律制御手段で用いられる韻律制御情報データベースと、を有することを特徴とする記録媒体。
入力テキストを言語解析して、複数の単語又は文節からなる単語列に分解し、かつ、前記複数の単語毎に又は前記複数の単語の少なくとも２つからなる文節毎に意味情報を含む言語情報を付与し、前記複数の単語または文節に付与された意味情報の並び方を出力する第１のステップと、
複数の単語間または文節間が意味的に連続か不連続かを示す意味的な連続性の情報を含む構文構造と、複数の単語または文節の意味情報の並び方とが対応付けられている構文パターンを格納する構文パターンデータベースを参照して、前記第１のステップにおいて出力される前記単語または文節の意味情報の並び方と対応する、単語間または文節間の意味的な連続性の情報を含む構文構造を構文識別情報として出力する第２のステップと、
前記構文識別情報に対応する韻律制御情報を用いて、構文構造を反映した韻律情報の制御を行う第３のステップと、
前記第３のステップにおいて生成された韻律情報にしたがって、音声波形を合成する第４のステップと、
を含むことを特徴とする音声合成方法。
請求項９において、
前記構文パターンデータベースが格納する構文パターンは、
前記複数の単語又は文節の意味情報の並び方が、Ａ、Ｂ、Ｃをそれぞれ名詞とした場合、名詞Ａ、助詞の、名詞Ｂ、助詞の、名詞Ｃと複数の単語が並ぶ構文パターンであって、前記Ａは、地域を意味する名詞であり、前記Ｂは、動作の主体を意味する名詞であり、前記Ｃは、グループの種別を意味する名詞である第１の構文パターンと、
前記複数の単語又は文節の意味情報の並び方が、Ａ、Ｂ、Ｃをそれぞれ名詞とした場合、名詞Ａ、助詞の、名詞Ｂ、助詞の、名詞Ｃと複数の単語が並ぶ構文パターンであって、前記Ａは、動作の対象を意味する名詞であり、前記Ｂは、動作を意味する名詞であり、前記Ｃは、動作を意味する名詞である第２の構文パターンとを含み、
前記第２ステップにおいて、
前記第１のステップで出力された前記複数の単語又は文節に付与された意味情報の並び方が、名詞Ａ、助詞の、名詞Ｂ、助詞の、名詞Ｃと並ぶ場合には、前記第１の構文パターンに該当するか否かを判定し、
第１の構文パターンに該当する場合には、「Ａの」と「Ｂの」とが意味的に不連続であり、「Ｂの」と「Ｃ」とが意味的に連続である構文構造を構文識別情報として出力し、
第１の構文パターンに該当しない場合には、第二の構文パターンに該当するか否かを判定し、
第二の構文パターンに該当する場合には、「Ａの」と「Ｂの」とが意味的に連続であり、「Ｂの」と「Ｃ」とが意味的に連続である構文構造を構文識別情報として出力する、
音声合成方法。