JP4053440B2

JP4053440B2 - テキスト音声合成システム及び方法

Info

Publication number: JP4053440B2
Application number: JP2003049917A
Authority: JP
Inventors: 健太郎村瀬; 伸之片江; 一宏渡辺
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-02-26
Filing date: 2003-02-26
Publication date: 2008-02-27
Anticipated expiration: 2023-02-26
Also published as: JP2004258406A

Description

【０００１】
【発明の属する技術分野】
本発明は、テキスト文字列を入力として合成音声を生成するテキスト音声合成システム及び方法に関する。
【０００２】
【従来の技術】
昨今のコンピュータ技術の急速な伸展に伴って、音声を入出力に用いるアプリケーションが多々実用化されている。かかる音声を用いるアプリケーションにおいては、特に漢字と仮名が混在しているようなテキストデータに基づいて、いかに自然な合成音声を生成することができるか、が重要な技術の１つとなっている。
【０００３】
自然な合成音声を生成するために、例えば（特許文献１）においては、入力されるテキストデータを構文解析して、合成音声として読み上げる際のポーズ位置を決定し、句読点等における読み上げポーズを調整することによって、人間が読み上げた状況に近い合成音声を生成する方法が開示されている。
【０００４】
しかし、上述した方法だけでは、読み上げ音声の高さやイントネーションを表す韻律パターンの不自然さを解消することはできない。そこで、声の高さやイントネーション等の韻律パターンを表す物理量であるピッチパターン（基本周波数の時系列変化）を調整することによって、自然な合成音声を生成する方法が考えられている。
【０００５】
すなわち、ピッチパターンが平坦であると、合成音声に抑揚がなくなり、ロボットのような一様な喋り口調となり、韻律的に不自然になる。人間が発声するような自然な韻律を合成音声上で実現するためには、ある程度抑揚をつけた適切なピッチパターンを生成する必要がある。
【０００６】
人間のピッチパターンを表す簡易なモデルとしては、従来、文頭から文末にかけて緩やかに降下するピッチの変化を表すフレーズ成分に、各語句のアクセント型に応じて変化するピッチパターンを表すアクセント成分を重畳するモデルが広く用いられている。このモデルでは1フレーズの長さが長くなるとフレーズの建て直しを行い、ピッチが非常に緩やかに下がって一葉な喋り口調になるのを防いでいる。具体的には、フレーズの建て直し位置で文頭と同じように再びピッチを高くすることで抑揚をつけている。
【０００７】
このようなフレーズの建て直しが生じる位置は、文節間の係り受け関係に深い関連があると考えられており、入力されたテキストデータから係り受け関係を解析して、各文節の係り先文節までの距離に応じてフレーズの建て直し位置や量を決めるといったピッチパターン制御が行われている。その結果、係り受け解析が正しく行われている場合には、人間が発声したような自然な韻律が実現されている。
【０００８】
かかるテキスト音声合成技術としては、例えば（特許文献２）において、文節間の係り受け構造を解析するとともに、比較的長い単位で形態素解析を行うことにより、文節内のアクセント付与やポーズ付与の精度を高めることができる方法が開示されている。
【０００９】
また、（特許文献３）においては、文節間の係り受けが複数存在する場合であっても、テキストの意味内容を考慮することによって自然な韻律制御を行う方法が開示されている。
【００１０】
【特許文献１】
特開平１１−２８８２９２号公報
【００１１】
【特許文献２】
特開平１１−３４４９９８号公報
【００１２】
【特許文献３】
特開２００２−１４９１８０号公報
【００１３】
【発明が解決しようとする課題】
しかし、現状では、文節間の係り受けを解析する精度自体に限界があり、必ずしも正しい解析結果が得られるとは限らない。例えば、▲１▼「小包を早急に郵送する」、及び▲２▼「和歌山を先頭に渋滞する」という２つの文章について考えると、この２つの文は、各文節のモーラ数、アクセント型、品詞や活用等の文法的属性は等しいものの、▲１▼の第１文節「小包を」は第３文節「郵送する」に係っているのに対して、▲２▼の第１文節「和歌山を」は直後の第２文節「先頭に」に係っている。すなわち、文法的属性が全く同一である場合であっても、文節の係り受け関係が異なる場合が頻繁に発生する。
【００１４】
このように、文脈に基づいて全体の意味情報を理解していないと、文節間の係り受け状態を正しく解析できない文章である場合には、誤った解析結果が出力されるおそれがある。例えば、▲２▼の第１文節「和歌山を」が第３文節「渋滞する」に係るという誤った解析結果が出力され、第２文節でフレーズの建て直しが生じた場合を考えると、意味的にはつながりのある位置にフレーズの建て直しによる不連続なピッチの上昇が現われ、非常に不自然な韻律パターンが生成されることになる。
【００１５】
以上のように、係り受け関係の解析結果に基づいてピッチパターンを制御する場合、正しい解析結果が得られなければ、非常に不自然な韻律パターンを生成してしまうおそれがあるという問題点があった。
【００１６】
本発明は、上記問題点を解決するために、係り受け解析の誤りによる韻律パターンの自然性の劣化を軽減し、高品質な韻律を生成するテキスト音声合成システム及び方法を提供することを目的とする。
【００１７】
【課題を解決するための手段】
上記目的を達成するために本発明にかかるテキスト音声合成システムは、テキスト文字列が入力されるテキスト文字列入力部と、入力されたテキスト文字列に関する言語情報を解析する言語処理部と、解析された言語情報に基づいて韻律パターンを生成する韻律生成部と、解析された言語情報と生成された韻律パターンに基づいて音声波形を合成する音響処理部とを含むテキスト音声合成システムであって、言語処理部が、入力されたテキスト文字列を形態素解析し、形態素列を求める形態素解析部と、解析された形態素列に基づいて文節を構成し、文節間の係り受けに関する情報を求める係り受け情報解析部と、形態素列又は文節間の係り受けに関する情報、あるいはその両方に基づいて、文節間の係り受けに関する情報の信頼度を設定する係り受け信頼度設定部をさらに含み、係り受けに関する情報の信頼度に応じて、韻律生成部において韻律パターンを修正することを特徴とする。
【００１８】
かかる構成により、文節間の係り受けに関する情報の信頼度を取得することができ、信頼度が高い場合には係り受けに関する情報に基づいた抑揚のはっきりした人間の発声に近い自然な韻律パターンで音声を合成し、信頼度が低い場合には抑揚を少し抑えることにより、誤った位置においてフレーズの建て直しが生じている場合であっても、ピッチ変化を少なく抑えることができ、韻律パターンの不自然さを軽減することが可能となる。
【００１９】
また、本発明にかかるテキスト音声合成システムは、形態素列と文節間の係り受けに関する情報を修正できる言語情報修正部をさらに含み、係り受け信頼度設定部において、言語情報修正部における修正内容に基づいて、係り受けに関する情報の信頼度を更新することが好ましい。
【００２０】
かかる構成とすることによって、言語処理部における誤りを修正することでより自然な韻律パターンで合成音声を生成することができるとともに、係り受け関係の修正部分をフィードバックすることによって、合成音声で読み上げるコンテンツの文章構造の特徴に適応した係り受け関係の信頼度を設定することができる。
【００２１】
また、本発明にかかるテキスト音声合成システムは、言語処理部において、形態素解析部が、入力されたテキスト文字列に対応する複数の形態素列の候補とそれに対する評価値を求め、形態素列の候補に対する評価値に基づいて出力する形態素列を決定し、係り受け信頼度設定部が、出力された形態素列に対する評価値に応じて信頼度を設定することが好ましい。形態素解析における誤りは、係り受け解析の誤りに直接影響するため、形態素解析段階における誤りに関する情報を評価値として得ることによって、係り受け解析の誤りを間接的に推定することができるからである。
【００２２】
また、本発明にかかるテキスト音声合成システムは、言語処理部において、係り受け情報解析部が、入力されたテキスト文字列に対して複数の係り受けに関する情報の候補とそれに対する評価値を求め、係り受けに関する情報の候補に対する評価値に基づいて出力する係り受けに関する情報を決定し、係り受け信頼度設定部が、係り受けに関する情報に対する評価値に応じて信頼度を設定することが好ましい。係り受け解析の評価値に基づいて、係り受けの信頼度を直接推定することができるからである。
【００２３】
また、本発明にかかるテキスト音声合成システムは、係り受け信頼度設定部が、形態素解析部において解析された複合名詞の数によって、係り受け信頼度を設定することが好ましい。
【００２４】
ラジオのニュース原稿等のように実際に人間が喋ることを想定した口語体の原稿に比較して、新聞等の文語体の原稿は少ないスペースで多くの情報を伝える必要があり、修飾語を名詞化して複合名詞を多用したり、複雑な文章構造を多用する傾向が強いため、複合名詞の出現頻度を把握することによって、入力されたテキスト文字列の係り受け関係の複雑さを推定することができるからである。
【００２５】
また、本発明にかかるテキスト音声合成システムは、係り受け信頼度設定部が、入力されたテキスト文字列における１文章の長さによって係り受け信頼度を設定することが好ましい。短い文章は、必然的に係り受け構造が単純になるが、長い文章になるほど、複雑な係り受け構造が含まれる可能性が高まるため、文章の長さによって、係り受けの信頼度を推定することができるからである。
【００２６】
また、本発明は、上記のようなテキスト音声合成システムの機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、テキスト文字列が入力される工程と、入力されたテキスト文字列に関する言語情報を解析する工程と、解析された言語情報に基づいて韻律パターンを生成する工程と、解析された言語情報と生成された韻律パターンに基づいて音声波形を合成する工程とを含むテキスト音声合成方法であって、言語情報を解析する工程が、入力されたテキスト文字列を形態素解析し、形態素列を求める工程と、解析された形態素列に基づいて文節を構成し、文節間の係り受けに関する情報を求める工程と、形態素列又は係り受けに関する情報、あるいはその両方に基づいて、係り受けに関する情報の信頼度を設定する工程をさらに含み、設定される係り受けに関する情報の信頼度に応じて、韻律パターンを修正するテキスト音声合成方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【００２７】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、文節間の係り受けに関する情報の信頼度を取得することができ、信頼度が高い場合には係り受けに関する情報に基づいた抑揚のはっきりした人間の発声に近い自然な韻律パターンで音声を合成し、信頼度が低い場合には抑揚を少し抑えることにより、誤った位置においてフレーズの建て直しが生じている場合であっても、ピッチ変化を少なく抑えることができ、韻律パターンの不自然さを軽減することができるテキスト音声合成システムを実現することが可能となる。
【００２８】
【発明の実施の形態】
（実施の形態１）
以下、本発明の実施の形態１にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図１は本発明の実施の形態１にかかるテキスト音声合成システムの構成図である。
【００２９】
図１において、１はテキスト文字列が入力されるテキスト文字列入力部を示しており、合成音声で読み上げるテキスト文字列を入力する部分である。入力の方法は特に限定されるものではなく、テキストデータファイルとして入力されても良いし、キーボード等の入力媒体を用いて直接打鍵されるものであっても良い。
【００３０】
２はテキスト文字列入力部１において入力されたテキスト文字列に関する言語情報を処理する言語処理部を示している。言語処理部２においては、入力されたテキスト文字列について、読みに関する情報、アクセントに関する情報、文節間の係り受けに関する情報等を解析して出力する。
【００３１】
すなわち、図１に示すように、言語処理部２は、入力されたテキスト文字列から形態素列を生成し、その読みに関する情報、アクセントに関する情報、品詞や活用等の文法情報等を求める形態素解析部３と、形態素解析部３で生成された形態素列と文法情報から文節を構成し、文節間の係り受け情報を求める係り受け情報解析部４と、形態素解析部３又は係り受け情報解析部４、あるいはその両方の出力結果に基づいて係り受けの信頼度を設定する係り受け信頼度設定部５とで構成されている。
【００３２】
形態素解析部３における形態素解析方法については、特に限定されるものではなく、従来技術として開示されているどのような方法を用いても良い。同様に、係り受け情報解析部４において用いられる文節間の係り受けに関する情報の求め方についても、特に限定されるものではなく、従来用いられている方法であれば何でも良い。係り受け信頼度設定部５における処理については、処理の流れとともに後述する。
【００３３】
そして、６は言語処理部２から出力される読み、アクセント型、係り受け情報、あるいは後述する係り受けに関する信頼度に基づいて韻律パターンを生成する韻律生成部を示しており、７は韻律生成部６から出力されるピッチパターンと読みに関する情報に基づいて合成波形を生成する音響処理部を示している。
【００３４】
次に、本発明の実施の形態１にかかるテキスト音声合成システムを実現するプログラムの処理の流れについて説明する。図２に本発明の実施の形態１にかかるテキスト音声合成システムを実現するプログラムの処理の流れ図を示す。また、具体的な処理の内容を明確にするために、▲１▼「小包を早急に郵送する。」及び▲２▼「和歌山を先頭に渋滞する。」の２つのテキスト文字列を入力する場合に関する具体例も示す。
【００３５】
図２において、まずテキスト文字列が入力される（ステップＳ２０１）。ここでは、▲１▼「小包を早急に郵送する。」及び▲２▼「和歌山を先頭に渋滞する。」の２つのテキスト文字列が入力される。
【００３６】
次に、入力されたテキスト文字列に対して形態素解析を行い、形態素列と、その読み、アクセント、品詞や活用等の文法情報を取得する（ステップＳ２０２）。そして、形態素解析の結果に基づいて、文節間の係り受け関係の解析を行う（ステップＳ２０３）。
【００３７】
入力されたテキスト文字列それぞれに対して、以下に示すような係り受け関係の解析結果が得られたものとする。テキスト文字列▲１▼については、▲１▼「こづつみお（２）さっきゅーに（１）ゆーそーする」と、テキスト文字列▲２▼については、▲２▼「わかやまお（２）せんとーに（１）じゅーたいする」と、係り受け関係が解析される。ここで、括弧内の数字は、左の文節の係り先文節まで文節単位で表した距離を示している。
【００３８】
このような係り受け解析の結果を検討すると、テキスト文字列▲１▼については係り受け解析結果は正しいものと考えられる。しかし、テキスト文字列▲２▼については、本来、第１文節「わかやまお」が直後の文節「せんとーに」に係るべきであり、解析結果が誤っているものと考えられる。
【００３９】
このように、各文節のモーラ数、アクセント型、品詞等、言語的情報が等しい２つのテキスト文字列について係り受け解析を実行した場合であっても、係り受けの形態が異なる場合が多々あり、文脈や意味内容を理解していない場合には、正しい係り受け解析結果を得ることはできない。したがって、現状では、このような係り受け解析の誤りを１００％回避することはできない。
【００４０】
そこで、係り受け解析の結果を用いて係り受けの信頼度を求める（ステップＳ２０４）。例えば、係り受け解析の手段が、生起確率を最大にする係り受け関係を解として求める方法であった場合、係り受けの生起確率をそのまま信頼度として利用することができる。例えば、係り受けの生起確率が図３に示すような値として求まっている場合を想定する。この場合、第１文節直後の係り受け解析の信頼度は６０％と設定できるし、第２文節直後の係り受け解析の信頼度は１００％と設定できる。
【００４１】
次に、係り受け関係とその信頼度に基づいて、韻律パターンを生成する（ステップＳ２０５）。例えば、韻律生成規則が次のように与えられていたものと想定する。すなわち、フレーズ成分を３角形のモデルとして表し、頂点のピッチをＨｐ（Ｈｚ）とする。そして、係り先の文節までの距離が２以上の文節境界において、フレーズ成分の建て直しを行う。
【００４２】
ここで、フレーズ成分の建て直しとは、文頭から始まる３角形のピッチパターンに対して、建て直しを行う文節境界において、その文節境界から始まる別の３角形のピッチパターンを重ね合わせることで、建て直しを行う文節境界におけるピッチを高めに修正する処理を意味している。人間の発話においては、一般に右下がりに、すなわち読みはじめのピッチが高く、時間が経過するにつれてピッチが次第に低下していくというのが基本的なピッチパターンであるが、建て直しを行う文節境界において新たなフレーズ成分を重ね合わせることによって、建て直しを行う文節境界におけるピッチが高めに修正され、長文でも抑揚のある自然な韻律パターンを生成することができる。
【００４３】
当該韻律生成規則に従って、係り受け解析の信頼度を考慮することなく韻律パターンを生成すると、図４（ａ）に示すように、第２文節においてフレーズの建て直しが生じる。なお、図４（ａ）〜（ｃ）において、５１はフレーズ成分のピッチパターンを示している。
【００４４】
図４（ａ）に示すように、テキスト文字列▲１▼については、当該韻律パターンで特に問題は生じないものと考えられる。しかし、図４（ｂ）に示すようにテキスト文字列▲２▼においては、本来、「わかやまおせんとーに」というフレーズで次第にピッチが下がっていくのが自然な韻律であるにもかかわらず、係り受け解析が誤っているため、第２文節でフレーズの建て直しが発生し、「せんとーに」の部分でピッチが急激に上昇し、不自然な韻律パターンになっている。
【００４５】
そこで、係り受けの信頼度を考慮に入れると、図４（ｃ）に示すように、「せんとーに」のフレーズ成分がＨｐ×６０％となり、第１文節と第２文節の間における急激なピッチ変化を低減することができる。このように、信頼度の低い係り受け解析結果に対してフレーズの建て直し量を抑制し、抑揚を抑え目にすることで、急激なピッチ変化を低減することができ、韻律パターンの不自然さを軽減することができる。
【００４６】
なお、フレーズ成分の建て直しを行う位置については、上述した文節の境界のほか、様々な決定方法が考えられる。例えばテキスト文字列における句読点の位置であっても良いし、係り先への文節距離が所定のしきい値以上の文節境界のみで建て直しを実行するものであっても良い。
【００４７】
ここで、係り先への文節距離とは、係り受け解析結果の表示において示されている括弧内の数字、すなわち当該文節の係り先文節までの文節単位で表した距離を意味する。そして、例えば所定のしきい値が‘３’である場合には、当該文節の係り先文節までの距離が３文節以上離れていると解析された文節境界において、上述したようなフレーズ成分の建て直しを実行することになる。
【００４８】
最後に、形態素解析により求まった読み情報と、係り受け信頼度に基づいて修正したピッチパターンに基づいて、出力するべき合成音声を生成する（ステップＳ２０６）。
【００４９】
以上のように本実施の形態１によれば、係り受け解析に関する信頼度を求め、その信頼度に基づいてピッチパターンを制御することによって、係り受け解析を誤った場合であっても生成された韻律の不自然さを軽減することが可能となる。
【００５０】
なお、本実施の形態１においては、韻律パターンの生成処理において、フレーズ成分に対応するピッチパターンの修正を行っているが、同様の処理をアクセント成分に対応するピッチパターンに行うことによっても同様の効果が期待できる。
【００５１】
（実施の形態２）
以下、本発明の実施の形態２にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図５は本発明の実施の形態２にかかるテキスト音声合成システムの構成図である。本実施の形態２の構成は、実施の形態１に機能を付加したものであることから、同一の機能を有する部分については図１と同一の番号を付することで詳細な説明を省略する。
【００５２】
実施の形態１と相違する点は、言語処理部２の結果を修正できる言語情報修正部８を設け、係り受け信頼度設定部５において言語情報修正部８の修正結果に基づいて逐次係り受け信頼度を更新する点である。
【００５３】
すなわち、言語情報修正部８では、形態素解析部３及び係り受け情報解析部４の出力結果を受け取り、形態素列の解析において誤っている部分及び係り受け関係の解析において誤っている部分をそれぞれ修正し、修正した係り受け関係に関する情報を係り受け信頼度設定部５に出力する。また、韻律生成部６へ修正した形態素列の読み情報及び係り受け関係に関する情報を渡すことで、修正後の形態素列の読み情報及び係り受け情報を用いて韻律パターンを生成する。
【００５４】
例えば、修正前のテキスト文字列▲２▼に対する係り受け解析結果が、▲２▼「わかやまお（２）せんとーに（１）じゅーたいする（０）」であった場合、第１文節の係り先が誤っていると判断できることから、第１文節の係り先を直後の第２文節であるように修正することになる。結果として、修正後のテキスト文字列▲２▼に対する係り受け解析結果は、▲２▼「わかやまお（１）せんとーに（１）じゅーたいする（０）」となる。
【００５５】
係り受け信頼度設定部５では、言語情報修正部８の修正結果に応じて、逐次係り受け信頼度を更新する。具体的には、言語情報修正部８で何らかの修正が行われた場合は、現在処理中の入力テキストに限り、修正された文節の係り受け信頼度を１００％に設定する。また同時に、修正が生じた入力テキスト以後に入力されるテキストについては、同様の係り受け関係に対する信頼度を修正前よりも引き下げて設定する。
【００５６】
このように係り受け関係の信頼度を修正前よりも引き下げて設定するのは、修正が行われた文節は、誤った解析が行われた事実を示しており、そのような文節の係り受け解析結果は信頼性が低いと考えられるからである。
【００５７】
例えば、テキスト文字列▲２▼の場合、当初、第１文節（名詞＋助詞を）と第２文節（名詞＋に）について、その係り受け解析結果に６０％の信頼度が設定されていたものとする。そして、言語情報修正部８において第１文節に修正が行われた場合には、当該入力テキスト文字列▲２▼に関してのみ、第１文節の係り受け信頼度を１００％に設定する。
【００５８】
同時に、修正以後に入力されるテキストに対して、テキスト文字列▲２▼の第１文節と第２文節との関係と同様の関係である「前文節（名詞＋助詞を）＋後文節（名詞＋に）」という関係が現われた場合には、前回の係り受けの解析において誤りが含まれていたという事実を考慮し、例えば信頼度を６０％から５５％に引き下げて設定する。修正が行われなかった文節については、正しい結果が得られたということで、信頼度を上昇させる。また、信頼度は、過去に処理した同一の係り受け関係総数のうち修正が生じた割合として設定してもよい。
【００５９】
次に、本発明の実施の形態２にかかるテキスト音声合成システムを実現するプログラムの処理の流れについて説明する。図６に本発明の実施の形態２にかかるテキスト音声合成システムを実現するプログラムの処理の流れ図を示す。
【００６０】
図６において、まずテキスト文字列が入力され（ステップＳ６０１）、入力されたテキストから形態素列を生成し、その読み、アクセント、品詞や活用等の文法情報を求める形態素解析を行う（ステップＳ６０２）。
【００６１】
次に、形態素解析の結果から係り受け解析を行い（ステップＳ６０３）、係り受け解析結果の信頼度を設定する（ステップＳ６０４）。ここで、形態素解析結果及び係り受け解析結果に対して修正を行うか否かを判断する（ステップＳ６０５）。
【００６２】
何らかの修正が必要であると判断された場合は（ステップＳ６０５：Ｙｅｓ）、形態素解析結果及び係り受け関係に関する情報を修正し（ステップＳ６０６）、修正箇所に対応する係り受け関係の信頼度を更新する（ステップＳ６０７）。
【００６３】
次に、係り受け関係とその信頼度に基づいて、ピッチパターンを修正し、最終的な韻律パターンを生成する（ステップＳ６０８）。最後に、形態素解析における読み情報と生成された韻律パターンに基づいて合成音声を生成する（ステップＳ６０９）。
【００６４】
以上のように本実施の形態２によれば、言語情報修正部で修正が行われた箇所の係り受け関係の信頼度を逐次更新することで、合成音声で読み上げるコンテンツの文章構造に適応した信頼度の設定が可能となり、簡単な文章構造を有するコンテンツに対しては自然な韻律パターンを実現することができ、複雑な文章構造を有するコンテンツに対しては、韻律パターンの不自然さを軽減することができる。
【００６５】
（実施の形態３）
以下、本発明の実施の形態３にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図７は本発明の実施の形態３にかかるテキスト音声合成システムにおける言語処理部２の構成図である。本実施の形態３の構成は、実施の形態１における言語処理部２の他の構成例を示したものであり、実施の形態１と同一の機能を有する部分については、同一の番号を付することで詳細な説明は省略する。
【００６６】
本実施の形態３において、形態素解析部３は、入力されたテキスト文字列から生成される形態素列について、複数の候補を列挙する形態素列候補列挙部３１と、各形態素列の候補に対する評価値を算出する評価値算出部３２と、各形態素列の候補に対する評価値に基づいて最終的に出力する形態素列を決定する出力形態素列決定部３３から構成されている。係り受け信頼度設定部５は、出力形態素列決定部３３から、最終的に出力された形態素列に対する評価値を受け取り、その評価値に基づいて信頼度を設定する。
【００６７】
例えば、形態素列候補列挙部３１でｋ₁、ｋ₂、ｋ₃の３つの形態素列の候補が列挙され、評価値算出部３２では、３つの形態素列ｋ₁、ｋ₂、ｋ₃に対する評価値として、それぞれコストｃ₁＜ｃ₂＜ｃ₃が算出されているものとする。このとき、出力形態素列決定部３３では、コストを最小にする形態素列ｋ₁を選択し、形態素列ｋ₁を係り受け情報解析部４に出力する。
【００６８】
係り受け信頼度設定部５は、出力形態素列決定部３３からｋ₁のコストｃ₁を受け取り、コストに応じた信頼度を設定する。例えば、コストの逆数１／ｃ₁を信頼度と設定する。
【００６９】
このように、評価値として用いたコストの大きな形態素解析結果には誤りが含まれている可能性が高く、誤りを含む形態素列に対して行った係り受け解析結果も当然誤りを含むことが予想できることから、上述したように形態素解析の評価値に基づいて係り受けの信頼度を間接的に設定することが可能となる。
【００７０】
（実施の形態４）
以下、本発明の実施の形態４にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図８は本発明の実施の形態４にかかるテキスト音声合成システムにおける言語処理部２の構成図である。本実施の形態４の構成は、実施の形態１における言語処理部２の他の構成例を示したものであり、実施の形態１と同一の機能を有する部分については、同一の符号を付することで詳細な説明は省略する。
【００７１】
本実施の形態４において、係り受け解析部４は、形態素解析部３から出力される形態素列に対して複数の係り受け関係の候補を列挙する係り受け候補列挙部４１と、複数の係り受け関係候補に対する評価値をそれぞれ算出する係り受け評価値算出部４２と、係り受け関係の候補に対する評価値に基づいて最終的に出力する係り受け関係を決定する出力係り受け情報決定部４３から構成されている。
【００７２】
係り受け信頼度設定部５は、出力係り受け情報決定部４３から最終的に出力された係り受け関係に対する評価値を受け取り、その評価値に基づいて信頼度を設定する。
【００７３】
例えば、係り受け候補列挙部４１でｋ₁、ｋ₂、ｋ₃の３つの係り受け候補が列挙され、係り受け評価値算出部４２では、係り受け候補ｋ₁、ｋ₂、ｋ₃に対する評価値として、それぞれ係り受けの生起確率ｐ₁＜ｐ₂＜ｐ₃が算出されているものとする。このとき、出力係り受け情報決定部４３では、生起確率を最大にする係り受け関係ｋ₃を選択し、生起確率ｐ₃を係り受け信頼度設定部５に出力する。係り受け信頼度設定部５は、例えば受け取った生起確率ｐ₃をそのまま信頼度として設定すればよい。
【００７４】
（実施の形態５）
以下、本発明の実施の形態５にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図９は本発明の実施の形態５にかかるテキスト音声合成システムにおける言語処理部２の構成図である。本実施の形態５の構成は、実施の形態３における形態素解析部３に機能を追加したものである。実施の形態３と同一の機能を有する部分については、同一の番号を付することで詳細な説明を省略する。
【００７５】
形態素解析部３４は、出力形態素列決定部３３が出力する形態素列を受け取り、当該形態素列に含まれる複合名詞の数Ｎを計数する。係り受け信頼設定部５では、複合名詞計数部３４の結果を受け取り、信頼度を複合名詞の数Ｎに反比例する値、例えば１／Ｎに設定する。また、複合名詞の数Ｎと係り受けの正解率の関係Ｆ（Ｎ）を予め統計的に調査しておき、その値を信頼度として用いてもよい。
【００７６】
ラジオニュースの原稿等のように実際に人間が喋ることを想定した口語体の原稿に比較して、新聞等の文語体の原稿は限られたスペースで多くの情報を伝える必要があり、修飾語を名詞化して複合名詞を多用したり、複雑な文章構造を多用する傾向がある。そのため、本実施の形態５のように、複合名詞の出現頻度を信頼度の算出において考慮することによって、係り受け関係の信頼度を容易に推定することが可能となる。
【００７７】
（実施の形態６）
以下、本発明の実施の形態６にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図１０は本発明の実施の形態６にかかるテキスト音声合成システムにおける言語処理部２の構成図である。本実施の形態６の構成は、実施の形態３の形態素解析部３に機能を追加したものである。実施の形態３と同一の機能を有する部分については、同一の符号を付することで詳細な説明を省略する。
【００７８】
文章長測定部３５は、出力形態素列決定部３３が出力する形態素列を受け取り、１文章中に含まれるモーラ数Ｍ（音節数とほぼ等価となる）を計数する。また、モーラ数ではなく文節数Ｍ’を用いてもよい。
【００７９】
係り受け信頼設定部５では、文章長測定部３５の結果を受け取り、信頼度をモーラ数Ｍに反比例する値、例えば１／Ｍに設定する。また、モーラ数と係り受けの正解率の関係Ｆ（Ｍ）を予め統計的に調査しておき、その値を信頼度として用いても良い。
【００８０】
短い文章は、必然的に係り受け構造が単純になるが、長い文章になるほど、複雑な係り受け構造が含まれる可能性が高まる。したがって、本実施の形態６のように、文章の長さによって係り受けの信頼度を推定することが可能となる。
【００８１】
なお、本発明の実施の形態にかかるテキスト音声合成システムを実現するプログラムは、図１１に示すように、ＣＤ−ＲＯＭ１１２−１やフレキシブルディスク１１２−２等の可搬型記録媒体１１２だけでなく、通信回線の先に備えられた他の記憶装置１１１や、コンピュータ１１３のハードディスクやＲＡＭ等の記録媒体１１４のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【００８２】
また、本発明の実施の形態にかかるテキスト音声合成システムにより生成された〜データ等についても、図１１に示すように、ＣＤ−ＲＯＭ１１２−１やフレキシブルディスク１１２−２等の可搬型記録媒体１１２だけでなく、通信回線の先に備えられた他の記憶装置１１１や、コンピュータ１１３のハードディスクやＲＡＭ等の記録媒体１１４のいずれに記憶されるものであっても良く、例えば本発明にかかるテキスト音声合成システムを利用する際にコンピュータ１１３により読み取られる。
【００８３】
（付記１）テキスト文字列が入力されるテキスト文字列入力部と、
入力された前記テキスト文字列に関する言語情報を解析する言語処理部と、
解析された前記言語情報に基づいて韻律パターンを生成する韻律生成部と、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成する音響処理部とを含むテキスト音声合成システムであって、
前記言語処理部が、
入力された前記テキスト文字列を形態素解析し、形態素列を求める形態素解析部と、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求める係り受け情報解析部と、
前記形態素列又は前記文節間の係り受けに関する情報、あるいはその両方に基づいて、前記文節間の係り受けに関する情報の信頼度を設定する係り受け信頼度設定部をさらに含み、
前記係り受けに関する情報の信頼度に応じて、前記韻律生成部において前記韻律パターンを修正することを特徴とするテキスト音声合成システム。
【００８４】
（付記２）前記形態素列と前記文節間の係り受けに関する情報を修正できる言語情報修正部をさらに含み、
前記係り受け信頼度設定部において、前記言語情報修正部における修正内容に基づいて、前記係り受けに関する情報の信頼度を更新する付記１に記載のテキスト音声合成システム。
【００８５】
（付記３）前記言語処理部において、
前記形態素解析部が、入力された前記テキスト文字列に対応する複数の前記形態素列の候補とそれに対する評価値を求め、前記形態素列の候補に対する評価値に基づいて出力する前記形態素列を決定し、
前記係り受け信頼度設定部が、出力された前記形態素列に対する評価値に応じて信頼度を設定する付記１又は２に記載のテキスト音声合成システム。
【００８６】
（付記４）前記言語処理部において、
前記係り受け情報解析部が、入力された前記テキスト文字列に対して複数の係り受けに関する情報の候補とそれに対する評価値を求め、前記係り受けに関する情報の候補に対する前記評価値に基づいて出力する前記係り受けに関する情報を決定し、
前記係り受け信頼度設定部が、前記係り受けに関する情報に対する評価値に応じて信頼度を設定する付記１又は２に記載のテキスト音声合成システム。
【００８７】
（付記５）前記係り受け信頼度設定部が、
前記形態素解析部において解析された複合名詞の数によって、係り受け信頼度を設定する付記１又は２に記載のテキスト音声合成システム。
【００８８】
（付記６）前記係り受け信頼度設定部が、
入力されたテキスト文字列における１文章の長さによって係り受け信頼度を設定する付記１又は２に記載のテキスト音声合成システム。
【００８９】
（付記７）テキスト文字列が入力される工程と、
入力された前記テキスト文字列に関する言語情報を解析する工程と、
解析された前記言語情報に基づいて韻律パターンを生成する工程と、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成する工程とを含むテキスト音声合成方法であって、
前記言語情報を解析する工程が、
入力された前記テキスト文字列を形態素解析し、形態素列を求める工程と、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求める工程と、
前記形態素列又は前記係り受けに関する情報、あるいはその両方に基づいて、前記係り受けに関する情報の信頼度を設定する工程をさらに含み、
設定される前記係り受けに関する情報の信頼度に応じて、前記韻律パターンを修正することを特徴とするテキスト音声合成方法。
【００９０】
（付記８）テキスト文字列が入力されるステップと、
入力された前記テキスト文字列に関する言語情報を解析するステップと、
解析された前記言語情報に基づいて韻律パターンを生成するステップと、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成するステップとを含むテキスト音声合成システムを具現化するコンピュータ実行可能なプログラムであって、
前記言語情報を解析するステップが、
入力された前記テキスト文字列を形態素解析し、形態素列を求めるステップと、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求めるステップと、
前記形態素列又は前記係り受けに関する情報、あるいはその両方に基づいて、前記係り受けに関する情報の信頼度を設定するステップをさらに含み、
設定される前記係り受けに関する情報の信頼度に応じて、前記韻律パターンを修正することを特徴とするコンピュータ実行可能なプログラム。
【００９１】
【発明の効果】
以上のように本発明にかかるテキスト音声合成システムによれば、係り受けの信頼度を導入し、その信頼度に基づいてピッチパターンを修正することによって、係り受けを誤った場合でも韻律パターンの不自然さを軽減することが可能となる。
【００９２】
また、本発明にかかるテキスト音声合成システムによれば、言語情報を修正する度に修正箇所に対応する係り受け関係の信頼度を逐次更新することで、合成音声で読み上げるコンテンツの文章構造に適応した信頼度の設定が可能となり、簡単な文章構造のコンテンツに対しては自然な韻律パターンを実現することができ、複雑な文章構造のコンテンツに対しては、韻律パターンの不自然さを軽減することができる。
【図面の簡単な説明】
【図１】本発明の実施の形態１にかかるテキスト音声合成システムの構成図
【図２】本発明の実施の形態１にかかるテキスト音声合成システムにおける処理の流れ図
【図３】本発明の実施の形態１にかかるテキスト音声合成システムにおける係り受け解析結果の例示図
【図４】本発明の実施の形態１にかかるテキスト音声合成システムにおける韻律パターン生成方法の説明図
【図５】本発明の実施の形態２にかかるテキスト音声合成システムの構成図
【図６】本発明の実施の形態２にかかるテキスト音声合成システムにおける処理の流れ図
【図７】本発明の実施の形態３にかかるテキスト音声合成システムにおける言語処理部の構成図
【図８】本発明の実施の形態４にかかるテキスト音声合成システムにおける言語処理部の構成図
【図９】本発明の実施の形態５にかかるテキスト音声合成システムにおけ言語処理部の構成図
【図１０】本発明の実施の形態６にかかるテキスト音声合成システムにおける言語処理部の構成図
【図１１】コンピュータ環境の例示図
【符号の説明】
１テキスト文字列入力部
２言語処理部
３形態素解析部
４係り受け情報解析部
５係り受け信頼度設定部
６韻律生成部
７音響処理部
８言語情報修正部
３１形態素列候補列挙部
３２評価値算出部
３３出力形態素列決定部
３４複合名詞計数部
３５文章長測定部
４１係り受け候補列挙部
４２係り受け評価値算出部
４３係り受け情報決定部
５１フレーズ成分
１１１回線先の記憶装置
１１２ＣＤ−ＲＯＭやフレキシブルディスク等の可搬型記録媒体
１１２−１ＣＤ−ＲＯＭ
１１２−２フレキシブルディスク
１１３コンピュータ
１１４コンピュータ上のＲＡＭ／ハードディスク等の記録媒体

Claims

テキスト文字列が入力されるテキスト文字列入力部と、
入力された前記テキスト文字列に関する言語情報を解析する言語処理部と、
解析された前記言語情報に基づいて韻律パターンを生成する韻律生成部と、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成する音響処理部とを含むテキスト音声合成システムであって、
前記言語処理部が、
入力された前記テキスト文字列を形態素解析し、形態素列を求める形態素解析部と、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求める係り受け情報解析部と、
前記形態素列又は前記文節間の係り受けに関する情報、あるいはその両方に基づいて、前記文節間の係り受けに関する情報の信頼度を設定する係り受け信頼度設定部をさらに含み、
前記韻律生成部において、生成された前記韻律パターンの頂点のピッチに対して、前記係り受けに関する情報の信頼度を乗じることにより、当該韻律パターンを修正することを特徴とするテキスト音声合成システム。
前記形態素列と前記文節間の係り受けに関する情報を修正できる言語情報修正部をさらに含み、
前記係り受け信頼度設定部において、前記言語情報修正部における修正内容に基づいて、前記係り受けに関する情報の信頼度を更新する請求項１に記載のテキスト音声合成システム。
前記言語処理部において、
前記形態素解析部が、入力された前記テキスト文字列に対応する複数の前記形態素列の候補とそれに対する評価値を求め、前記形態素列の候補に対する評価値に基づいて出力する前記形態素列を決定し、
前記係り受け信頼度設定部が、出力された前記形態素列に対する評価値に応じて信頼度を設定する請求項１又は２に記載のテキスト音声合成システム。
前記韻律生成部において、前記文節と当該文節の係り先である係り先文節との間の文節単位で表した距離が閾値以上である場合に、生成された前記韻律パターン
の頂点のピッチに対して、前記係り受けに関する情報の信頼度を乗じることにより、当該韻律パターンを修正する請求項１〜３のいずれか１項に記載のテキスト音声合成システム。
テキスト文字列が入力される工程と、
入力された前記テキスト文字列に関する言語情報を解析する工程と、
解析された前記言語情報に基づいて韻律パターンを生成する工程と、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成する工程とをコンピュータが実行することにより、当該コンピュータをテキスト音声合成システムとして機能させるテキスト音声合成方法であって、
前記言語情報を解析する工程が、
入力された前記テキスト文字列を形態素解析し、形態素列を求める工程と、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求める工程と、
前記形態素列又は前記係り受けに関する情報、あるいはその両方に基づいて、前記係り受けに関する情報の信頼度を設定する工程をさらに含み、
前記韻律パターンを生成する工程が、生成された前記韻律パターンの頂点のピッチに対して、前記係り受けに関する情報の信頼度を乗じることにより、当該韻律パターンを修正する工程をさらに含み、
前記各工程を前記コンピュータが実行することにより、当該コンピュータをテキスト音声合成システムとして機能させるテキスト音声合成方法。
テキスト文字列が入力されるステップと、
入力された前記テキスト文字列に関する言語情報を解析するステップと、
解析された前記言語情報に基づいて韻律パターンを生成するステップと、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成するステップとをコンピュータに実行させることにより、当該コンピュータをテキスト音声合成システムとして機能させるプログラムであって、
前記言語情報を解析するステップが、
入力された前記テキスト文字列を形態素解析し、形態素列を求めるステップと、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求めるステップと、
前記形態素列又は前記係り受けに関する情報、あるいはその両方に基づいて、前記係り受けに関する情報の信頼度を設定するステップをさらに含み、
前記韻律パターンを生成するステップが、生成された前記韻律パターンの頂点のピッチに対して、前記係り受けに関する情報の信頼度を乗じることにより、当該韻律パターンを修正するステップをさらに含み、
前記各ステップを前記コンピュータに実行させることにより、当該コンピュータをテキスト音声合成システムとして機能させるプログラム。