JP4053440B2 - テキスト音声合成システム及び方法 - Google Patents
テキスト音声合成システム及び方法 Download PDFInfo
- Publication number
- JP4053440B2 JP4053440B2 JP2003049917A JP2003049917A JP4053440B2 JP 4053440 B2 JP4053440 B2 JP 4053440B2 JP 2003049917 A JP2003049917 A JP 2003049917A JP 2003049917 A JP2003049917 A JP 2003049917A JP 4053440 B2 JP4053440 B2 JP 4053440B2
- Authority
- JP
- Japan
- Prior art keywords
- dependency
- information
- text
- reliability
- morpheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、テキスト文字列を入力として合成音声を生成するテキスト音声合成システム及び方法に関する。
【0002】
【従来の技術】
昨今のコンピュータ技術の急速な伸展に伴って、音声を入出力に用いるアプリケーションが多々実用化されている。かかる音声を用いるアプリケーションにおいては、特に漢字と仮名が混在しているようなテキストデータに基づいて、いかに自然な合成音声を生成することができるか、が重要な技術の1つとなっている。
【0003】
自然な合成音声を生成するために、例えば(特許文献1)においては、入力されるテキストデータを構文解析して、合成音声として読み上げる際のポーズ位置を決定し、句読点等における読み上げポーズを調整することによって、人間が読み上げた状況に近い合成音声を生成する方法が開示されている。
【0004】
しかし、上述した方法だけでは、読み上げ音声の高さやイントネーションを表す韻律パターンの不自然さを解消することはできない。そこで、声の高さやイントネーション等の韻律パターンを表す物理量であるピッチパターン(基本周波数の時系列変化)を調整することによって、自然な合成音声を生成する方法が考えられている。
【0005】
すなわち、ピッチパターンが平坦であると、合成音声に抑揚がなくなり、ロボットのような一様な喋り口調となり、韻律的に不自然になる。人間が発声するような自然な韻律を合成音声上で実現するためには、ある程度抑揚をつけた適切なピッチパターンを生成する必要がある。
【0006】
人間のピッチパターンを表す簡易なモデルとしては、従来、文頭から文末にかけて緩やかに降下するピッチの変化を表すフレーズ成分に、各語句のアクセント型に応じて変化するピッチパターンを表すアクセント成分を重畳するモデルが広く用いられている。このモデルでは1フレーズの長さが長くなるとフレーズの建て直しを行い、ピッチが非常に緩やかに下がって一葉な喋り口調になるのを防いでいる。具体的には、フレーズの建て直し位置で文頭と同じように再びピッチを高くすることで抑揚をつけている。
【0007】
このようなフレーズの建て直しが生じる位置は、文節間の係り受け関係に深い関連があると考えられており、入力されたテキストデータから係り受け関係を解析して、各文節の係り先文節までの距離に応じてフレーズの建て直し位置や量を決めるといったピッチパターン制御が行われている。その結果、係り受け解析が正しく行われている場合には、人間が発声したような自然な韻律が実現されている。
【0008】
かかるテキスト音声合成技術としては、例えば(特許文献2)において、文節間の係り受け構造を解析するとともに、比較的長い単位で形態素解析を行うことにより、文節内のアクセント付与やポーズ付与の精度を高めることができる方法が開示されている。
【0009】
また、(特許文献3)においては、文節間の係り受けが複数存在する場合であっても、テキストの意味内容を考慮することによって自然な韻律制御を行う方法が開示されている。
【0010】
【特許文献1】
特開平11−288292号公報
【0011】
【特許文献2】
特開平11−344998号公報
【0012】
【特許文献3】
特開2002−149180号公報
【0013】
【発明が解決しようとする課題】
しかし、現状では、文節間の係り受けを解析する精度自体に限界があり、必ずしも正しい解析結果が得られるとは限らない。例えば、▲1▼「小包を早急に郵送する」、及び▲2▼「和歌山を先頭に渋滞する」という2つの文章について考えると、この2つの文は、各文節のモーラ数、アクセント型、品詞や活用等の文法的属性は等しいものの、▲1▼の第1文節「小包を」は第3文節「郵送する」に係っているのに対して、▲2▼の第1文節「和歌山を」は直後の第2文節「先頭に」に係っている。すなわち、文法的属性が全く同一である場合であっても、文節の係り受け関係が異なる場合が頻繁に発生する。
【0014】
このように、文脈に基づいて全体の意味情報を理解していないと、文節間の係り受け状態を正しく解析できない文章である場合には、誤った解析結果が出力されるおそれがある。例えば、▲2▼の第1文節「和歌山を」が第3文節「渋滞する」に係るという誤った解析結果が出力され、第2文節でフレーズの建て直しが生じた場合を考えると、意味的にはつながりのある位置にフレーズの建て直しによる不連続なピッチの上昇が現われ、非常に不自然な韻律パターンが生成されることになる。
【0015】
以上のように、係り受け関係の解析結果に基づいてピッチパターンを制御する場合、正しい解析結果が得られなければ、非常に不自然な韻律パターンを生成してしまうおそれがあるという問題点があった。
【0016】
本発明は、上記問題点を解決するために、係り受け解析の誤りによる韻律パターンの自然性の劣化を軽減し、高品質な韻律を生成するテキスト音声合成システム及び方法を提供することを目的とする。
【0017】
【課題を解決するための手段】
上記目的を達成するために本発明にかかるテキスト音声合成システムは、テキスト文字列が入力されるテキスト文字列入力部と、入力されたテキスト文字列に関する言語情報を解析する言語処理部と、解析された言語情報に基づいて韻律パターンを生成する韻律生成部と、解析された言語情報と生成された韻律パターンに基づいて音声波形を合成する音響処理部とを含むテキスト音声合成システムであって、言語処理部が、入力されたテキスト文字列を形態素解析し、形態素列を求める形態素解析部と、解析された形態素列に基づいて文節を構成し、文節間の係り受けに関する情報を求める係り受け情報解析部と、形態素列又は文節間の係り受けに関する情報、あるいはその両方に基づいて、文節間の係り受けに関する情報の信頼度を設定する係り受け信頼度設定部をさらに含み、係り受けに関する情報の信頼度に応じて、韻律生成部において韻律パターンを修正することを特徴とする。
【0018】
かかる構成により、文節間の係り受けに関する情報の信頼度を取得することができ、信頼度が高い場合には係り受けに関する情報に基づいた抑揚のはっきりした人間の発声に近い自然な韻律パターンで音声を合成し、信頼度が低い場合には抑揚を少し抑えることにより、誤った位置においてフレーズの建て直しが生じている場合であっても、ピッチ変化を少なく抑えることができ、韻律パターンの不自然さを軽減することが可能となる。
【0019】
また、本発明にかかるテキスト音声合成システムは、形態素列と文節間の係り受けに関する情報を修正できる言語情報修正部をさらに含み、係り受け信頼度設定部において、言語情報修正部における修正内容に基づいて、係り受けに関する情報の信頼度を更新することが好ましい。
【0020】
かかる構成とすることによって、言語処理部における誤りを修正することでより自然な韻律パターンで合成音声を生成することができるとともに、係り受け関係の修正部分をフィードバックすることによって、合成音声で読み上げるコンテンツの文章構造の特徴に適応した係り受け関係の信頼度を設定することができる。
【0021】
また、本発明にかかるテキスト音声合成システムは、言語処理部において、形態素解析部が、入力されたテキスト文字列に対応する複数の形態素列の候補とそれに対する評価値を求め、形態素列の候補に対する評価値に基づいて出力する形態素列を決定し、係り受け信頼度設定部が、出力された形態素列に対する評価値に応じて信頼度を設定することが好ましい。形態素解析における誤りは、係り受け解析の誤りに直接影響するため、形態素解析段階における誤りに関する情報を評価値として得ることによって、係り受け解析の誤りを間接的に推定することができるからである。
【0022】
また、本発明にかかるテキスト音声合成システムは、言語処理部において、係り受け情報解析部が、入力されたテキスト文字列に対して複数の係り受けに関する情報の候補とそれに対する評価値を求め、係り受けに関する情報の候補に対する評価値に基づいて出力する係り受けに関する情報を決定し、係り受け信頼度設定部が、係り受けに関する情報に対する評価値に応じて信頼度を設定することが好ましい。係り受け解析の評価値に基づいて、係り受けの信頼度を直接推定することができるからである。
【0023】
また、本発明にかかるテキスト音声合成システムは、係り受け信頼度設定部が、形態素解析部において解析された複合名詞の数によって、係り受け信頼度を設定することが好ましい。
【0024】
ラジオのニュース原稿等のように実際に人間が喋ることを想定した口語体の原稿に比較して、新聞等の文語体の原稿は少ないスペースで多くの情報を伝える必要があり、修飾語を名詞化して複合名詞を多用したり、複雑な文章構造を多用する傾向が強いため、複合名詞の出現頻度を把握することによって、入力されたテキスト文字列の係り受け関係の複雑さを推定することができるからである。
【0025】
また、本発明にかかるテキスト音声合成システムは、係り受け信頼度設定部が、入力されたテキスト文字列における1文章の長さによって係り受け信頼度を設定することが好ましい。短い文章は、必然的に係り受け構造が単純になるが、長い文章になるほど、複雑な係り受け構造が含まれる可能性が高まるため、文章の長さによって、係り受けの信頼度を推定することができるからである。
【0026】
また、本発明は、上記のようなテキスト音声合成システムの機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、テキスト文字列が入力される工程と、入力されたテキスト文字列に関する言語情報を解析する工程と、解析された言語情報に基づいて韻律パターンを生成する工程と、解析された言語情報と生成された韻律パターンに基づいて音声波形を合成する工程とを含むテキスト音声合成方法であって、言語情報を解析する工程が、入力されたテキスト文字列を形態素解析し、形態素列を求める工程と、解析された形態素列に基づいて文節を構成し、文節間の係り受けに関する情報を求める工程と、形態素列又は係り受けに関する情報、あるいはその両方に基づいて、係り受けに関する情報の信頼度を設定する工程をさらに含み、設定される係り受けに関する情報の信頼度に応じて、韻律パターンを修正するテキスト音声合成方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【0027】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、文節間の係り受けに関する情報の信頼度を取得することができ、信頼度が高い場合には係り受けに関する情報に基づいた抑揚のはっきりした人間の発声に近い自然な韻律パターンで音声を合成し、信頼度が低い場合には抑揚を少し抑えることにより、誤った位置においてフレーズの建て直しが生じている場合であっても、ピッチ変化を少なく抑えることができ、韻律パターンの不自然さを軽減することができるテキスト音声合成システムを実現することが可能となる。
【0028】
【発明の実施の形態】
(実施の形態1)
以下、本発明の実施の形態1にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図1は本発明の実施の形態1にかかるテキスト音声合成システムの構成図である。
【0029】
図1において、1はテキスト文字列が入力されるテキスト文字列入力部を示しており、合成音声で読み上げるテキスト文字列を入力する部分である。入力の方法は特に限定されるものではなく、テキストデータファイルとして入力されても良いし、キーボード等の入力媒体を用いて直接打鍵されるものであっても良い。
【0030】
2はテキスト文字列入力部1において入力されたテキスト文字列に関する言語情報を処理する言語処理部を示している。言語処理部2においては、入力されたテキスト文字列について、読みに関する情報、アクセントに関する情報、文節間の係り受けに関する情報等を解析して出力する。
【0031】
すなわち、図1に示すように、言語処理部2は、入力されたテキスト文字列から形態素列を生成し、その読みに関する情報、アクセントに関する情報、品詞や活用等の文法情報等を求める形態素解析部3と、形態素解析部3で生成された形態素列と文法情報から文節を構成し、文節間の係り受け情報を求める係り受け情報解析部4と、形態素解析部3又は係り受け情報解析部4、あるいはその両方の出力結果に基づいて係り受けの信頼度を設定する係り受け信頼度設定部5とで構成されている。
【0032】
形態素解析部3における形態素解析方法については、特に限定されるものではなく、従来技術として開示されているどのような方法を用いても良い。同様に、係り受け情報解析部4において用いられる文節間の係り受けに関する情報の求め方についても、特に限定されるものではなく、従来用いられている方法であれば何でも良い。係り受け信頼度設定部5における処理については、処理の流れとともに後述する。
【0033】
そして、6は言語処理部2から出力される読み、アクセント型、係り受け情報、あるいは後述する係り受けに関する信頼度に基づいて韻律パターンを生成する韻律生成部を示しており、7は韻律生成部6から出力されるピッチパターンと読みに関する情報に基づいて合成波形を生成する音響処理部を示している。
【0034】
次に、本発明の実施の形態1にかかるテキスト音声合成システムを実現するプログラムの処理の流れについて説明する。図2に本発明の実施の形態1にかかるテキスト音声合成システムを実現するプログラムの処理の流れ図を示す。また、具体的な処理の内容を明確にするために、▲1▼「小包を早急に郵送する。」及び▲2▼「和歌山を先頭に渋滞する。」の2つのテキスト文字列を入力する場合に関する具体例も示す。
【0035】
図2において、まずテキスト文字列が入力される(ステップS201)。ここでは、▲1▼「小包を早急に郵送する。」及び▲2▼「和歌山を先頭に渋滞する。」の2つのテキスト文字列が入力される。
【0036】
次に、入力されたテキスト文字列に対して形態素解析を行い、形態素列と、その読み、アクセント、品詞や活用等の文法情報を取得する(ステップS202)。そして、形態素解析の結果に基づいて、文節間の係り受け関係の解析を行う(ステップS203)。
【0037】
入力されたテキスト文字列それぞれに対して、以下に示すような係り受け関係の解析結果が得られたものとする。テキスト文字列▲1▼については、▲1▼「こづつみお(2)さっきゅーに(1)ゆーそーする」と、テキスト文字列▲2▼については、▲2▼「わかやまお(2)せんとーに(1)じゅーたいする」と、係り受け関係が解析される。ここで、括弧内の数字は、左の文節の係り先文節まで文節単位で表した距離を示している。
【0038】
このような係り受け解析の結果を検討すると、テキスト文字列▲1▼については係り受け解析結果は正しいものと考えられる。しかし、テキスト文字列▲2▼については、本来、第1文節「わかやまお」が直後の文節「せんとーに」に係るべきであり、解析結果が誤っているものと考えられる。
【0039】
このように、各文節のモーラ数、アクセント型、品詞等、言語的情報が等しい2つのテキスト文字列について係り受け解析を実行した場合であっても、係り受けの形態が異なる場合が多々あり、文脈や意味内容を理解していない場合には、正しい係り受け解析結果を得ることはできない。したがって、現状では、このような係り受け解析の誤りを100%回避することはできない。
【0040】
そこで、係り受け解析の結果を用いて係り受けの信頼度を求める(ステップS204)。例えば、係り受け解析の手段が、生起確率を最大にする係り受け関係を解として求める方法であった場合、係り受けの生起確率をそのまま信頼度として利用することができる。例えば、係り受けの生起確率が図3に示すような値として求まっている場合を想定する。この場合、第1文節直後の係り受け解析の信頼度は60%と設定できるし、第2文節直後の係り受け解析の信頼度は100%と設定できる。
【0041】
次に、係り受け関係とその信頼度に基づいて、韻律パターンを生成する(ステップS205)。例えば、韻律生成規則が次のように与えられていたものと想定する。すなわち、フレーズ成分を3角形のモデルとして表し、頂点のピッチをHp(Hz)とする。そして、係り先の文節までの距離が2以上の文節境界において、フレーズ成分の建て直しを行う。
【0042】
ここで、フレーズ成分の建て直しとは、文頭から始まる3角形のピッチパターンに対して、建て直しを行う文節境界において、その文節境界から始まる別の3角形のピッチパターンを重ね合わせることで、建て直しを行う文節境界におけるピッチを高めに修正する処理を意味している。人間の発話においては、一般に右下がりに、すなわち読みはじめのピッチが高く、時間が経過するにつれてピッチが次第に低下していくというのが基本的なピッチパターンであるが、建て直しを行う文節境界において新たなフレーズ成分を重ね合わせることによって、建て直しを行う文節境界におけるピッチが高めに修正され、長文でも抑揚のある自然な韻律パターンを生成することができる。
【0043】
当該韻律生成規則に従って、係り受け解析の信頼度を考慮することなく韻律パターンを生成すると、図4(a)に示すように、第2文節においてフレーズの建て直しが生じる。なお、図4(a)〜(c)において、51はフレーズ成分のピッチパターンを示している。
【0044】
図4(a)に示すように、テキスト文字列▲1▼については、当該韻律パターンで特に問題は生じないものと考えられる。しかし、図4(b)に示すようにテキスト文字列▲2▼においては、本来、「わかやまおせんとーに」というフレーズで次第にピッチが下がっていくのが自然な韻律であるにもかかわらず、係り受け解析が誤っているため、第2文節でフレーズの建て直しが発生し、「せんとーに」の部分でピッチが急激に上昇し、不自然な韻律パターンになっている。
【0045】
そこで、係り受けの信頼度を考慮に入れると、図4(c)に示すように、「せんとーに」のフレーズ成分がHp×60%となり、第1文節と第2文節の間における急激なピッチ変化を低減することができる。このように、信頼度の低い係り受け解析結果に対してフレーズの建て直し量を抑制し、抑揚を抑え目にすることで、急激なピッチ変化を低減することができ、韻律パターンの不自然さを軽減することができる。
【0046】
なお、フレーズ成分の建て直しを行う位置については、上述した文節の境界のほか、様々な決定方法が考えられる。例えばテキスト文字列における句読点の位置であっても良いし、係り先への文節距離が所定のしきい値以上の文節境界のみで建て直しを実行するものであっても良い。
【0047】
ここで、係り先への文節距離とは、係り受け解析結果の表示において示されている括弧内の数字、すなわち当該文節の係り先文節までの文節単位で表した距離を意味する。そして、例えば所定のしきい値が‘3’である場合には、当該文節の係り先文節までの距離が3文節以上離れていると解析された文節境界において、上述したようなフレーズ成分の建て直しを実行することになる。
【0048】
最後に、形態素解析により求まった読み情報と、係り受け信頼度に基づいて修正したピッチパターンに基づいて、出力するべき合成音声を生成する(ステップS206)。
【0049】
以上のように本実施の形態1によれば、係り受け解析に関する信頼度を求め、その信頼度に基づいてピッチパターンを制御することによって、係り受け解析を誤った場合であっても生成された韻律の不自然さを軽減することが可能となる。
【0050】
なお、本実施の形態1においては、韻律パターンの生成処理において、フレーズ成分に対応するピッチパターンの修正を行っているが、同様の処理をアクセント成分に対応するピッチパターンに行うことによっても同様の効果が期待できる。
【0051】
(実施の形態2)
以下、本発明の実施の形態2にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図5は本発明の実施の形態2にかかるテキスト音声合成システムの構成図である。本実施の形態2の構成は、実施の形態1に機能を付加したものであることから、同一の機能を有する部分については図1と同一の番号を付することで詳細な説明を省略する。
【0052】
実施の形態1と相違する点は、言語処理部2の結果を修正できる言語情報修正部8を設け、係り受け信頼度設定部5において言語情報修正部8の修正結果に基づいて逐次係り受け信頼度を更新する点である。
【0053】
すなわち、言語情報修正部8では、形態素解析部3及び係り受け情報解析部4の出力結果を受け取り、形態素列の解析において誤っている部分及び係り受け関係の解析において誤っている部分をそれぞれ修正し、修正した係り受け関係に関する情報を係り受け信頼度設定部5に出力する。また、韻律生成部6へ修正した形態素列の読み情報及び係り受け関係に関する情報を渡すことで、修正後の形態素列の読み情報及び係り受け情報を用いて韻律パターンを生成する。
【0054】
例えば、修正前のテキスト文字列▲2▼に対する係り受け解析結果が、▲2▼「わかやまお(2)せんとーに(1)じゅーたいする(0)」であった場合、第1文節の係り先が誤っていると判断できることから、第1文節の係り先を直後の第2文節であるように修正することになる。結果として、修正後のテキスト文字列▲2▼に対する係り受け解析結果は、▲2▼「わかやまお(1)せんとーに(1)じゅーたいする(0)」となる。
【0055】
係り受け信頼度設定部5では、言語情報修正部8の修正結果に応じて、逐次係り受け信頼度を更新する。具体的には、言語情報修正部8で何らかの修正が行われた場合は、現在処理中の入力テキストに限り、修正された文節の係り受け信頼度を100%に設定する。また同時に、修正が生じた入力テキスト以後に入力されるテキストについては、同様の係り受け関係に対する信頼度を修正前よりも引き下げて設定する。
【0056】
このように係り受け関係の信頼度を修正前よりも引き下げて設定するのは、修正が行われた文節は、誤った解析が行われた事実を示しており、そのような文節の係り受け解析結果は信頼性が低いと考えられるからである。
【0057】
例えば、テキスト文字列▲2▼の場合、当初、第1文節(名詞+助詞を)と第2文節(名詞+に)について、その係り受け解析結果に60%の信頼度が設定されていたものとする。そして、言語情報修正部8において第1文節に修正が行われた場合には、当該入力テキスト文字列▲2▼に関してのみ、第1文節の係り受け信頼度を100%に設定する。
【0058】
同時に、修正以後に入力されるテキストに対して、テキスト文字列▲2▼の第1文節と第2文節との関係と同様の関係である「前文節(名詞+助詞を)+後文節(名詞+に)」という関係が現われた場合には、前回の係り受けの解析において誤りが含まれていたという事実を考慮し、例えば信頼度を60%から55%に引き下げて設定する。修正が行われなかった文節については、正しい結果が得られたということで、信頼度を上昇させる。また、信頼度は、過去に処理した同一の係り受け関係総数のうち修正が生じた割合として設定してもよい。
【0059】
次に、本発明の実施の形態2にかかるテキスト音声合成システムを実現するプログラムの処理の流れについて説明する。図6に本発明の実施の形態2にかかるテキスト音声合成システムを実現するプログラムの処理の流れ図を示す。
【0060】
図6において、まずテキスト文字列が入力され(ステップS601)、入力されたテキストから形態素列を生成し、その読み、アクセント、品詞や活用等の文法情報を求める形態素解析を行う(ステップS602)。
【0061】
次に、形態素解析の結果から係り受け解析を行い(ステップS603)、係り受け解析結果の信頼度を設定する(ステップS604)。ここで、形態素解析結果及び係り受け解析結果に対して修正を行うか否かを判断する(ステップS605)。
【0062】
何らかの修正が必要であると判断された場合は(ステップS605:Yes)、形態素解析結果及び係り受け関係に関する情報を修正し(ステップS606)、修正箇所に対応する係り受け関係の信頼度を更新する(ステップS607)。
【0063】
次に、係り受け関係とその信頼度に基づいて、ピッチパターンを修正し、最終的な韻律パターンを生成する(ステップS608)。最後に、形態素解析における読み情報と生成された韻律パターンに基づいて合成音声を生成する(ステップS609)。
【0064】
以上のように本実施の形態2によれば、言語情報修正部で修正が行われた箇所の係り受け関係の信頼度を逐次更新することで、合成音声で読み上げるコンテンツの文章構造に適応した信頼度の設定が可能となり、簡単な文章構造を有するコンテンツに対しては自然な韻律パターンを実現することができ、複雑な文章構造を有するコンテンツに対しては、韻律パターンの不自然さを軽減することができる。
【0065】
(実施の形態3)
以下、本発明の実施の形態3にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図7は本発明の実施の形態3にかかるテキスト音声合成システムにおける言語処理部2の構成図である。本実施の形態3の構成は、実施の形態1における言語処理部2の他の構成例を示したものであり、実施の形態1と同一の機能を有する部分については、同一の番号を付することで詳細な説明は省略する。
【0066】
本実施の形態3において、形態素解析部3は、入力されたテキスト文字列から生成される形態素列について、複数の候補を列挙する形態素列候補列挙部31と、各形態素列の候補に対する評価値を算出する評価値算出部32と、各形態素列の候補に対する評価値に基づいて最終的に出力する形態素列を決定する出力形態素列決定部33から構成されている。係り受け信頼度設定部5は、出力形態素列決定部33から、最終的に出力された形態素列に対する評価値を受け取り、その評価値に基づいて信頼度を設定する。
【0067】
例えば、形態素列候補列挙部31でk1、k2、k3の3つの形態素列の候補が列挙され、評価値算出部32では、3つの形態素列k1、k2、k3に対する評価値として、それぞれコストc1<c2<c3が算出されているものとする。このとき、出力形態素列決定部33では、コストを最小にする形態素列k1を選択し、形態素列k1を係り受け情報解析部4に出力する。
【0068】
係り受け信頼度設定部5は、出力形態素列決定部33からk1のコストc1を受け取り、コストに応じた信頼度を設定する。例えば、コストの逆数1/c1を信頼度と設定する。
【0069】
このように、評価値として用いたコストの大きな形態素解析結果には誤りが含まれている可能性が高く、誤りを含む形態素列に対して行った係り受け解析結果も当然誤りを含むことが予想できることから、上述したように形態素解析の評価値に基づいて係り受けの信頼度を間接的に設定することが可能となる。
【0070】
(実施の形態4)
以下、本発明の実施の形態4にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図8は本発明の実施の形態4にかかるテキスト音声合成システムにおける言語処理部2の構成図である。本実施の形態4の構成は、実施の形態1における言語処理部2の他の構成例を示したものであり、実施の形態1と同一の機能を有する部分については、同一の符号を付することで詳細な説明は省略する。
【0071】
本実施の形態4において、係り受け解析部4は、形態素解析部3から出力される形態素列に対して複数の係り受け関係の候補を列挙する係り受け候補列挙部41と、複数の係り受け関係候補に対する評価値をそれぞれ算出する係り受け評価値算出部42と、係り受け関係の候補に対する評価値に基づいて最終的に出力する係り受け関係を決定する出力係り受け情報決定部43から構成されている。
【0072】
係り受け信頼度設定部5は、出力係り受け情報決定部43から最終的に出力された係り受け関係に対する評価値を受け取り、その評価値に基づいて信頼度を設定する。
【0073】
例えば、係り受け候補列挙部41でk1、k2、k3の3つの係り受け候補が列挙され、係り受け評価値算出部42では、係り受け候補k1、k2、k3に対する評価値として、それぞれ係り受けの生起確率p1<p2<p3が算出されているものとする。このとき、出力係り受け情報決定部43では、生起確率を最大にする係り受け関係k3を選択し、生起確率p3を係り受け信頼度設定部5に出力する。係り受け信頼度設定部5は、例えば受け取った生起確率p3をそのまま信頼度として設定すればよい。
【0074】
(実施の形態5)
以下、本発明の実施の形態5にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図9は本発明の実施の形態5にかかるテキスト音声合成システムにおける言語処理部2の構成図である。本実施の形態5の構成は、実施の形態3における形態素解析部3に機能を追加したものである。実施の形態3と同一の機能を有する部分については、同一の番号を付することで詳細な説明を省略する。
【0075】
形態素解析部34は、出力形態素列決定部33が出力する形態素列を受け取り、当該形態素列に含まれる複合名詞の数Nを計数する。係り受け信頼設定部5では、複合名詞計数部34の結果を受け取り、信頼度を複合名詞の数Nに反比例する値、例えば1/Nに設定する。また、複合名詞の数Nと係り受けの正解率の関係F(N)を予め統計的に調査しておき、その値を信頼度として用いてもよい。
【0076】
ラジオニュースの原稿等のように実際に人間が喋ることを想定した口語体の原稿に比較して、新聞等の文語体の原稿は限られたスペースで多くの情報を伝える必要があり、修飾語を名詞化して複合名詞を多用したり、複雑な文章構造を多用する傾向がある。そのため、本実施の形態5のように、複合名詞の出現頻度を信頼度の算出において考慮することによって、係り受け関係の信頼度を容易に推定することが可能となる。
【0077】
(実施の形態6)
以下、本発明の実施の形態6にかかるテキスト音声合成システムについて、図面を参照しながら説明する。図10は本発明の実施の形態6にかかるテキスト音声合成システムにおける言語処理部2の構成図である。本実施の形態6の構成は、実施の形態3の形態素解析部3に機能を追加したものである。実施の形態3と同一の機能を有する部分については、同一の符号を付することで詳細な説明を省略する。
【0078】
文章長測定部35は、出力形態素列決定部33が出力する形態素列を受け取り、1文章中に含まれるモーラ数M(音節数とほぼ等価となる)を計数する。また、モーラ数ではなく文節数M’を用いてもよい。
【0079】
係り受け信頼設定部5では、文章長測定部35の結果を受け取り、信頼度をモーラ数Mに反比例する値、例えば1/Mに設定する。また、モーラ数と係り受けの正解率の関係F(M)を予め統計的に調査しておき、その値を信頼度として用いても良い。
【0080】
短い文章は、必然的に係り受け構造が単純になるが、長い文章になるほど、複雑な係り受け構造が含まれる可能性が高まる。したがって、本実施の形態6のように、文章の長さによって係り受けの信頼度を推定することが可能となる。
【0081】
なお、本発明の実施の形態にかかるテキスト音声合成システムを実現するプログラムは、図11に示すように、CD−ROM112−1やフレキシブルディスク112−2等の可搬型記録媒体112だけでなく、通信回線の先に備えられた他の記憶装置111や、コンピュータ113のハードディスクやRAM等の記録媒体114のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【0082】
また、本発明の実施の形態にかかるテキスト音声合成システムにより生成された〜データ等についても、図11に示すように、CD−ROM112−1やフレキシブルディスク112−2等の可搬型記録媒体112だけでなく、通信回線の先に備えられた他の記憶装置111や、コンピュータ113のハードディスクやRAM等の記録媒体114のいずれに記憶されるものであっても良く、例えば本発明にかかるテキスト音声合成システムを利用する際にコンピュータ113により読み取られる。
【0083】
(付記1) テキスト文字列が入力されるテキスト文字列入力部と、
入力された前記テキスト文字列に関する言語情報を解析する言語処理部と、
解析された前記言語情報に基づいて韻律パターンを生成する韻律生成部と、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成する音響処理部とを含むテキスト音声合成システムであって、
前記言語処理部が、
入力された前記テキスト文字列を形態素解析し、形態素列を求める形態素解析部と、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求める係り受け情報解析部と、
前記形態素列又は前記文節間の係り受けに関する情報、あるいはその両方に基づいて、前記文節間の係り受けに関する情報の信頼度を設定する係り受け信頼度設定部をさらに含み、
前記係り受けに関する情報の信頼度に応じて、前記韻律生成部において前記韻律パターンを修正することを特徴とするテキスト音声合成システム。
【0084】
(付記2) 前記形態素列と前記文節間の係り受けに関する情報を修正できる言語情報修正部をさらに含み、
前記係り受け信頼度設定部において、前記言語情報修正部における修正内容に基づいて、前記係り受けに関する情報の信頼度を更新する付記1に記載のテキスト音声合成システム。
【0085】
(付記3) 前記言語処理部において、
前記形態素解析部が、入力された前記テキスト文字列に対応する複数の前記形態素列の候補とそれに対する評価値を求め、前記形態素列の候補に対する評価値に基づいて出力する前記形態素列を決定し、
前記係り受け信頼度設定部が、出力された前記形態素列に対する評価値に応じて信頼度を設定する付記1又は2に記載のテキスト音声合成システム。
【0086】
(付記4) 前記言語処理部において、
前記係り受け情報解析部が、入力された前記テキスト文字列に対して複数の係り受けに関する情報の候補とそれに対する評価値を求め、前記係り受けに関する情報の候補に対する前記評価値に基づいて出力する前記係り受けに関する情報を決定し、
前記係り受け信頼度設定部が、前記係り受けに関する情報に対する評価値に応じて信頼度を設定する付記1又は2に記載のテキスト音声合成システム。
【0087】
(付記5) 前記係り受け信頼度設定部が、
前記形態素解析部において解析された複合名詞の数によって、係り受け信頼度を設定する付記1又は2に記載のテキスト音声合成システム。
【0088】
(付記6) 前記係り受け信頼度設定部が、
入力されたテキスト文字列における1文章の長さによって係り受け信頼度を設定する付記1又は2に記載のテキスト音声合成システム。
【0089】
(付記7) テキスト文字列が入力される工程と、
入力された前記テキスト文字列に関する言語情報を解析する工程と、
解析された前記言語情報に基づいて韻律パターンを生成する工程と、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成する工程とを含むテキスト音声合成方法であって、
前記言語情報を解析する工程が、
入力された前記テキスト文字列を形態素解析し、形態素列を求める工程と、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求める工程と、
前記形態素列又は前記係り受けに関する情報、あるいはその両方に基づいて、前記係り受けに関する情報の信頼度を設定する工程をさらに含み、
設定される前記係り受けに関する情報の信頼度に応じて、前記韻律パターンを修正することを特徴とするテキスト音声合成方法。
【0090】
(付記8) テキスト文字列が入力されるステップと、
入力された前記テキスト文字列に関する言語情報を解析するステップと、
解析された前記言語情報に基づいて韻律パターンを生成するステップと、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成するステップとを含むテキスト音声合成システムを具現化するコンピュータ実行可能なプログラムであって、
前記言語情報を解析するステップが、
入力された前記テキスト文字列を形態素解析し、形態素列を求めるステップと、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求めるステップと、
前記形態素列又は前記係り受けに関する情報、あるいはその両方に基づいて、前記係り受けに関する情報の信頼度を設定するステップをさらに含み、
設定される前記係り受けに関する情報の信頼度に応じて、前記韻律パターンを修正することを特徴とするコンピュータ実行可能なプログラム。
【0091】
【発明の効果】
以上のように本発明にかかるテキスト音声合成システムによれば、係り受けの信頼度を導入し、その信頼度に基づいてピッチパターンを修正することによって、係り受けを誤った場合でも韻律パターンの不自然さを軽減することが可能となる。
【0092】
また、本発明にかかるテキスト音声合成システムによれば、言語情報を修正する度に修正箇所に対応する係り受け関係の信頼度を逐次更新することで、合成音声で読み上げるコンテンツの文章構造に適応した信頼度の設定が可能となり、簡単な文章構造のコンテンツに対しては自然な韻律パターンを実現することができ、複雑な文章構造のコンテンツに対しては、韻律パターンの不自然さを軽減することができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態1にかかるテキスト音声合成システムの構成図
【図2】 本発明の実施の形態1にかかるテキスト音声合成システムにおける処理の流れ図
【図3】 本発明の実施の形態1にかかるテキスト音声合成システムにおける係り受け解析結果の例示図
【図4】 本発明の実施の形態1にかかるテキスト音声合成システムにおける韻律パターン生成方法の説明図
【図5】 本発明の実施の形態2にかかるテキスト音声合成システムの構成図
【図6】 本発明の実施の形態2にかかるテキスト音声合成システムにおける処理の流れ図
【図7】 本発明の実施の形態3にかかるテキスト音声合成システムにおける言語処理部の構成図
【図8】 本発明の実施の形態4にかかるテキスト音声合成システムにおける言語処理部の構成図
【図9】 本発明の実施の形態5にかかるテキスト音声合成システムにおけ言語処理部の構成図
【図10】 本発明の実施の形態6にかかるテキスト音声合成システムにおける言語処理部の構成図
【図11】 コンピュータ環境の例示図
【符号の説明】
1 テキスト文字列入力部
2 言語処理部
3 形態素解析部
4 係り受け情報解析部
5 係り受け信頼度設定部
6 韻律生成部
7 音響処理部
8 言語情報修正部
31 形態素列候補列挙部
32 評価値算出部
33 出力形態素列決定部
34 複合名詞計数部
35 文章長測定部
41 係り受け候補列挙部
42 係り受け評価値算出部
43 係り受け情報決定部
51 フレーズ成分
111 回線先の記憶装置
112 CD−ROMやフレキシブルディスク等の可搬型記録媒体
112−1 CD−ROM
112−2 フレキシブルディスク
113 コンピュータ
114 コンピュータ上のRAM/ハードディスク等の記録媒体
Claims (6)
- テキスト文字列が入力されるテキスト文字列入力部と、
入力された前記テキスト文字列に関する言語情報を解析する言語処理部と、
解析された前記言語情報に基づいて韻律パターンを生成する韻律生成部と、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成する音響処理部とを含むテキスト音声合成システムであって、
前記言語処理部が、
入力された前記テキスト文字列を形態素解析し、形態素列を求める形態素解析部と、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求める係り受け情報解析部と、
前記形態素列又は前記文節間の係り受けに関する情報、あるいはその両方に基づいて、前記文節間の係り受けに関する情報の信頼度を設定する係り受け信頼度設定部をさらに含み、
前記韻律生成部において、生成された前記韻律パターンの頂点のピッチに対して、前記係り受けに関する情報の信頼度を乗じることにより、当該韻律パターンを修正することを特徴とするテキスト音声合成システム。 - 前記形態素列と前記文節間の係り受けに関する情報を修正できる言語情報修正部をさらに含み、
前記係り受け信頼度設定部において、前記言語情報修正部における修正内容に基づいて、前記係り受けに関する情報の信頼度を更新する請求項1に記載のテキスト音声合成システム。 - 前記言語処理部において、
前記形態素解析部が、入力された前記テキスト文字列に対応する複数の前記形態素列の候補とそれに対する評価値を求め、前記形態素列の候補に対する評価値に基づいて出力する前記形態素列を決定し、
前記係り受け信頼度設定部が、出力された前記形態素列に対する評価値に応じて信頼度を設定する請求項1又は2に記載のテキスト音声合成システム。 - 前記韻律生成部において、前記文節と当該文節の係り先である係り先文節との間の文節単位で表した距離が閾値以上である場合に、生成された前記韻律パターン
の頂点のピッチに対して、前記係り受けに関する情報の信頼度を乗じることにより、当該韻律パターンを修正する請求項1〜3のいずれか1項に記載のテキスト音声合成システム。 - テキスト文字列が入力される工程と、
入力された前記テキスト文字列に関する言語情報を解析する工程と、
解析された前記言語情報に基づいて韻律パターンを生成する工程と、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成する工程とをコンピュータが実行することにより、当該コンピュータをテキスト音声合成システムとして機能させるテキスト音声合成方法であって、
前記言語情報を解析する工程が、
入力された前記テキスト文字列を形態素解析し、形態素列を求める工程と、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求める工程と、
前記形態素列又は前記係り受けに関する情報、あるいはその両方に基づいて、前記係り受けに関する情報の信頼度を設定する工程をさらに含み、
前記韻律パターンを生成する工程が、生成された前記韻律パターンの頂点のピッチに対して、前記係り受けに関する情報の信頼度を乗じることにより、当該韻律パターンを修正する工程をさらに含み、
前記各工程を前記コンピュータが実行することにより、当該コンピュータをテキスト音声合成システムとして機能させるテキスト音声合成方法。 - テキスト文字列が入力されるステップと、
入力された前記テキスト文字列に関する言語情報を解析するステップと、
解析された前記言語情報に基づいて韻律パターンを生成するステップと、
解析された前記言語情報と生成された前記韻律パターンに基づいて音声波形を合成するステップとをコンピュータに実行させることにより、当該コンピュータをテキスト音声合成システムとして機能させるプログラムであって、
前記言語情報を解析するステップが、
入力された前記テキスト文字列を形態素解析し、形態素列を求めるステップと、
解析された前記形態素列に基づいて文節を構成し、前記文節間の係り受けに関する情報を求めるステップと、
前記形態素列又は前記係り受けに関する情報、あるいはその両方に基づいて、前記係り受けに関する情報の信頼度を設定するステップをさらに含み、
前記韻律パターンを生成するステップが、生成された前記韻律パターンの頂点のピッチに対して、前記係り受けに関する情報の信頼度を乗じることにより、当該韻律パターンを修正するステップをさらに含み、
前記各ステップを前記コンピュータに実行させることにより、当該コンピュータをテキスト音声合成システムとして機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003049917A JP4053440B2 (ja) | 2003-02-26 | 2003-02-26 | テキスト音声合成システム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003049917A JP4053440B2 (ja) | 2003-02-26 | 2003-02-26 | テキスト音声合成システム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004258406A JP2004258406A (ja) | 2004-09-16 |
JP4053440B2 true JP4053440B2 (ja) | 2008-02-27 |
Family
ID=33115499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003049917A Expired - Fee Related JP4053440B2 (ja) | 2003-02-26 | 2003-02-26 | テキスト音声合成システム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4053440B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102583764B1 (ko) * | 2022-06-29 | 2023-09-27 | (주)액션파워 | 외국어가 포함된 오디오의 음성 인식 방법 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004085286A (ja) * | 2002-08-26 | 2004-03-18 | Alpine Electronics Inc | 車載用ナビゲーション装置、ナビゲーション情報表示方法及びプログラム |
JP5772514B2 (ja) * | 2011-10-31 | 2015-09-02 | 富士通株式会社 | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム |
CN113763921B (zh) * | 2020-07-24 | 2024-06-18 | 北京沃东天骏信息技术有限公司 | 用于纠正文本的方法和装置 |
CN112786002B (zh) * | 2020-12-28 | 2022-12-06 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、设备及存储介质 |
-
2003
- 2003-02-26 JP JP2003049917A patent/JP4053440B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102583764B1 (ko) * | 2022-06-29 | 2023-09-27 | (주)액션파워 | 외국어가 포함된 오디오의 음성 인식 방법 |
US11972756B2 (en) | 2022-06-29 | 2024-04-30 | Actionpower Corp. | Method for recognizing the voice of audio containing foreign languages |
Also Published As
Publication number | Publication date |
---|---|
JP2004258406A (ja) | 2004-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
EP2958105B1 (en) | Method and apparatus for speech synthesis based on large corpus | |
RU2421827C2 (ru) | Способ синтеза речи | |
US20130226584A1 (en) | Speech synthesis apparatus and method | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP2005208652A (ja) | 声調言語用分節声調モデリング | |
JP2007206975A (ja) | 言語情報変換装置及びその方法 | |
US8650034B2 (en) | Speech processing device, speech processing method, and computer program product for speech processing | |
WO2014183411A1 (en) | Method, apparatus and speech synthesis system for classifying unvoiced and voiced sound | |
JP6790959B2 (ja) | 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP4053440B2 (ja) | テキスト音声合成システム及び方法 | |
JP5423466B2 (ja) | 音声合成装置、音声合成方法、及び音声合成プログラム | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
JP2004139033A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP2009175345A (ja) | 音声情報処理装置及びその方法 | |
JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
JP6197523B2 (ja) | 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム | |
JP6232724B2 (ja) | 音声合成装置及び言語辞書登録方法 | |
JP6411015B2 (ja) | 音声合成装置、音声合成方法、およびプログラム | |
JP3589972B2 (ja) | 音声合成装置 | |
JP2004226505A (ja) | ピッチパタン生成方法、音声合成方法とシステム及びプログラム | |
Thangthai et al. | Automatic syllable-pattern induction in statistical Thai text-to-phone transcription. | |
JPH05134691A (ja) | 音声合成方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050413 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071205 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4053440 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111214 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111214 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121214 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121214 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131214 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |