JP4762103B2

JP4762103B2 - 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置

Info

Publication number: JP4762103B2
Application number: JP2006276954A
Authority: JP
Inventors: ワン・ハイフェン; リー・グオファ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-10-09
Filing date: 2006-10-10
Publication date: 2011-08-31
Anticipated expiration: 2026-10-10
Also published as: JP2007108749A; CN1945693B; US20070129938A1; CN1945693A; US8024174B2

Description

本発明は音声合成技術に関連し、とりわけ、音声合成における韻律解析技術及び韻律統計モデルを訓練する技術に関する。

テキスト音声合成（ＴＴＳ）システムは、人と同じような自然な音声をコンピュータに話させることを目標としている。人は文を自然に読む時、固有の休止表示である句読点（例えば、ピリオドやコンマ等）の幾つかとは別に、句読点の無い個所でも時折休止をする。よって、より良い品質の合成音声を達成するためには、句読点の無い個所でも同じように休止を必要とする個所を自動的に判断する機能が音声合成システムには必要となり、それには音声合成品質を向上させるための前工程として、テキストに対し韻律解析を実行する必要がある。

中国語韻律構造を予測するルール学習に基づいた方法が、非特許文献１に提案されている。この方法は、手動で韻律ラベリングされたコーパスから言語特性及び二段韻律構造タグを抽出し、用例データベースを確立し、ルール学習アルゴリズムを用いて、この用例から韻律成句予測のルールを自動的にもたらす。

しかしながら、上述の方法では予め韻律解析された大量のコーパスが必要となり、それが故にコーパスに対し韻律解析を行うことは骨の折れる作業であり、その品質を管理するのは困難である。
"Rule-learning based prosodic structure prediction", ZHAO Sheng, et al, Journal of Chinese Information Processing, Vol. 16, No. 5, 2002.9, PP.30-37。

従来技術の問題点を解決すべく、本発明では、手動のラベリングを必要としない未加工コーパスを用いて中国語韻律統計モデルを訓練する方法及び装置、中国語韻律解析のための方法及び装置、及び中国語音声合成のための方法及びシステムを提供する。

本発明の一実施形態によると、句読点付の複数の文を含む未加工コーパスを用いて韻律統計モデルを訓練するための方法であって、未加工コーパス中の複数の文をそれぞれ複数のトークン列に変換するステップと、複数のトークン列に生じる各隣接トークンペアの頻度、及び各トークンペアの関連位置で生じる休止を表す句読点の頻度を数えるステップと、各トークンペアの関連位置における休止確率を計算するステップと、トークンペア及びその関連位置における休止確率に基づいて韻律統計モデルを構成するステップと、を含む、韻律統計モデル訓練方法を提供する。

本発明の別の実施形態によると、韻律解析の方法であって、未加工コーパスを用いて韻律統計モデルを訓練する方法を用いて韻律統計モデルを訓練するステップと、少なくとも一文を含む韻律解析のためのテキストを入力するステップと、文をトークン列に変換するステップと、韻律統計モデルに基づいて前記トークン列の各休止位置の休止重みを計算するステップと、計算された各休止位置の休止重みに従って、休止タグを挿入する休止位置を少なくとも一つ選択するステップと、を含む、韻律解析方法を提供する。

本発明の別の実施形態によると、テキスト音声合成の方法であって、韻律解析の方法を用いて、少なくとも一つの休止タグをテキストに挿入するステップと、少なくとも一つの休止タグを挿入したテキストに従って音声合成を行うステップと、を含む、テキスト音声合成方法を提供する。

本発明の別の実施形態によると、句読点付の複数の文を含む未加工コーパスを用いて、韻律統計モデルを訓練するための装置であって、未加工コーパス中の複数の文をそれぞれ複数のトークン列に変換するトークン化ユニットと、複数のトークン列に生じる各隣接トークンペアの頻度、及びトークンペアの関連位置で生じる休止を表す句読点の頻度を数えるカウンターと、各トークンペアの関連位置における休止確率を計算する休止確率計算機と、トークンペア及びその関連位置における休止確率に基づいて、韻律統計モデルを構成する韻律統計モデルコンストラクタと、を含む、韻律統計モデル訓練装置を提供する。

本発明の別の実施形態によると、韻律解析のための装置であって、少なくとも一文を含む韻律解析のためのテキストを入力するテキスト入力ユニットと、文をトークン文に変換するトークン化ユニットと、未加工コーパスから訓練され、複数のトークンペア及び各複数のトークンペアの関連位置における休止確率を含む韻律統計モデルに基づいて、トークン文中の各休止位置の休止重みを計算する休止重み計算機と、計算された各休止位置の休止重みに従って、休止タグを挿入する少なくとも一つの休止位置を選択する休止タグ設定ユニットと、を含む、韻律解析装置を提供する。

本発明の別の実施形態によると、テキスト音声合成のためのシステムであって、韻律解析装置と、少なくとも一つの休止タグが挿入されたテキストに従って、音声合成を行う音声合成器と、を含む、テキスト音声合成システムを提供する。

本発明の様々な好ましい実施形態を、添付の図面とともに詳細に説明する。

本発明の発明者は、手動で処理されていないコーパス（文）が、例えばピリオドやコンマのような句読点等、膨大な休止情報を含むことに注目した。休止を表す句読点の情報は、韻律統計モデルを訓練するのに利用することができ、それによりコーパスに対し手動で韻律ラベリングを行うという問題を回避できる。

図１は、本発明の一実施形態による未加工コーパスを用いて韻律統計モデルを訓練する方法を示したフローチャートである。本実施形態の方法を用いて訓練された韻律統計モデルは、その他の実施形態とともに説明される下記の韻律解析方法、及び音声合成方法及び装置に使用される。

図１に示すように、最初にステップ１０１において、未加工コーパス中の文は複数のトークン列に変換される。本実施形態で採用される未加工コーパスは、手動でラベル付けされていない。未加工コーパスは、複数の文を含み、それぞれの文は一つ以上の句読点を含む。本発明の実施形態は、韻律情報を抽出するため、句読点を用いて韻律統計モデルを訓練する。

特に、本ステップでは、コーパス中の文は一つずつ複数のトークン列に変換される。ここでは、トークンとは、自然言語処理技術の分野の用語であり、自然言語の文を構成する基本単位を表す。コーパス中の文を複数のトークン列に変換する処理は、通常「トークン化」と呼ばれている。本実施形態のトークンは、以下実施形態において説明される韻律解析方法及び音声合成方法で採用されているトークンと同じ形式であるならば、文字、単語、スピーチの一部込みの単語又は成句、等の形態であってもよい。

次に、ステップ１０５において、これらのトークン列に生じる各連続トークンペアの頻度、及び各トークンペアの関連位置で生じる休止を表す句読点の頻度が数えられる。特に、各トークンペアの関連位置は、そのトークンペアの前後及び真中に含まれる。トークン列がｔ２とｔ３の真中に休止を表す句読点punct（例、コンマ）が存在する“ｔ１、ｔ２、punct、ｔ３、ｔ４”であると仮定する。

この場合、発生するトークンペア（ｔ１、ｔ２）、（ｔ２、ｔ３）及び（ｔ３、ｔ４）の頻度はそれぞれ１ずつ増やされる。

トークンペア（ｔ１、ｔ２）後の休止（ｔ１、ｔ２、punct）の頻度は１つだけ増やされる（ttp type, Token Token Punctuation）。

トークンペア（ｔ２、ｔ３）の真中の休止（ｔ２、punct、ｔ３）の頻度は１つだけ増やされる（tpt type, Token Punctuation Token）。

トークンペア（ｔ３、ｔ４）前の休止（punct、ｔ３、ｔ４）の頻度は１つだけ増やされる（ptt type, Punctuation Token Token）。

本ステップでは、コーパス中の各文は１つずつ処理され、発生する全てのトークンペアの頻度及び各トークンペアの関連位置で生じる休止を表す句読点の頻度が数えられる。

次にステップ１１０において、各トークンペアの関連位置における休止確率が計算される。

次にステップ１１５において、韻律統計モデルが構成され、上記で数えられ、計算されたトークンペア及びその関連位置における休止確率は韻律統計モデルに記憶される。

上記の説明から、本実施形態の方法が手動ラベル付けされていない未加工のコーパスを使用して韻律統計モデルを訓練できることが理解でき、更にこの韻律統計モデルは、後に説明する韻律解析及び音声合成において使用できる。

更に、本発明のその他の実施形態によると、各トークンペアの関連位置で休止確率を計算する際、統計的データに対しスムージング及びカットオフが行われ、これによりデータの過疎性によりもたらされる問題を回避する。スムージング及びカットオフは、本技術において用いられる一般的な処理であり、“Self-organized language modeling for speech recognition”, F. Jelinek, Reading in Speech Recognition, A. Waibel and K.F. Lee, eds., Morgan-Kaufmann, San Mateo, CA, 1990, pp.450-506において参照できる。

更に、本発明の別の好ましい実施形態によると、韻律統計モデルに係わる各トークン及びそのトークンに対応するトークンＩＤを記憶するトークン翻訳テーブルもまた存在する。それぞれのトークンペアの関連位置における休止確率を記憶する際、対応するトークンを表すため、このトークンＩＤを採用することができる。このように構成された韻律統計モデルは記憶スペースを節約することができ、トークン翻訳テーブルは、処理速度を向上させるため、下記に説明する韻律解析におけるトークン翻訳においてトークンインデックスとして使用することができる。

図２は、同様な発明概念で本発明の一実施形態による韻律解析方法を示したフローチャートである。本実施形態の韻律解析方法は、処理すべき文に対して韻律解析を行うため、上記実施形態の方法を用いて解析統計モデルを訓練する。

図２に示すように、最初にステップ２０１において、未加工コーパスを用いて韻律統計モデルが訓練される。とりわけ、図１とともに説明された韻律統計モデル訓練方法を、韻律統計モデルを訓練するために採用することができる。

次に、ステップ２０５において、少なくとも一文が含まれる韻律解析のためのテキストが入力される。

次に、ステップ２１０において、テキスト中の文がトークン列に変換される。上記実施形態のステップ１０１と同様に、本実施形態のトークンは、上記実施形態で説明される韻律統計モデル訓練方法及び以下実施形態で説明される音声合成方法で採用されるトークンと同じ形式であれば、文字、単語、スピーチの一部込みの単語又は成句等の形態をとることができる。

次に、ステップ２１５では、トークン文中の各休止位置の休止重みが中国語韻律統計モデルに基づいて計算される。特に、トークン列の各休止位置の休止重みは、韻律統計モデル中の対応するトークンペアの関連位置における休止確率に従って計算される。

例えば、トークン列“t₁, t₂, t₃, t₄”において、“t₂”及び“t₃”の真中の休止位置に対する休止重みは、下記式（４）を用いて計算される。

好ましくは、本実施形態では、休止位置はトークン列の最初のトークンの後、またはトークン列の最後のトークンの前に設定されることはない。

次に、ステップ２２０では、休止位置毎に計算された休止重みに従って休止タグを挿入するため、少なくとも一つの休止位置を選択する。特に、休止重みが既定閾値よりも高い休止位置を休止タグ挿入のために選択することができる。更に、別の条件も満たされることが望ましく、即ち、二つの選ばれた隣接する休止位置間のトークンの数が別の既定閾値よりも大きい必要があり、それにより余計なまた必要以上に途切れる休止を回避することができる。

上記の説明から、本実施形態の韻律解析方法を用いることにより、未加工コーパスにより訓練された韻律統計モデルに従って休止タグを挿入するためテキスト中の文に韻律解析を行うことができることが理解できる。

図３は、同様の発明概念で本発明の一実施形態によるテキスト音声合成方法を示したフローチャートである。本実施形態は、図３とともに以下に説明される。上記実施形態と同様の部分には、同じ数字や文字がつけられ、説明は適宜に省略される。

図３に示すように、本実施形態のステップ２０１から２２０は、図２で示す実施形態と同様であるため、その説明を省略する。ステップ３２５では、上記ステップ２０１乃至２２０を介して休止タグが挿入されたテキストに従って音声合成を行う。具体的には、挿入された休止タグに対応して、対応する休止が音声へ挿入される。

本実施形態のテキスト音声合成方法により、未加工コーパスを用いて訓練された韻律統計モデルに従って休止タグをテキスト中の文に挿入することができ、更にこれらの休止タグに従って音声合成の品質を向上させることができる。それにより、合成された音声はより自然でより理解しやすくなる。

図４は、同様の発明概念で本発明の一実施形態による未加工コーパスを用いて韻律統計モデルを訓練する装置を示したブロック図である。本実施形態は、図４とともに以下に説明される。上記実施形態と同様の部分に関しては、説明は適宜に省略される。

図４に示すように、未加工コーパスを用いて韻律統計モデルを訓練する本実施形態の装置４００は、句読点を有する複数の文を含み、手動でラベル付けされていない未加工コーパスを記憶する未加工コーパスライブラリ４０１と、未加工コーパスの複数の文をそれぞれ複数のトークン列に変換するトークン化ユニット４０２と、複数のトークン列に生じる各隣接トークンペアの頻度及び各トークンペアの関連位置において生じる休止を表す句読点の頻度を数えるカウンター４０３と、各トークンペアの関連位置における休止確率を計算する休止確率計算機４０４と、トークンペア及び休止確率計算機４０４により計算された関連位置における休止確率に基づいて、韻律統計モデル４０６を構成する韻律統計モデルコンストラクタ４０５と、を含む。

前記実施形態と同様に、トークンは、本実施形態において、文字、単語、スピーチの一部込みの単語及び成句の中から選択されたいずれか一つの形態である。各トークンペアの関連位置は、トークンペアの前後及び真中を含む。カウンター４０３は、各トークンペアの前後及び真中の位置で生じる休止を表す句読点の頻度を数える。

休止確率計算機４０４は、トークンペアの頻度及びトークンペアの前に生じる休止を表す句読点の頻度に基づいて、トークンペアの前の休止確率を計算し、例えば、

更に、休止確率計算機４０４は、トークンペアの頻度及びトークンペアの後に生じる休止を表す句読点の頻度に基づいて、トークンペアの後の休止確率を計算する。例えば、

更に、休止確率計算機４０４は、トークンペアの頻度及びトークンペアの真中に生じる休止を表す句読点の頻度に基づいて、トークンペアの真中の休止確率を計算する。例えば、

また、図４には示されていないが、未加工コーパスを用いた本実施形態の韻律統計モデル訓練装置４００は、計算された休止確率に対してスムージングプロセスを行うスムージングユニットと、計算された休止確率に対してカットオフプロセスを行うカットオフユニットと、を更に含む。

また、前記実施形態と同様に、本実施形態は好ましくは、韻律統計モデルに係わるトークン及びそのトークンに対応するトークンＩＤを記憶するトークン翻訳テーブルを更に含むことができる。トークン翻訳テーブルはトークン化ユニット４０２に含むことが可能で、トークン化ユニットの一部として、或いは単独で実行することができる。更に、それぞれのトークンペアの関連位置における休止確率を韻律統計モデルに記憶する時、対応するトークンを表すためにトークンＩＤを採用することができる。このように構成された韻律統計モデルは、記憶スペースを節約することができ、またトークン翻訳テーブルは、処理速度を向上させるため、以下に説明する韻律解析におけるトークン翻訳のトークンインデックスとして使用可能である。また、トークン翻訳テーブルは、韻律統計モデルの一部として、以下に説明される韻律解析装置及びテキスト音声合成システムに韻律統計モデルとともに転送可能である。

未加工コーパスを用いた本実施形態の韻律統計モデル訓練装置４００とその各種構成要素は、専門の回路やチップで構成することができ、また対応のプログラムを実行するコンピュータ（プロセッサ）により実行することもできる。また、未加工コーパスを用いた本実施形態の韻律統計モデル訓練装置４００は、図１とともに説明された実施形態の未加工コーパスを用いた韻律統計モデル訓練方法を実用上実施することができる。

図５は、同様な発明概念で本発明の一実施形態による韻律解析装置を示すブロック図である。本実施形態は、図５とともに以下に説明される。上記実施形態と同じ部分に関しては、説明は適切に省略される。

図５に示すように、本実施形態の韻律解析装置５００は、少なくとも一文を含んだ韻律解析のためのテキストを入力するテキスト入力ユニット５０１と、帰属テキストの各文をトークン列に変換するトーンクン化ユニット５０２と、未加工コーパスから訓練され、複数のトークンペア及び複数のトークンペアの各々の関連位置における休止確率を含む韻律統計モデル４０６に基づいて、トークン文中の各休止位置の休止重みを計算する休止重み計算機５０３と、休止重み計算機５０３によって計算された文の各休止位置に対する休止重みに従って、休止タグを挿入するため少なくとも一つの休止位置を選択する休止タグ設定ユニット５０４と、を含む。

前記実施形態と同様に、本実施形態においてもトークンは、文字、単語、スピーチの一部込みの単語及び成句から選択されるいずれか一つの形態をとる。各トークンペアの関連位置は、トークンペアの前後及び真中を含む。

休止重み計算機５０３は、韻律統計モデル中の対応するトークンペアの関連位置における休止確率に従って、トークン列の各休止位置の休止重みを計算する。例えば、休止重み計算機５０３は、

本実施形態では、好ましくは、休止タグ設定ユニット５０４は、トークン列の最初のトークンの後又はトークン列の最後のトークンの前に休止位置を設定しないように構成されている。

休止タグ設定ユニット５０４は、休止タグを挿入するのに休止重みが既定閾値よりも高い休止位置を選択する。更に好ましくは、別の条件、即ち、二つの選択された隣接する休止位置間のトークンの数が別の既定閾値よりも大きいという条件を満たす必要があり、これにより余計な休止や必要以上に途切れる休止を回避することができる。

更に、前記実施形態と同様に、好ましくは、韻律統計モデルがトークン翻訳テーブルを含む場合、本実施形態のトークン化ユニット５０２は、前記韻律統計モデル中のトークン翻訳テーブルを用いてトークン翻訳を行うことができる。韻律統計モデルがトークン翻訳テーブルを含まない場合、本実施形態のトークン化ユニット５０２は、自身のトークン翻訳テーブル又はその他の方法で取得したトークン翻訳テーブルを用いてトークン翻訳を行うことができる。

本実施形態の韻律解析装置５００及びその各種構成要素は、専門の回路やチップにより構成することができ、また対応のプログラムを実行するコンピュータ（プロセッサ）により実施することができる。また、本実施形態の韻律解析装置５００は、図２とともに説明された実施形態の韻律解析方法を実用上実施することができる。

図６は、同様な発明概念で本発明の一実施形態によるテキスト音声合成システムをブロック図で示したものである。本実施形態は、図６とともに以下に説明される。上記実施形態と同じ部分に関しては、説明は適宜に省略される。

図６に示すように、本実施形態のテキスト音声合成システム６００は、韻律解析装置５００と、音声合成器６０１とを含む。韻律解析装置５００は、図５とともに説明された実施形態の韻律解析装置である。音声合成を用いて処理されるテキストは、韻律解析のため、装置５００に入力される。韻律解析装置５００により休止タグが挿入されたテキストは、次々に音声合成器６０１に入力される。ここで、音声合成器６０１は、対応する休止をテキスト中の休止タグに従って合成された音声に生成できさえすれば、如何なる音声合成器６０１であっても良い。

本実施形態のテキスト音声合成システム６００及びその各種構成要素は、専用の回路やチップで構成することができ、また対応のプログラムを実行するコンピュータ（プロセッサ）により実行することもできる。韻律解析装置５００及びテキスト音声合成システム６００内の音声合成器６０１及びそれらの各構成要素は、物理的には互いに別個に存在するが、動作上は互いに接続されている。例えば、韻律解析装置５００及び音声合成器６０１は、ネットワーク又はその他の通信メディアを介してデータを転送する物理的には分離した二つのディバイスとすることができる。本実施形態のテキスト音声合成システム６００は、図２とともに説明された実施形態のテキスト音声合成方法を実用上実施することができる。

図７は、同様な発明概念で本発明の別の実施形態によるテキスト音声合成システムを示したブロック図である。本実施形態は、図７とともに以下に説明される。上記実施形態と同じ部分に関しては、説明は適宜に省略される。

図７に示すように、本実施形態のテキスト音声合成システム６００’は、図６に示す実施形態とは異なり、図４とともに説明された実施形態の未加工コーパスを用いて韻律統計モデルを訓練する装置である韻律統計モデル訓練装置４００を更に含む。

韻律統計モデル訓練装置４００は、手動レベル付けされていない未加工コーパスを用いて韻律統計モデルを訓練し、その韻律統計モデルを韻律解析装置５００に与え、韻律解析を行う。

前記実施形態と同じように、本実施形態のテキスト音声合成システム６００’及びその各種構成要素は、専用の回路やチップで構成することができ、また対応のプログラムを実行するコンピュータ（プロセッサ）により実行することもできる。また、テキスト音声合成システム６００’の各種構成要素は、物理的には互いに別個に存在するが、動作上は互いに接続されている。

実際には、本実施形態のテキスト音声合成システム６００’中の韻律統計モデル訓練装置４００は、音声合成処理前に別に訓練を行うことができる。よって、「オフライン」モジュールとも呼ばれている。

本発明における、未加工コーパスを用いた韻律統計モデル訓練方法及び装置、韻律解析方法及び装置、及び音声合成方法及びシステムは、模範的な実施形態の幾つかを用いて詳細に説明されてきたが、これらの実施形態は、包括手的なものではなく、当業者は、本発明の精神と範囲内で様々な変形や改良を加えることができる。そのため、本発明はこれらの実施形態には限定されず、添付の請求項は本発明の範囲を単に定義付けするに過ぎない。

本発明の一実施形態による韻律統計モデルを未加工のコーパスを用いて訓練する方法を示すフローチャートである。本発明の一実施形態による韻律解析の方法を示すフローチャートである。本発明の一実施形態によるテキスト音声合成の方法を示すフローチャートである。本発明の一実施形態による韻律統計モデルを未加工のコーパスを用いて訓練する装置を示すブロック図である。本発明の一実施形態による韻律解析のための装置を示すブロック図である。本発明の一実施形態によるテキスト音声合成のためのシステムを示すブロック図である。本発明の別の実施形態によるテキスト音声合成のためのシステムを示すブロック図である。

Claims

句読点付の複数の文を含む未加工コーパスを用いて韻律統計モデルを訓練するための方法であって、
前記未加工コーパス中の前記複数の文をそれぞれ複数のトークン列に変換するステップと、
各前記複数のトークン列に生じる各隣接トークンペアの頻度、及び前記各トークンペアの関連位置にて生じる休止を表す句読点の頻度を数えるステップと、
各隣接トークンペアの頻度及び句読点の頻度に基づいて、前記各トークンペアの前記関連位置における休止確率を計算するステップと、
前記トークンペア及びその関連位置における前記休止確率に基づいて前記韻律統計モデルを構成するステップと、を含む、方法。
前記各トークンペアの前記関連位置は、前記トークンペアの前後及び真中を含む、請求項１記載の韻律統計モデル訓練方法。
前記各トークンペアの前記関連位置にて休止確率を計算する前記ステップは、
前記トークンペアの頻度及び前記トークンペアの前に生じる休止を表す句読点の頻度に基づいて前記トークンペアの前の休止確率を計算するステップと、
前記トークンペアの頻度及び前記トークンペアの後に生じる休止を表す句読点の頻度に基づいて前記トークンペアの後の休止確率を計算するステップと、
前記トークンペアの頻度及び前記トークンペアの真中に生じる休止を表す句読点の頻度に基づいて前記トークンペアの真中の休止確率を計算するステップと、を含む、請求項２記載の韻律統計モデル訓練方法。
前記トークンペア前の休止確率を計算する前記ステップは、

請求項３記載の韻律統計モデル訓練方法。
前記トークンペア後の休止確率を計算する前記ステップは、

請求項３記載の韻律統計モデル訓練方法。
前記トークンペアの真中の休止確率を計算する前記ステップは、

請求項３記載の韻律統計モデル訓練方法。
前記各トークンペアの前記関連位置における休止確率を計算する前記ステップは、
前記計算された休止確率にスムージング処理を行うことを更に含む、請求項１記載の韻律統計モデル訓練方法。
前記各トークンペアの前記関連位置における休止確率を計算する前記ステップは、
前記計算された休止確率にカットオフ処理を行うことを更に含む、請求項１記載の韻律統計モデル訓練方法。
前記トークンは、文字、単語、単語とスピーチの一部及び成句から選択されるいずれか一つの形式を取る、請求項１記載の韻律統計モデル訓練方法。
前記韻律統計モデルは、韻律統計モデルに係わる各トークン及び前記トークンに対応するトークンＩＤを記憶するトークン翻訳テーブルを含む、請求項１記載の韻律統計モデル訓練方法。
韻律解析の方法であって、
請求項１乃至１０のいずれか一つの方法を用いて韻律統計モデルを訓練するステップと、
少なくとも一文を含む韻律解析のためのテキストを入力するステップと、
文をトークン列に変換するステップと、
前記韻律統計モデルに基づいて前記トークン列中の各休止位置の休止重みを計算するステップと、
前記計算された各休止位置の休止重みに従って、休止タグを挿入する休止位置を少なくとも一つ選択するステップと、を含む、方法。
前記トークンは、文字、単語、単語とスピーチの一部及び成句から選択されたいずれか一つの形式を取る、請求項１１記載の韻律解析方法。
前記韻律統計モデルは、複数のトークンペア及び各前記複数のトークンペアの関連位置における休止確率を含み、前記トークンシーケンス中の各休止位置の休止重みを計算する前記ステップは、
韻律統計モデル中の対応するトークンペアの関連位置における休止確率に従って、前記トークン列中の各休止位置の休止重みを計算するステップを含む、請求項１１記載の韻律解析方法。
各トークンペアの関連位置は、前記トークンペアの前後及び真中を含み、前記トークン列中の各休止位置の休止重みを計算するステップは、

を用いて各休止位置の休止重みを計算するステップを含む、請求項１３記載の韻律解析方法。
休止位置は、前記トークン列の最初のトークンの後、又は前記トークン列の最後のトークンの前に設定されない、請求項１３記載の韻律解析方法。
休止タグを挿入するため、少なくとも一つの休止位置を選択する前記ステップは、
休止位置の休止重みが既定閾値よりも高いことを条件に行われる、請求項１１記載の韻律解析方法。
休止タグを挿入するため、少なくとも一つの休止位置を選択する前記ステップは、
休止位置の休止重みが既定閾値よりも高いこと、及び
二つの選択された休止位置間のトークン数が、別の既定閾値よりも大きいことを条件に行われる、請求項１１記載の韻律解析方法。
句読点を有する複数の文を含む未加工コーパスを用いて、韻律統計モデルを訓練するための装置であって、
前記未加工コーパス中の前記複数の文をそれぞれ複数のトークン列に変換するトークン化ユニットと、
前記複数のトークンシーケンス中に生じる各隣接トークンペアの頻度、及び前記トークンペアの関連位置において生じる休止を表す句読点の頻度を数えるカウンタと、
各隣接トークンペアの頻度及び句読点の頻度に基づいて、前記各トークンペアの前記関連位置における休止確率を計算する休止確率計算機と、
前記トークンペア及びその関連位置における休止確率に基づいて、前記韻律統計モデルを構成する韻律統計モデルコンストラクタと、を含む、韻律統計モデル訓練装置。
前記各トークンペアの前記関連位置は、前記トークンペアの前後及び真中を含む、請求項１８記載の韻律統計モデル訓練装置。
前記休止確率計算機は、前記トークンペアの頻度及び前記トークンペア前に生じる休止を表す句読点の頻度に基づいて、トークンペア前の休止確率を計算し、前記トークンペアの頻度及び前記トークンペア後に生じる休止を表す句読点の頻度に基づいて、前記トークンペア後の休止確率を計算し、前記トークンペアの頻度及び前記トークンペアの真中に生じる休止を表す句読点の頻度に基づいて、トークンペアの真中の休止確率を計算する、請求項１９記載の韻律統計モデル訓練装置。
前記休止確率計算機は、

請求項２０記載の韻律統計モデル訓練装置。
前記休止確率計算機は、

請求項２０記載の韻律統計モデル訓練装置。
前記休止確率計算機は、

請求項２０記載の韻律統計モデル訓練装置。
前記計算された休止確率に対しスムージング処理を行うスムージングユニットを更に含む、請求項１８記載の韻律統計モデル訓練装置。
前記計算された休止確率に対しカットオフ処理を行うカットオフユニットを更に含む、請求項１８記載の韻律統計モデル訓練装置。
前記トークンは、文字、単語、スピーチの一部込みの単語及び成句から選択されるいずれか一つの形式を取る、請求項１８記載の韻律統計モデル訓練装置。
韻律解析のための装置であって、
少なくとも一文を含む韻律解析のためのテキストを入力するテキスト入力ユニットと、
文をトークン文に変換するトークン化ユニットと、
請求項１８乃至２６のいずれか一つの装置を用いて、未加工コーパスから訓練され、複数のトークンペア及び各前記複数のトークンペアの関連位置における休止確率を含む韻律統計モデルに基づいて、前記トークン文中の各休止位置の休止重みを計算する休止重み計算機と、
前記計算された各休止位置の休止重みに従って、休止タグを挿入する少なくとも一つの休止位置を選択する休止タグ設定ユニットと、を含む、韻律解析装置。
前記トークンは、文字、単語、スピーチの一部込みの単語及び成句から選択されるいずれか一つの形式を取る、請求項２７記載の韻律解析装置。
前記休止重み計算機は、韻律統計モデル中の対応するトークンペアの関連位置における休止確率に従って、前記トークン列の各休止位置の休止重みを計算する、請求項２７記載の韻律解析装置。
各トークンペアの関連位置は、前記トークンペアの前後及び真中を含み、前記休止重み計算機は、

を用いて、各休止位置の休止重みを計算する、請求項２９記載の韻律解析装置。
前記休止タグユニットは、前記トークン文の最初のトークンの後、或いは前記トークン文の最後のトークンの前に休止位置を設定しないように構成された、請求項２９記載の韻律解析装置。
休止位置の休止重みが既定の閾値よりも高いことを条件に、前記休止タグ設定ユニットは、休止タグを挿入する少なくとも一つ以上の休止位置を選択する、請求項２７記載の韻律解析装置。
休止位置の休止重みが既定の閾値よりも高いこと及び二つの選択された休止位置間のトークンの数が別の既定の閾値よりも大きいことを条件に、前記休止タグ設定ユニットは、休止タグを挿入する少なくとも一つ以上の休止位置を選択する、請求項２７記載の韻律解析装置。