JP4762103B2 - 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置 - Google Patents

韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置 Download PDF

Info

Publication number
JP4762103B2
JP4762103B2 JP2006276954A JP2006276954A JP4762103B2 JP 4762103 B2 JP4762103 B2 JP 4762103B2 JP 2006276954 A JP2006276954 A JP 2006276954A JP 2006276954 A JP2006276954 A JP 2006276954A JP 4762103 B2 JP4762103 B2 JP 4762103B2
Authority
JP
Japan
Prior art keywords
pause
token
prosodic
statistical model
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006276954A
Other languages
English (en)
Other versions
JP2007108749A (ja
Inventor
ワン・ハイフェン
リー・グオファ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2007108749A publication Critical patent/JP2007108749A/ja
Application granted granted Critical
Publication of JP4762103B2 publication Critical patent/JP4762103B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Description

本発明は音声合成技術に関連し、とりわけ、音声合成における韻律解析技術及び韻律統計モデルを訓練する技術に関する。
テキスト音声合成(TTS)システムは、人と同じような自然な音声をコンピュータに話させることを目標としている。人は文を自然に読む時、固有の休止表示である句読点(例えば、ピリオドやコンマ等)の幾つかとは別に、句読点の無い個所でも時折休止をする。よって、より良い品質の合成音声を達成するためには、句読点の無い個所でも同じように休止を必要とする個所を自動的に判断する機能が音声合成システムには必要となり、それには音声合成品質を向上させるための前工程として、テキストに対し韻律解析を実行する必要がある。
中国語韻律構造を予測するルール学習に基づいた方法が、非特許文献1に提案されている。この方法は、手動で韻律ラベリングされたコーパスから言語特性及び二段韻律構造タグを抽出し、用例データベースを確立し、ルール学習アルゴリズムを用いて、この用例から韻律成句予測のルールを自動的にもたらす。
しかしながら、上述の方法では予め韻律解析された大量のコーパスが必要となり、それが故にコーパスに対し韻律解析を行うことは骨の折れる作業であり、その品質を管理するのは困難である。
"Rule-learning based prosodic structure prediction", ZHAO Sheng, et al, Journal of Chinese Information Processing, Vol. 16, No. 5, 2002.9, PP.30-37。
従来技術の問題点を解決すべく、本発明では、手動のラベリングを必要としない未加工コーパスを用いて中国語韻律統計モデルを訓練する方法及び装置、中国語韻律解析のための方法及び装置、及び中国語音声合成のための方法及びシステムを提供する。
本発明の一実施形態によると、句読点付の複数の文を含む未加工コーパスを用いて韻律統計モデルを訓練するための方法であって、未加工コーパス中の複数の文をそれぞれ複数のトークン列に変換するステップと、複数のトークン列に生じる各隣接トークンペアの頻度、及び各トークンペアの関連位置で生じる休止を表す句読点の頻度を数えるステップと、各トークンペアの関連位置における休止確率を計算するステップと、トークンペア及びその関連位置における休止確率に基づいて韻律統計モデルを構成するステップと、を含む、韻律統計モデル訓練方法を提供する。
本発明の別の実施形態によると、韻律解析の方法であって、未加工コーパスを用いて韻律統計モデルを訓練する方法を用いて韻律統計モデルを訓練するステップと、少なくとも一文を含む韻律解析のためのテキストを入力するステップと、文をトークン列に変換するステップと、韻律統計モデルに基づいて前記トークン列の各休止位置の休止重みを計算するステップと、計算された各休止位置の休止重みに従って、休止タグを挿入する休止位置を少なくとも一つ選択するステップと、を含む、韻律解析方法を提供する。
本発明の別の実施形態によると、テキスト音声合成の方法であって、韻律解析の方法を用いて、少なくとも一つの休止タグをテキストに挿入するステップと、少なくとも一つの休止タグを挿入したテキストに従って音声合成を行うステップと、を含む、テキスト音声合成方法を提供する。
本発明の別の実施形態によると、句読点付の複数の文を含む未加工コーパスを用いて、韻律統計モデルを訓練するための装置であって、未加工コーパス中の複数の文をそれぞれ複数のトークン列に変換するトークン化ユニットと、複数のトークン列に生じる各隣接トークンペアの頻度、及びトークンペアの関連位置で生じる休止を表す句読点の頻度を数えるカウンターと、各トークンペアの関連位置における休止確率を計算する休止確率計算機と、トークンペア及びその関連位置における休止確率に基づいて、韻律統計モデルを構成する韻律統計モデルコンストラクタと、を含む、韻律統計モデル訓練装置を提供する。
本発明の別の実施形態によると、韻律解析のための装置であって、少なくとも一文を含む韻律解析のためのテキストを入力するテキスト入力ユニットと、文をトークン文に変換するトークン化ユニットと、未加工コーパスから訓練され、複数のトークンペア及び各複数のトークンペアの関連位置における休止確率を含む韻律統計モデルに基づいて、トークン文中の各休止位置の休止重みを計算する休止重み計算機と、計算された各休止位置の休止重みに従って、休止タグを挿入する少なくとも一つの休止位置を選択する休止タグ設定ユニットと、を含む、韻律解析装置を提供する。
本発明の別の実施形態によると、テキスト音声合成のためのシステムであって、韻律解析装置と、少なくとも一つの休止タグが挿入されたテキストに従って、音声合成を行う音声合成器と、を含む、テキスト音声合成システムを提供する。
本発明の様々な好ましい実施形態を、添付の図面とともに詳細に説明する。
本発明の発明者は、手動で処理されていないコーパス(文)が、例えばピリオドやコンマのような句読点等、膨大な休止情報を含むことに注目した。休止を表す句読点の情報は、韻律統計モデルを訓練するのに利用することができ、それによりコーパスに対し手動で韻律ラベリングを行うという問題を回避できる。
図1は、本発明の一実施形態による未加工コーパスを用いて韻律統計モデルを訓練する方法を示したフローチャートである。本実施形態の方法を用いて訓練された韻律統計モデルは、その他の実施形態とともに説明される下記の韻律解析方法、及び音声合成方法及び装置に使用される。
図1に示すように、最初にステップ101において、未加工コーパス中の文は複数のトークン列に変換される。本実施形態で採用される未加工コーパスは、手動でラベル付けされていない。未加工コーパスは、複数の文を含み、それぞれの文は一つ以上の句読点を含む。本発明の実施形態は、韻律情報を抽出するため、句読点を用いて韻律統計モデルを訓練する。
特に、本ステップでは、コーパス中の文は一つずつ複数のトークン列に変換される。ここでは、トークンとは、自然言語処理技術の分野の用語であり、自然言語の文を構成する基本単位を表す。コーパス中の文を複数のトークン列に変換する処理は、通常「トークン化」と呼ばれている。本実施形態のトークンは、以下実施形態において説明される韻律解析方法及び音声合成方法で採用されているトークンと同じ形式であるならば、文字、単語、スピーチの一部込みの単語又は成句、等の形態であってもよい。
次に、ステップ105において、これらのトークン列に生じる各連続トークンペアの頻度、及び各トークンペアの関連位置で生じる休止を表す句読点の頻度が数えられる。特に、各トークンペアの関連位置は、そのトークンペアの前後及び真中に含まれる。トークン列がt2とt3の真中に休止を表す句読点punct(例、コンマ)が存在する“t1、t2、punct、t3、t4”であると仮定する。
この場合、発生するトークンペア(t1、t2)、(t2、t3)及び(t3、t4)の頻度はそれぞれ1ずつ増やされる。
トークンペア(t1、t2)後の休止(t1、t2、punct)の頻度は1つだけ増やされる(ttp type, Token Token Punctuation)。
トークンペア(t2、t3)の真中の休止(t2、punct、t3)の頻度は1つだけ増やされる(tpt type, Token Punctuation Token)。
トークンペア(t3、t4)前の休止(punct、t3、t4)の頻度は1つだけ増やされる(ptt type, Punctuation Token Token)。
本ステップでは、コーパス中の各文は1つずつ処理され、発生する全てのトークンペアの頻度及び各トークンペアの関連位置で生じる休止を表す句読点の頻度が数えられる。
次にステップ110において、各トークンペアの関連位置における休止確率が計算される。
Figure 0004762103
Figure 0004762103
Figure 0004762103
次にステップ115において、韻律統計モデルが構成され、上記で数えられ、計算されたトークンペア及びその関連位置における休止確率は韻律統計モデルに記憶される。
上記の説明から、本実施形態の方法が手動ラベル付けされていない未加工のコーパスを使用して韻律統計モデルを訓練できることが理解でき、更にこの韻律統計モデルは、後に説明する韻律解析及び音声合成において使用できる。
更に、本発明のその他の実施形態によると、各トークンペアの関連位置で休止確率を計算する際、統計的データに対しスムージング及びカットオフが行われ、これによりデータの過疎性によりもたらされる問題を回避する。スムージング及びカットオフは、本技術において用いられる一般的な処理であり、“Self-organized language modeling for speech recognition”, F. Jelinek, Reading in Speech Recognition, A. Waibel and K.F. Lee, eds., Morgan-Kaufmann, San Mateo, CA, 1990, pp.450-506において参照できる。
更に、本発明の別の好ましい実施形態によると、韻律統計モデルに係わる各トークン及びそのトークンに対応するトークンIDを記憶するトークン翻訳テーブルもまた存在する。それぞれのトークンペアの関連位置における休止確率を記憶する際、対応するトークンを表すため、このトークンIDを採用することができる。このように構成された韻律統計モデルは記憶スペースを節約することができ、トークン翻訳テーブルは、処理速度を向上させるため、下記に説明する韻律解析におけるトークン翻訳においてトークンインデックスとして使用することができる。
図2は、同様な発明概念で本発明の一実施形態による韻律解析方法を示したフローチャートである。本実施形態の韻律解析方法は、処理すべき文に対して韻律解析を行うため、上記実施形態の方法を用いて解析統計モデルを訓練する。
図2に示すように、最初にステップ201において、未加工コーパスを用いて韻律統計モデルが訓練される。とりわけ、図1とともに説明された韻律統計モデル訓練方法を、韻律統計モデルを訓練するために採用することができる。
次に、ステップ205において、少なくとも一文が含まれる韻律解析のためのテキストが入力される。
次に、ステップ210において、テキスト中の文がトークン列に変換される。上記実施形態のステップ101と同様に、本実施形態のトークンは、上記実施形態で説明される韻律統計モデル訓練方法及び以下実施形態で説明される音声合成方法で採用されるトークンと同じ形式であれば、文字、単語、スピーチの一部込みの単語又は成句等の形態をとることができる。
次に、ステップ215では、トークン文中の各休止位置の休止重みが中国語韻律統計モデルに基づいて計算される。特に、トークン列の各休止位置の休止重みは、韻律統計モデル中の対応するトークンペアの関連位置における休止確率に従って計算される。
例えば、トークン列“t1, t2, t3, t4”において、“t2”及び“t3”の真中の休止位置に対する休止重みは、下記式(4)を用いて計算される。
Figure 0004762103
好ましくは、本実施形態では、休止位置はトークン列の最初のトークンの後、またはトークン列の最後のトークンの前に設定されることはない。
次に、ステップ220では、休止位置毎に計算された休止重みに従って休止タグを挿入するため、少なくとも一つの休止位置を選択する。特に、休止重みが既定閾値よりも高い休止位置を休止タグ挿入のために選択することができる。更に、別の条件も満たされることが望ましく、即ち、二つの選ばれた隣接する休止位置間のトークンの数が別の既定閾値よりも大きい必要があり、それにより余計なまた必要以上に途切れる休止を回避することができる。
上記の説明から、本実施形態の韻律解析方法を用いることにより、未加工コーパスにより訓練された韻律統計モデルに従って休止タグを挿入するためテキスト中の文に韻律解析を行うことができることが理解できる。
図3は、同様の発明概念で本発明の一実施形態によるテキスト音声合成方法を示したフローチャートである。本実施形態は、図3とともに以下に説明される。上記実施形態と同様の部分には、同じ数字や文字がつけられ、説明は適宜に省略される。
図3に示すように、本実施形態のステップ201から220は、図2で示す実施形態と同様であるため、その説明を省略する。ステップ325では、上記ステップ201乃至220を介して休止タグが挿入されたテキストに従って音声合成を行う。具体的には、挿入された休止タグに対応して、対応する休止が音声へ挿入される。
本実施形態のテキスト音声合成方法により、未加工コーパスを用いて訓練された韻律統計モデルに従って休止タグをテキスト中の文に挿入することができ、更にこれらの休止タグに従って音声合成の品質を向上させることができる。それにより、合成された音声はより自然でより理解しやすくなる。
図4は、同様の発明概念で本発明の一実施形態による未加工コーパスを用いて韻律統計モデルを訓練する装置を示したブロック図である。本実施形態は、図4とともに以下に説明される。上記実施形態と同様の部分に関しては、説明は適宜に省略される。
図4に示すように、未加工コーパスを用いて韻律統計モデルを訓練する本実施形態の装置400は、句読点を有する複数の文を含み、手動でラベル付けされていない未加工コーパスを記憶する未加工コーパスライブラリ401と、未加工コーパスの複数の文をそれぞれ複数のトークン列に変換するトークン化ユニット402と、複数のトークン列に生じる各隣接トークンペアの頻度及び各トークンペアの関連位置において生じる休止を表す句読点の頻度を数えるカウンター403と、各トークンペアの関連位置における休止確率を計算する休止確率計算機404と、トークンペア及び休止確率計算機404により計算された関連位置における休止確率に基づいて、韻律統計モデル406を構成する韻律統計モデルコンストラクタ405と、を含む。
前記実施形態と同様に、トークンは、本実施形態において、文字、単語、スピーチの一部込みの単語及び成句の中から選択されたいずれか一つの形態である。各トークンペアの関連位置は、トークンペアの前後及び真中を含む。カウンター403は、各トークンペアの前後及び真中の位置で生じる休止を表す句読点の頻度を数える。
休止確率計算機404は、トークンペアの頻度及びトークンペアの前に生じる休止を表す句読点の頻度に基づいて、トークンペアの前の休止確率を計算し、例えば、
Figure 0004762103
更に、休止確率計算機404は、トークンペアの頻度及びトークンペアの後に生じる休止を表す句読点の頻度に基づいて、トークンペアの後の休止確率を計算する。例えば、
Figure 0004762103
更に、休止確率計算機404は、トークンペアの頻度及びトークンペアの真中に生じる休止を表す句読点の頻度に基づいて、トークンペアの真中の休止確率を計算する。例えば、
Figure 0004762103
また、図4には示されていないが、未加工コーパスを用いた本実施形態の韻律統計モデル訓練装置400は、計算された休止確率に対してスムージングプロセスを行うスムージングユニットと、計算された休止確率に対してカットオフプロセスを行うカットオフユニットと、を更に含む。
また、前記実施形態と同様に、本実施形態は好ましくは、韻律統計モデルに係わるトークン及びそのトークンに対応するトークンIDを記憶するトークン翻訳テーブルを更に含むことができる。トークン翻訳テーブルはトークン化ユニット402に含むことが可能で、トークン化ユニットの一部として、或いは単独で実行することができる。更に、それぞれのトークンペアの関連位置における休止確率を韻律統計モデルに記憶する時、対応するトークンを表すためにトークンIDを採用することができる。このように構成された韻律統計モデルは、記憶スペースを節約することができ、またトークン翻訳テーブルは、処理速度を向上させるため、以下に説明する韻律解析におけるトークン翻訳のトークンインデックスとして使用可能である。また、トークン翻訳テーブルは、韻律統計モデルの一部として、以下に説明される韻律解析装置及びテキスト音声合成システムに韻律統計モデルとともに転送可能である。
未加工コーパスを用いた本実施形態の韻律統計モデル訓練装置400とその各種構成要素は、専門の回路やチップで構成することができ、また対応のプログラムを実行するコンピュータ(プロセッサ)により実行することもできる。また、未加工コーパスを用いた本実施形態の韻律統計モデル訓練装置400は、図1とともに説明された実施形態の未加工コーパスを用いた韻律統計モデル訓練方法を実用上実施することができる。
図5は、同様な発明概念で本発明の一実施形態による韻律解析装置を示すブロック図である。本実施形態は、図5とともに以下に説明される。上記実施形態と同じ部分に関しては、説明は適切に省略される。
図5に示すように、本実施形態の韻律解析装置500は、少なくとも一文を含んだ韻律解析のためのテキストを入力するテキスト入力ユニット501と、帰属テキストの各文をトークン列に変換するトーンクン化ユニット502と、未加工コーパスから訓練され、複数のトークンペア及び複数のトークンペアの各々の関連位置における休止確率を含む韻律統計モデル406に基づいて、トークン文中の各休止位置の休止重みを計算する休止重み計算機503と、休止重み計算機503によって計算された文の各休止位置に対する休止重みに従って、休止タグを挿入するため少なくとも一つの休止位置を選択する休止タグ設定ユニット504と、を含む。
前記実施形態と同様に、本実施形態においてもトークンは、文字、単語、スピーチの一部込みの単語及び成句から選択されるいずれか一つの形態をとる。各トークンペアの関連位置は、トークンペアの前後及び真中を含む。
休止重み計算機503は、韻律統計モデル中の対応するトークンペアの関連位置における休止確率に従って、トークン列の各休止位置の休止重みを計算する。例えば、休止重み計算機503は、
Figure 0004762103
本実施形態では、好ましくは、休止タグ設定ユニット504は、トークン列の最初のトークンの後又はトークン列の最後のトークンの前に休止位置を設定しないように構成されている。
休止タグ設定ユニット504は、休止タグを挿入するのに休止重みが既定閾値よりも高い休止位置を選択する。更に好ましくは、別の条件、即ち、二つの選択された隣接する休止位置間のトークンの数が別の既定閾値よりも大きいという条件を満たす必要があり、これにより余計な休止や必要以上に途切れる休止を回避することができる。
更に、前記実施形態と同様に、好ましくは、韻律統計モデルがトークン翻訳テーブルを含む場合、本実施形態のトークン化ユニット502は、前記韻律統計モデル中のトークン翻訳テーブルを用いてトークン翻訳を行うことができる。韻律統計モデルがトークン翻訳テーブルを含まない場合、本実施形態のトークン化ユニット502は、自身のトークン翻訳テーブル又はその他の方法で取得したトークン翻訳テーブルを用いてトークン翻訳を行うことができる。
本実施形態の韻律解析装置500及びその各種構成要素は、専門の回路やチップにより構成することができ、また対応のプログラムを実行するコンピュータ(プロセッサ)により実施することができる。また、本実施形態の韻律解析装置500は、図2とともに説明された実施形態の韻律解析方法を実用上実施することができる。
図6は、同様な発明概念で本発明の一実施形態によるテキスト音声合成システムをブロック図で示したものである。本実施形態は、図6とともに以下に説明される。上記実施形態と同じ部分に関しては、説明は適宜に省略される。
図6に示すように、本実施形態のテキスト音声合成システム600は、韻律解析装置500と、音声合成器601とを含む。韻律解析装置500は、図5とともに説明された実施形態の韻律解析装置である。音声合成を用いて処理されるテキストは、韻律解析のため、装置500に入力される。韻律解析装置500により休止タグが挿入されたテキストは、次々に音声合成器601に入力される。ここで、音声合成器601は、対応する休止をテキスト中の休止タグに従って合成された音声に生成できさえすれば、如何なる音声合成器601であっても良い。
本実施形態のテキスト音声合成システム600及びその各種構成要素は、専用の回路やチップで構成することができ、また対応のプログラムを実行するコンピュータ(プロセッサ)により実行することもできる。韻律解析装置500及びテキスト音声合成システム600内の音声合成器601及びそれらの各構成要素は、物理的には互いに別個に存在するが、動作上は互いに接続されている。例えば、韻律解析装置500及び音声合成器601は、ネットワーク又はその他の通信メディアを介してデータを転送する物理的には分離した二つのディバイスとすることができる。本実施形態のテキスト音声合成システム600は、図2とともに説明された実施形態のテキスト音声合成方法を実用上実施することができる。
図7は、同様な発明概念で本発明の別の実施形態によるテキスト音声合成システムを示したブロック図である。本実施形態は、図7とともに以下に説明される。上記実施形態と同じ部分に関しては、説明は適宜に省略される。
図7に示すように、本実施形態のテキスト音声合成システム600’は、図6に示す実施形態とは異なり、図4とともに説明された実施形態の未加工コーパスを用いて韻律統計モデルを訓練する装置である韻律統計モデル訓練装置400を更に含む。
韻律統計モデル訓練装置400は、手動レベル付けされていない未加工コーパスを用いて韻律統計モデルを訓練し、その韻律統計モデルを韻律解析装置500に与え、韻律解析を行う。
前記実施形態と同じように、本実施形態のテキスト音声合成システム600’及びその各種構成要素は、専用の回路やチップで構成することができ、また対応のプログラムを実行するコンピュータ(プロセッサ)により実行することもできる。また、テキスト音声合成システム600’の各種構成要素は、物理的には互いに別個に存在するが、動作上は互いに接続されている。
実際には、本実施形態のテキスト音声合成システム600’中の韻律統計モデル訓練装置400は、音声合成処理前に別に訓練を行うことができる。よって、「オフライン」モジュールとも呼ばれている。
本発明における、未加工コーパスを用いた韻律統計モデル訓練方法及び装置、韻律解析方法及び装置、及び音声合成方法及びシステムは、模範的な実施形態の幾つかを用いて詳細に説明されてきたが、これらの実施形態は、包括手的なものではなく、当業者は、本発明の精神と範囲内で様々な変形や改良を加えることができる。そのため、本発明はこれらの実施形態には限定されず、添付の請求項は本発明の範囲を単に定義付けするに過ぎない。
本発明の一実施形態による韻律統計モデルを未加工のコーパスを用いて訓練する方法を示すフローチャートである。 本発明の一実施形態による韻律解析の方法を示すフローチャートである。 本発明の一実施形態によるテキスト音声合成の方法を示すフローチャートである。 本発明の一実施形態による韻律統計モデルを未加工のコーパスを用いて訓練する装置を示すブロック図である。 本発明の一実施形態による韻律解析のための装置を示すブロック図である。 本発明の一実施形態によるテキスト音声合成のためのシステムを示すブロック図である。 本発明の別の実施形態によるテキスト音声合成のためのシステムを示すブロック図である。

Claims (33)

  1. 句読点付の複数の文を含む未加工コーパスを用いて韻律統計モデルを訓練するための方法であって、
    前記未加工コーパス中の前記複数の文をそれぞれ複数のトークン列に変換するステップと、
    各前記複数のトークン列に生じる各隣接トークンペアの頻度、及び前記各トークンペアの関連位置にて生じる休止を表す句読点の頻度を数えるステップと、
    各隣接トークンペアの頻度及び句読点の頻度に基づいて、前記各トークンペアの前記関連位置における休止確率を計算するステップと、
    前記トークンペア及びその関連位置における前記休止確率に基づいて前記韻律統計モデルを構成するステップと、を含む、方法。
  2. 前記各トークンペアの前記関連位置は、前記トークンペアの前後及び真中を含む、請求項1記載の韻律統計モデル訓練方法。
  3. 前記各トークンペアの前記関連位置にて休止確率を計算する前記ステップは、
    前記トークンペアの頻度及び前記トークンペアの前に生じる休止を表す句読点の頻度に基づいて前記トークンペアの前の休止確率を計算するステップと、
    前記トークンペアの頻度及び前記トークンペアの後に生じる休止を表す句読点の頻度に基づいて前記トークンペアの後の休止確率を計算するステップと、
    前記トークンペアの頻度及び前記トークンペアの真中に生じる休止を表す句読点の頻度に基づいて前記トークンペアの真中の休止確率を計算するステップと、を含む、請求項2記載の韻律統計モデル訓練方法。
  4. 前記トークンペア前の休止確率を計算する前記ステップは、
    Figure 0004762103
    請求項3記載の韻律統計モデル訓練方法。
  5. 前記トークンペア後の休止確率を計算する前記ステップは、
    Figure 0004762103
    請求項3記載の韻律統計モデル訓練方法。
  6. 前記トークンペアの真中の休止確率を計算する前記ステップは、
    Figure 0004762103
    請求項3記載の韻律統計モデル訓練方法。
  7. 前記各トークンペアの前記関連位置における休止確率を計算する前記ステップは、
    前記計算された休止確率にスムージング処理を行うことを更に含む、請求項1記載の韻律統計モデル訓練方法。
  8. 前記各トークンペアの前記関連位置における休止確率を計算する前記ステップは、
    前記計算された休止確率にカットオフ処理を行うことを更に含む、請求項1記載の韻律統計モデル訓練方法。
  9. 前記トークンは、文字、単語、単語とスピーチの一部及び成句から選択されるいずれか一つの形式を取る、請求項1記載の韻律統計モデル訓練方法。
  10. 前記韻律統計モデルは、韻律統計モデルに係わる各トークン及び前記トークンに対応するトークンIDを記憶するトークン翻訳テーブルを含む、請求項1記載の韻律統計モデル訓練方法。
  11. 韻律解析の方法であって、
    請求項1乃至10のいずれか一つの方法を用いて韻律統計モデルを訓練するステップと、
    少なくとも一文を含む韻律解析のためのテキストを入力するステップと、
    文をトークン列に変換するステップと、
    前記韻律統計モデルに基づいて前記トークン列中の各休止位置の休止重みを計算するステップと、
    前記計算された各休止位置の休止重みに従って、休止タグを挿入する休止位置を少なくとも一つ選択するステップと、を含む、方法。
  12. 前記トークンは、文字、単語、単語とスピーチの一部及び成句から選択されたいずれか一つの形式を取る、請求項11記載の韻律解析方法。
  13. 前記韻律統計モデルは、複数のトークンペア及び各前記複数のトークンペアの関連位置における休止確率を含み、前記トークンシーケンス中の各休止位置の休止重みを計算する前記ステップは、
    韻律統計モデル中の対応するトークンペアの関連位置における休止確率に従って、前記トークン列中の各休止位置の休止重みを計算するステップを含む、請求項11記載の韻律解析方法。
  14. 各トークンペアの関連位置は、前記トークンペアの前後及び真中を含み、前記トークン列中の各休止位置の休止重みを計算するステップは、
    Figure 0004762103
    を用いて各休止位置の休止重みを計算するステップを含む、請求項13記載の韻律解析方法。
  15. 休止位置は、前記トークン列の最初のトークンの後、又は前記トークン列の最後のトークンの前に設定されない、請求項13記載の韻律解析方法。
  16. 休止タグを挿入するため、少なくとも一つの休止位置を選択する前記ステップは、
    休止位置の休止重みが既定閾値よりも高いことを条件に行われる、請求項11記載の韻律解析方法。
  17. 休止タグを挿入するため、少なくとも一つの休止位置を選択する前記ステップは、
    休止位置の休止重みが既定閾値よりも高いこと、及び
    二つの選択された休止位置間のトークン数が、別の既定閾値よりも大きいことを条件に行われる、請求項11記載の韻律解析方法。
  18. 句読点を有する複数の文を含む未加工コーパスを用いて、韻律統計モデルを訓練するための装置であって、
    前記未加工コーパス中の前記複数の文をそれぞれ複数のトークン列に変換するトークン化ユニットと、
    前記複数のトークンシーケンス中に生じる各隣接トークンペアの頻度、及び前記トークンペアの関連位置において生じる休止を表す句読点の頻度を数えるカウンタと、
    各隣接トークンペアの頻度及び句読点の頻度に基づいて、前記各トークンペアの前記関連位置における休止確率を計算する休止確率計算機と、
    前記トークンペア及びその関連位置における休止確率に基づいて、前記韻律統計モデルを構成する韻律統計モデルコンストラクタと、を含む、韻律統計モデル訓練装置。
  19. 前記各トークンペアの前記関連位置は、前記トークンペアの前後及び真中を含む、請求項18記載の韻律統計モデル訓練装置。
  20. 前記休止確率計算機は、前記トークンペアの頻度及び前記トークンペア前に生じる休止を表す句読点の頻度に基づいて、トークンペア前の休止確率を計算し、前記トークンペアの頻度及び前記トークンペア後に生じる休止を表す句読点の頻度に基づいて、前記トークンペア後の休止確率を計算し、前記トークンペアの頻度及び前記トークンペアの真中に生じる休止を表す句読点の頻度に基づいて、トークンペアの真中の休止確率を計算する、請求項19記載の韻律統計モデル訓練装置。
  21. 前記休止確率計算機は、
    Figure 0004762103
    請求項20記載の韻律統計モデル訓練装置。
  22. 前記休止確率計算機は、
    Figure 0004762103
    請求項20記載の韻律統計モデル訓練装置。
  23. 前記休止確率計算機は、
    Figure 0004762103
    請求項20記載の韻律統計モデル訓練装置。
  24. 前記計算された休止確率に対しスムージング処理を行うスムージングユニットを更に含む、請求項18記載の韻律統計モデル訓練装置。
  25. 前記計算された休止確率に対しカットオフ処理を行うカットオフユニットを更に含む、請求項18記載の韻律統計モデル訓練装置。
  26. 前記トークンは、文字、単語、スピーチの一部込みの単語及び成句から選択されるいずれか一つの形式を取る、請求項18記載の韻律統計モデル訓練装置。
  27. 韻律解析のための装置であって、
    少なくとも一文を含む韻律解析のためのテキストを入力するテキスト入力ユニットと、
    文をトークン文に変換するトークン化ユニットと、
    請求項18乃至26のいずれか一つの装置を用いて、未加工コーパスから訓練され、複数のトークンペア及び各前記複数のトークンペアの関連位置における休止確率を含む韻律統計モデルに基づいて、前記トークン文中の各休止位置の休止重みを計算する休止重み計算機と、
    前記計算された各休止位置の休止重みに従って、休止タグを挿入する少なくとも一つの休止位置を選択する休止タグ設定ユニットと、を含む、韻律解析装置。
  28. 前記トークンは、文字、単語、スピーチの一部込みの単語及び成句から選択されるいずれか一つの形式を取る、請求項27記載の韻律解析装置。
  29. 前記休止重み計算機は、韻律統計モデル中の対応するトークンペアの関連位置における休止確率に従って、前記トークン列の各休止位置の休止重みを計算する、請求項27記載の韻律解析装置。
  30. 各トークンペアの関連位置は、前記トークンペアの前後及び真中を含み、前記休止重み計算機は、
    Figure 0004762103
    を用いて、各休止位置の休止重みを計算する、請求項29記載の韻律解析装置。
  31. 前記休止タグユニットは、前記トークン文の最初のトークンの後、或いは前記トークン文の最後のトークンの前に休止位置を設定しないように構成された、請求項29記載の韻律解析装置。
  32. 休止位置の休止重みが既定の閾値よりも高いことを条件に、前記休止タグ設定ユニットは、休止タグを挿入する少なくとも一つ以上の休止位置を選択する、請求項27記載の韻律解析装置。
  33. 休止位置の休止重みが既定の閾値よりも高いこと及び二つの選択された休止位置間のトークンの数が別の既定の閾値よりも大きいことを条件に、前記休止タグ設定ユニットは、休止タグを挿入する少なくとも一つ以上の休止位置を選択する、請求項27記載の韻律解析装置。
JP2006276954A 2005-10-09 2006-10-10 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置 Active JP4762103B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200510108186.3 2005-10-09
CN2005101081863A CN1945693B (zh) 2005-10-09 2005-10-09 训练韵律统计模型、韵律切分和语音合成的方法及装置

Publications (2)

Publication Number Publication Date
JP2007108749A JP2007108749A (ja) 2007-04-26
JP4762103B2 true JP4762103B2 (ja) 2011-08-31

Family

ID=38034603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006276954A Active JP4762103B2 (ja) 2005-10-09 2006-10-10 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置

Country Status (3)

Country Link
US (1) US8024174B2 (ja)
JP (1) JP4762103B2 (ja)
CN (1) CN1945693B (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4559950B2 (ja) * 2005-10-20 2010-10-13 株式会社東芝 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
US8631005B2 (en) * 2006-12-28 2014-01-14 Ebay Inc. Header-token driven automatic text segmentation
CN101572083B (zh) * 2008-04-30 2011-09-07 富士通株式会社 韵律词组词方法和装置
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
US9135231B1 (en) 2012-10-04 2015-09-15 Google Inc. Training punctuation models
CN103971684B (zh) * 2013-01-29 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法、系统及其语言模型建立方法、装置
US9811517B2 (en) 2013-01-29 2017-11-07 Tencent Technology (Shenzhen) Company Limited Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text
CN104143331B (zh) 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
CN103761064A (zh) * 2013-12-27 2014-04-30 圆展科技股份有限公司 自动语音输入系统及其方法
CN104021784B (zh) * 2014-06-19 2017-06-06 百度在线网络技术(北京)有限公司 基于大语料库的语音合成方法和装置
US9953171B2 (en) * 2014-09-22 2018-04-24 Infosys Limited System and method for tokenization of data for privacy
US9542929B2 (en) 2014-09-26 2017-01-10 Intel Corporation Systems and methods for providing non-lexical cues in synthesized speech
US10388270B2 (en) 2014-11-05 2019-08-20 At&T Intellectual Property I, L.P. System and method for text normalization using atomic tokens
CN107247700A (zh) * 2017-04-27 2017-10-13 北京捷通华声科技股份有限公司 一种添加文本标注的方法及装置
US20210133537A1 (en) * 2017-11-30 2021-05-06 Llsollu Co., Ltd. Translation method and apparatus therefor
CN109977424B (zh) * 2017-12-27 2023-08-08 北京搜狗科技发展有限公司 一种机器翻译模型的训练方法及装置
CN110189354B (zh) * 2019-04-18 2021-12-28 北京迈格威科技有限公司 图像处理方法与图像处理器、图像处理设备及介质
US11062693B1 (en) * 2019-06-20 2021-07-13 West Corporation Silence calculator
CN112349274A (zh) * 2020-09-28 2021-02-09 北京捷通华声科技股份有限公司 一种训练韵律预测模型方法、装置、设备及存储介质
CN112786023A (zh) * 2020-12-23 2021-05-11 竹间智能科技(上海)有限公司 标记模型构建方法及语音播报系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
JPH0363767A (ja) * 1989-08-01 1991-03-19 Ricoh Co Ltd テキスト音声合成装置
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP3690502B2 (ja) * 2001-04-19 2005-08-31 日本電信電話株式会社 韻律情報設定方法及び装置並びにプログラム及び記録媒体
EP1422692A3 (en) * 2002-11-22 2004-07-14 ScanSoft, Inc. Automatic insertion of non-verbalized punctuation in speech recognition
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
JP2005031259A (ja) 2003-07-09 2005-02-03 Canon Inc 自然言語処理方法
CN1271550C (zh) * 2003-07-22 2006-08-23 中国科学院自动化研究所 口语会话中句子边界识别方法
US20050234724A1 (en) * 2004-04-15 2005-10-20 Andrew Aaron System and method for improving text-to-speech software intelligibility through the detection of uncommon words and phrases

Also Published As

Publication number Publication date
JP2007108749A (ja) 2007-04-26
CN1945693B (zh) 2010-10-13
US20070129938A1 (en) 2007-06-07
CN1945693A (zh) 2007-04-11
US8024174B2 (en) 2011-09-20

Similar Documents

Publication Publication Date Title
JP4762103B2 (ja) 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置
KR102540774B1 (ko) 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN109887497B (zh) 语音识别的建模方法、装置及设备
US7966173B2 (en) System and method for diacritization of text
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
KR20180121831A (ko) 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체
CN113327574B (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN117980991A (zh) 利用约束谱聚类的基于说话者转换的在线说话者日志化
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
US11694028B2 (en) Data generation apparatus and data generation method that generate recognition text from speech data
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
JP2020064370A (ja) 文章記号挿入装置及びその方法
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
KR20210051523A (ko) 도메인 자동 분류 대화 시스템
Coto‐Solano Computational sociophonetics using automatic speech recognition
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
Zine et al. Towards a high-quality lemma-based text to speech system for the arabic language
JP5888723B2 (ja) 発音辞書作成装置、発音辞書の生産方法、およびプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
CN111090720A (zh) 一种热词的添加方法和装置
JP2020064630A (ja) 文章記号挿入装置及びその方法
JP2008305291A (ja) 情報処理装置、情報処理方法、およびプログラム
US20180033425A1 (en) Evaluation device and evaluation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110607

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4762103

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350