JP4968036B2 - 韻律語グルーピング方法及び装置 - Google Patents

韻律語グルーピング方法及び装置 Download PDF

Info

Publication number
JP4968036B2
JP4968036B2 JP2007322494A JP2007322494A JP4968036B2 JP 4968036 B2 JP4968036 B2 JP 4968036B2 JP 2007322494 A JP2007322494 A JP 2007322494A JP 2007322494 A JP2007322494 A JP 2007322494A JP 4968036 B2 JP4968036 B2 JP 4968036B2
Authority
JP
Japan
Prior art keywords
grid
prosodic
word
deleted
prosodic word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007322494A
Other languages
English (en)
Other versions
JP2008152260A (ja
Inventor
チン グオ
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2008152260A publication Critical patent/JP2008152260A/ja
Application granted granted Critical
Publication of JP4968036B2 publication Critical patent/JP4968036B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Description

本発明は、言語音声合成技術に関し、具体的に、入力された言語に対して韻律語をグルーピングする方法及び装置に関する。
言語において、複数の単語を連続して発音するとき、相互間に影響し、比較的に独立した、完全な韻律ブロックを形成する。このような韻律ブロックの韻律特徴は、言語音の自然度に大きな影響がある。通常、異なる韻律ブロックの組合せは異なるイントネーションになり、これによって、人間の発音に様々な話しぶりが生まれる。
一般的に、言語音における韻律ユニットは、主に韻律語、韻律フレーズ、イントネーション・フレーズを含む。言語の韻律は階層構造を有し、この階層構造の韻律は言語音のリズム(韻律)をもたらす。韻律ユニットの境界は、通常、言語音における韻律語境界での音節の中断、基音の変化、又は音長の変化に対応する。
韻律は合成言語音の自然度及び理解可能度に大きく影響する。言語音声合成装置において、韻律構造は、韻律パラメータ予測モデルに最も重要な情報を提供し、音節の中断、基音、音長などパラメータの予測を通じて、言語音声合成装置による音声の発生を制御し、合成言語音において各レベルの韻律ユニットに対応する韻律効果を実現し、自然かつ良い発音を得る。
言語処理技術の発展につれて、自然会話における韻律構造を理解することが益々要求され、さらに、合成言語音の自然度或いは言語音識別の正確度を効率よく向上し、自然言語への理解を深めるため、言語テキストから韻律構造を予測する方法の研究にも力を入れている。
韻律語とは、言語音ストリームにおける連続して発音する一組の音節であり、これらの音節の間に発音が緊密につながり中断は聞こえない。韻律語は韻律階層構造の中に最も低い層の要素である。一般的に言えば、韻律語の境界に感知され得る中断が現れる。言い換えれば、韻律語の内部に感知され得る中断がなく、中断は韻律語の境界にしか現れない。実際の言語音には、全ての韻律語の境界に中断が現れる訳ではない。韻律語の境界に感知可能な中断があっても特に問題がない。しかし、韻律語の内部に感知可能な中断があると、言語音は理解し難く又は不自然になる。従って、良好な韻律語グルーピング機能は合成言語音の自然度を改善することに非常に重要である。
特許文献1−5及び非特許文献1−7は、韻律語グルーピング及び合成言語音の自然度の改善に関する技術を開示している。
一般に、言語音声合成装置は、テキスト解析部、韻律パラメータ予測部、及び後段合成部を有する。
テキスト解析部は、分語、語特性標記、音声表記、韻律構造予測などを実行する。
例えば、中国語、日本語などの場合は、単語と単語との間に、区切り符号としてのスペースがないので、入力言語を単語毎に分節する必要がある。これを分語〔単語分割〕と称する。分語は、一般的に単語の類型に基づき解析により行われる。分語の結果は、通常、文法的な構造に近いが、韻律構造とは異なる。韻律構造予測とは、テキスト内容を韻律構造にマッピングし、テキストから韻律特徴(中断や、イントネーションなど)を予測するモデルを構築し、後続の韻律音響学パラメータの生成に用いられる。
韻律語は、語彙学上の「語」とは異なる。韻律語の形成(グルーピング)は、語義のみならず、言語音の韻律の特徴にも関連する。一つの韻律語は、複数の語彙学上の「語」からなることがあれば、比較的に長い語彙学上の「語」の一部に当たることもある。分語と語特性標記は、語彙学の知識に基づき、自然言語テキストに対して、分語及び語特性標記を行うことである。
図1はテキスト解析部による解析を説明する図である。
図1に示すように、ステップS1において、所定の言語テキストが入力される。ここは、例えば、「ある日、私たちは、他の学校の学生と一緒に山登りに行った。私たちは、誰も遅れることなく素早く山頂に登った」という文が入力される。
ステップS2において、入力テキストについて、分語(符号「/」)及び語特性標記(v, m, q, m, … )を行い、以下の結果になる。

ある/v 日/m、 私たち/q は/m 、/w 他/q の/v 学校/n の/c 学生/ と/一緒に/ 山/ 登り に/ 行った/ 。/ 私たち/ は/
、/ 誰も/ 遅れる/ こと/ なく/ 素早く/ 山/ 頂/ に/ 登った/

ステップS3において、以下の韻律構造の予測が得られる。

ある/v 日/m、||| 私たち/q は/m || 、/w 他/q の/v | 学校/n の/c ||| 学生/ と/一緒に/ || 山/ | 登り/ 行った/ 。/ 私たち/ は/ 、/ 誰も/ 遅れる/ こと/ なく/ 素早く/ 山/ 頂/ に/ 登った/ |||

ここで、一本の縦棒線「|」は韻律語の境界を示し、二本の縦棒線「||」は韻律フレーズの境界を示し、三本の縦棒線「|||」はイントネーション・フレーズの境界を示す。
韻律フレーズの境界及びイントネーション・フレーズの境界は、必ず韻律語の境界でもある。韻律語グルーピングでは、分語及び語特性標記を行った上、韻律語の境界を確定する。また、韻律語のグルーピングは、更にハイレベル韻律ユニット予測、例えば、韻律フレーズ予測の基礎である。従って、韻律語グルーピングの性能は、合成言語音の自然度に大きな影響を有する。
従来技術において、幾つかの韻律語境界を予測する方法が提案された。例えば、classification and regression tree (CART)方法、規則に基づく方法、統計に基づく方法、自己回帰ニューラルネットワークに基づく方法などがある。これらの方法に、語の特性〔品詞〕(part of speech(POS))及び語の長さが広く用いられている。
全体的に言うと、従来技術に係る韻律語境界予測の精度が十分ではない。境界予測のエラーは通常2種類ある。即ち、挿入型エラー(insertion error)と削除型エラー(deletion error)である。前述のように、実際の言語音において、全ての韻律語の境界に中断がある訳ではない。韻律語の境界に感知可能な中断がある場合は特に問題がないが、韻律語の内部に感知可能な中断があると、言語音は理解し難く又は不自然になる。従って、韻律語グルーピング時に生じる挿入型エラーは合成言語音に悪影響を与える。一方、削除型エラーは合成言語音に与える悪影響は少ない。
例えば、図1において、分語の結果、「山」、「頂」、「に」があった。ここで、「山」、「頂」、「に」のいずれもが単独音の単語であるので、それらを組み合わせれば、完全な韻律語「山頂に」になる。もし韻律語のレベルでこれらの単語が組み合わせられていなければ、合成言語音にこの一文は非常に不自然に聞こえる。具体的に、合成言語音にこれらの単語は一つずつ発音され、その間に感知できる中断がある。即ち、韻律予測(例えば、基音予測と音長予測)は、現在の音節が韻律語の境界にあるか、内部にあるかに非常に敏感である。逆に、「山頂に」は一つの韻律語とすれば、基音予測では多くの関連発音も考慮されるので、その基本曲線は自然に聞こえる。また、音長予測にも、この3つの音節の境界の特性はいずれも韻律内部型であるので、3つの音節「山」、「頂」、「に」が延ばされることはない。

米国特許第6,996,529号 米国特許第6,173,262号 米国特許第6,003,005号 米国特許第5,850,629号 米国特許第6,978,239号 Shih, C. L., "The Prosodic Domain of Tone Sandhi in Mandarin Chinese", PhD Dissertation, UC San Diego, 1986. Chu M. and Qian Y., "Locating boundaries for prosodic constituents in unrestricted Mandarin texts", Journal of Computational Linguistics and Chinese Language Processing, 6(1), 61-82, 2001. Dong H., Tao J. and Xu b., "Prosodic word prediction using the lexical information", International Conference on Natural Language Processing and Knowledge Engineering, Wuhan, 2005. Shao Y., Han, J., Liu T. and Zhao Y., "Prosodic word boundaries prediction for Mandarin text-to-speech", International Symposium on Tonal Aspects of Languages with Emphasis on Tone Languages, 159-162, Beijing, 2004. Dong M., Lua K.T. and Li H., "A probabilistic approach to prosodic word prediction for Mandarin Chinese TTS", 9th European Conference on Speech Communication and Technology, Lisbon, Portugal, 2005. Qin Shi and XiJun Ma, 2002. "Statistic prosody structure prediction", International Conference of the IEEE 2002 Workshop on Speech Synthesis, Santa Monica, Ca., 2002. Ying, Z., and Shi, X., "An RNN-based algorithm to detect prosodic phrase for Chinese TTS", International Conference on Acoustic, Speech and Signal Processing, 2001.
本発明の目的は、韻律語グルーピングにより生じるエラーを抑え、自然な言語音を得られる韻律語グルーピング方法及び装置を提供することにある。
本発明の韻律語グルーピング方法は、言語テキストを入力するステップと、前記言語テキストに対して分語及び語特性標記を行い、初期の韻律語列を生成するステップと、前記初期の韻律語列において、全ての単語境界に韻律語境界を表すグリッドを挿入し、グリッド韻律語列を生成するステップと、前記グリッド韻律語列における削除しようとするグリッドに記号を付するステップと、前記グリッド韻律語列における実際に削除すべきグリッドを判断するステップと、前記実際に削除すべきグリッドを削除し、残りのグリッドのうち、各2つのグリッドの間の単語をグルーピングし、韻律語を生成するステップとを含む。
本発明により、グリッドを挿入し、そして削除する方法をとることにより、複数の韻律語グルーピング方法を実行し、併用することができる。初期の韻律語列において、全ての単語境界に韻律語グリッドを挿入した後、複数の韻律語グルーピング方法を実行し、それぞれの方法は、必要でないと思われるグリッドを韻律語列から削除することができる。即ち、いずれか一つの韻律語グルーピング方法は削除すべきと判断すると、該当グリッドは削除される。これにより、韻律語グルーピング時に生じるエラーにより、言語音が理解しにくく、不自然である問題を解決する。
また、グリッドを挿入し、そして削除する方法をとることにより、複数の韻律語グルーピング方法を併用することができるので、新しい韻律語グルーピング方法を取り入れることは簡単である。
次に、添付した図面を参照しながら、本発明の好適な実施形態を詳細に説明する。
図2は、本発明の一実施形態に係る韻律語グルーピング装置20を示す図である。
図2に示すように、韻律語グルーピング装置20は、言語テキストを入力する入力部10、言語テキストに対して分語及び語特性標記を行い、初期の韻律語列を生成する分語及び語特性標記部11、初期の韻律語列において、全ての単語境界に韻律語境界を表すグリッドを挿入し、グリッド韻律語列を生成する韻律語グリッド挿入部12、グリッド韻律語列において削除しようとするグリッドに記号を付し、実際に削除すべきグリッドを判断し、実際に削除すべきグリッドを削除する韻律語グリッド削除部13、及び残りのグリッドのうち、各2つのグリッドの間の単語をグルーピングし、韻律語列を生成する韻律語生成部14を含む。
また、韻律語グルーピング装置20は、言語テキストに対して分語及び語特性標記の結果を記憶する記憶装置を有する。この分語及び語特性標記の結果に基づき初期の韻律語列を生成する。
また、韻律語グリッド削除部13は、複数の韻律語グルーピング手段を有し、当該複数の韻律語グルーピング手段により、同一のグリッド韻律語列において削除しようとするグリッドに記号を付する。また、当該複数の韻律語グルーピング手段により、総合的に実際に削除すべきグリッドを判断する。
また、韻律語グルーピング装置20は、総合的に削除しようとするグリッドを判断し、削除しようとするグリッドが削除される可能性(削除可能性と呼ぶ)を計算するグリッド削除可能性評価手段と、当該削除可能性に基づき、削除しようとするグリッドを削除するグリッド削除手段とを有する。
また、韻律語グルーピング装置20は、韻律語生成部により生成された韻律語を分析し、韻律語グルーピング結果を生成する韻律語グルーピング結果分析部を有する。
韻律語グルーピング装置20は、コンピュータ、サーバ、或いは、コンピュータネットワークにおいて具現され、その入力手段は、キーボード、マウス、通信インターフェースなどである。
図3は、本実施形態の韻律語グルーピング装置20の動作を例示する図である。
図3に示すように、任意のテキスト101は韻律語グルーピング装置20に入力される。分語及び語特性標記部11は、言語テキスト101に対して分語及び語特性標記を行う。分語及び語特性標記部11は、言語分析の基礎処理を行う。中国語、日本語などは、英語と異なり、単語と単語との間に区切り符号としてのスペースがないので、入力テキストをまず分語及び語特性標記処理を行う必要がある。分語及び語特性標記処理の結果103は、後続の処理に用いられる。103は分語及び語特性標記処理の結果を記憶する記憶装置も指す。
図3において、韻律語グルーピング部104は、韻律語グリッド挿入部12、韻律語グリッド削除部13、及び韻律語生成部14からなる。韻律語グルーピング部104は、グリッド挿入・削除を行い、複数の韻律語グルーピング方法が実行して併用動作することができる。
言語テキストに対する分語及び語特性標記の結果は初期の韻律語列とする。当該初期の韻律語列において、全ての単語境界に韻律語グリッドを挿入し、複数の韻律語グルーピング方法が協働して実行され、韻律語のレベルで必要でないと思われるグリッドに削除の記号を付する。また、総合的に各グリッドを判断するか否かを判断し、実際に削除すべきと判断されたグリッドを削除する。これにより、韻律語グルーピング結果105が生成される。
図4は韻律語グルーピング部104の動作を例示する図である。
図4に示すように、韻律語初期化部201は、記憶装置103に記憶される分語及び語特性標記処理の結果を韻律語初期化する。具体的に、言語テキストに対する分語及び語特性標記の結果を初期韻律語列とする。そして、全ての単語境界に韻律語境界を表すグリッドを挿入し、グリッド韻律語列を生成する。
第1の韻律語グルーピング部202は第1の韻律語グルーピング規則に基づいて、分語及び語特性標記の初期結果について、韻律語グルーピングを行う。グリッド削除記号表示部203は、第1の韻律語グルーピング部202が第1の韻律語グルーピング規則に基づいて削除すべきと判断されたグリッドに、削除記号を付する。
第2の韻律語グルーピング部204は第2の韻律語グルーピング規則に基づいて、分語及び語特性標記の初期結果について、韻律語グルーピングを行う。グリッド削除記号表示部203は、第2の韻律語グルーピング部204が第2の韻律語グルーピング規則に基づいて削除すべきと判断されたグリッドに、削除記号を付する。
同様に、第Nの韻律語グルーピング部206は第Nの韻律語グルーピング規則に基づいて、分語及び語特性標記の初期結果について、韻律語グルーピングを行う。グリッド削除記号表示部203は、第Nの韻律語グルーピング部206が第Nの韻律語グルーピング規則に基づいて削除すべきと判断されたグリッドに、削除記号を付する。
第1の韻律語グルーピング部202、第2の韻律語グルーピング部204、第Nの韻律語グルーピング部206は、韻律語グリッド削除部13に含まれる。
具体的に、第1の韻律語グルーピング部202、第2の韻律語グルーピング部204、第Nの韻律語グルーピング部206は、以下の方法で韻律語グルーピングを行う。
(1)バイナリ韻律ツリーに基づく韻律語グルーピング法である。当該方法は、大規模な記号言語資料から学習した言語モデルに基づいて、入力されたテキストに対して、再帰バイナリサーチ(recursive binary search)により、最も確率の高い言語音中断挿入点をサーチし、当該文に対応する最適な言語音中断バイナリツリーを構築する。バイナリツリーの構造に、階層状の言語音中断挿入点の情報が含まれているので、このバイナリツリーをバイナリ韻律ツリーに用いることができる。このバイナリ韻律ツリーはグリッド削除に基づく韻律語グルーピングに用いることができる。同じ親ノードを有する任意の2つの子ノードの間の韻律語グリッドに削除可の記号が付される。
(2)統計確率に基づく韻律語グルーピング法である。この方法は、語の特性(part of speech(POS))及び語の長さ情報が韻律語の境界の予測に用いられる。この方法は、韻律語の境界を予測する際に、語の特性と語の長さは相互独立して無関係であると仮定する。よって、任意2つの言語学の単語は一つの韻律語を形成する確率は、この2つの単語の特性に基づき韻律語を形成する確率と、この2つの単語の長さに基づき韻律語を形成する確率とを含む。
(3)規則に基づく韻律語グルーピング法である。即ち、常用韻律語附属語について、対応する韻律語グルーピング規則を事前に設定する。例えば、中国語では、接尾語「子、系、了」など、助詞「的、得」、方位語「左右、以後、以前、以下、以上、以外」、その他動作の傾向を表す単語などは、頻繁に文書に現れる。これらの単語は通常固定された韻律語グルーピング方式を有し、或いは、一定の条件のもとで、固定された韻律語グルーピング方式を有する。これらの単語は適切に韻律語グルーピングされないと、合成言語音は非常に不自然に聞こえる。よって、以上の常用韻律語附属語について、それぞれの特別な韻律語グルーピング規則を設定し、これらの韻律語附属語を正しく韻律語グルーピングする。
また、中国語には、同じ動詞を繰り返して使う場合が多い。例えば、「談一談」、「想了想」などがある。分語処理において、これらの動詞は動詞フレーズとして分割される。実際に、これら繰り返して使う動詞は、韻律上同じ韻律語とすべきであるので、本実施形態では、このような動詞の繰り返しについても韻律語グルーピング規則を設定し、正しく韻律語グルーピングする。
以上の韻律語グルーピング方法は韻律語グルーピング部104において実行される。
図4に戻る。グリッド削除手段13は、第1の韻律語グルーピング部202、第2の韻律語グルーピング部204、第Nの韻律語グルーピング部206が判断し、グリッド削除記号表示部203は削除記号を付した削除すべきグリッドについて総合的に判断し、削除する韻律語グリッドを特定する。
そして、残りのグリッドのうち、各隣接する2つのグリッドの間の単語をグルーピングし、韻律語列が生成され、韻律語グルーピング解析結果が得られる。
図5は、グリッド削除手段13の動作を例示する図である。
ステップS301において、全ての初期のグリッドをスキャンする。
ステップS302において、まだ処理されていないグリッドがあるか否かを判断する。
ステップS303において、現在処理の対象となるグリッドに削除記号が付されているか否かを判断する。当該グリッドに第1の韻律語グルーピング部202、第2の韻律語グルーピング部204、第Nの韻律語グルーピング部206の何れかの判断により削除記号が付されている場合は、ステップS304に進む。そうではない場合は、ステップS301に戻る。
ステップS304において、グリッド削除手段によりグリッドを削除する。
図6は、グリッド削除手段13の他の動作例を示す図である。
図6において、図5と重複する部分について説明を省略する。
ステップS401において、グリッド削除可能性評価手段(参照符号401を用いる)は、第1の韻律語グルーピング部202、第2の韻律語グルーピング部204、第Nの韻律語グルーピング部206の判断に基づきグリッド削除記号表示部203により付された削除記号を参照し、総合的にグリッドが削除される可能性である削除可能性を計算する。
ステップS402において、削除可能性の結果に基づき、現在処理対象となるグリッドを削除するか否かを判断する。削除すると判断した場合、ステップS304に進む。そうではない場合は、ステップS301に戻る。
グリッド削除可能性評価手段401は、投票の方法により評価を行う。最も簡単な投票方法として、第1の韻律語グルーピング部202、第2の韻律語グルーピング部204、第Nの韻律語グルーピング部206のうち、半分以上は当該グリッドを削除すべきと判断した場合は、グリッド削除可能性評価手段401は、当該グリッドを削除すると評価する。
本発明において、グリッド削除という方法を採用することにより、複数の韻律語グルーピング方法を実行して併用することができる。初期の韻律語列において、全ての単語境界に韻律語グリッドを挿入した後、複数の韻律語グルーピング方法は、それぞれ、必要でないと思われるグリッドを韻律語列から削除することができる。即ち、いずれか一つの韻律語グルーピング方法は削除すべきと判断すると、該当グリッドは削除される。これにより、韻律語境界挿入型エラーの数を減らし、韻律語グルーピングにおいて発生する挿入型エラーにより言語音が理解しにくく、不自然である問題を解決する。
また、グリッド削除という方法をとることにより、複数の韻律語グルーピング方法を併用することができるので、新しい韻律語グルーピング方法を取り入れることは簡単で、メンテナンスが容易である。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。
テキスト解析を説明する図である。 本発明の一実施形態に係る韻律語グルーピング装置20を示す図である。 本実施形態の韻律語グルーピング装置20の動作を例示する図である。 韻律語グルーピング部104の動作を例示する図である。 グリッド削除手段13の動作を例示する図である。 グリッド削除手段13の他の動作例を示す図である。
符号の説明
10 入力部
11 分語及び語特性標記部
12 韻律語グリッド挿入部
13 韻律語グリッド削除部
14 韻律語生成部
20 韻律語グルーピング装置
101 入力テキスト
103 記憶装置
104 韻律語グルーピング部
201 韻律語初期化部
202 第1の韻律語グルーピング部
203 グリッド削除記号表示部
204 第2の韻律語グルーピング部
206 第Nの韻律語グルーピング部
401 グリッド削除可能性評価手段

Claims (5)

  1. 言語テキストを入力するステップと、
    前記言語テキストに対して単語分割及び品詞標記を行い、全ての単語境界に韻律語境界を表す区切りであるグリッドを挿入することにより初期のグリッド韻律語列を生成するステップと、
    前記グリッド韻律語列において削除しようとするグリッドに記号を付することを複数の方法により行い、複数の記号付け結果を得るステップと、
    前記複数の記号付け結果のうち少なくとも一つが削除すべきであると記号付けしているグリッドを削除すべきと判断する、または、前記複数の記号付け結果のうち半分以上が削除すべきであると記号付けしているグリッドを削除すべきと判断することによって、前記グリッド韻律語列において実際に削除すべきグリッドを判断するステップと、
    前記実際に削除すべきグリッドを削除し、残りのグリッドのうち、各2つのグリッドの間の単語をグルーピングし、韻律語を生成するステップと、
    を含む
    韻律語グルーピング方法。
  2. 言語テキストを入力する入力部と、
    前記言語テキストに対して単語分割及び品詞標記を行い、全ての単語境界に韻律語境界を表す区切りであるグリッドを挿入することにより初期のグリッド韻律語列を生成する手段と、
    前記グリッド韻律語列において削除しようとするグリッドに記号を付することを複数の韻律語グルーピング手段により行い、複数の記号付け結果を得、前記複数の記号付け結果のうち少なくとも一つが削除すべきであると記号付けしているグリッドを削除すべきと判断する、または、前記複数の記号付け結果のうち半分以上が削除すべきであると記号付けしているグリッドを削除すべきと判断することによって実際に削除すべきグリッドを判断し、前記実際に削除すべきグリッドを削除する韻律語グリッド削除部と、
    残りのグリッドのうち、各2つのグリッドの間の単語をグルーピングし、韻律語列を生成する韻律語生成部と、
    を含む、
    韻律語グルーピング装置。
  3. 前記韻律語生成部により生成された韻律語を分析し、韻律語グルーピング結果を生成する韻律語グルーピング結果分析部を有する
    請求項に記載の韻律語グルーピング装置。
  4. コンピュータに
    言語テキストを入力するステップと、
    前記言語テキストに対して単語分割及び品詞標記を行い、全ての単語境界に韻律語境界を表す区切りであるグリッドを挿入することにより初期のグリッド韻律語列を生成するステップと、
    前記グリッド韻律語列において削除しようとするグリッドに記号を付することを複数の方法により行い、複数の記号付け結果を得るステップと、
    前記複数の記号付け結果のうち少なくとも一つが削除すべきであると記号付けしているグリッドを削除すべきと判断する、または、前記複数の記号付け結果のうち半分以上が削除すべきであると記号付けしているグリッドを削除すべきと判断することによって、前記グリッド韻律語列において実際に削除すべきグリッドを判断するステップと、
    前記実際に削除すべきグリッドを削除し、残りのグリッドのうち、各2つのグリッドの間の単語をグルーピングし、韻律語を生成するステップと、
    を実行させるための
    韻律語グルーピングプログラム。
  5. 韻律語グルーピングプログラムを記憶したコンピュータ読み出し可能な記憶媒体であって、
    前記韻律語グルーピングプログラムはコンピュータに
    言語テキストを入力するステップと、
    前記言語テキストに対して単語分割及び品詞標記を行い、全ての単語境界に韻律語境界を表す区切りであるグリッドを挿入することにより初期のグリッド韻律語列を生成するステップと、
    前記グリッド韻律語列における削除しようとするグリッドに記号を付することを複数の方法により行い、複数の記号付け結果を得るステップと、
    前記複数の記号付け結果のうち少なくとも一つが削除すべきであると記号付けしているグリッドを削除すべきと判断する、または、前記複数の記号付け結果のうち半分以上が削除すべきであると記号付けしているグリッドを削除すべきと判断することによって、前記グリッド韻律語列における実際に削除すべきグリッドを判断するステップと、
    前記実際に削除すべきグリッドを削除し、残りのグリッドのうち、各2つのグリッドの間の単語をグルーピングし、韻律語を生成するステップと、
    を実行させる
    読み出し可能な記憶媒体。
JP2007322494A 2006-12-13 2007-12-13 韻律語グルーピング方法及び装置 Active JP4968036B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200610167040.0 2006-12-13
CN2006101670400A CN101202041B (zh) 2006-12-13 2006-12-13 一种汉语韵律词组词方法及装置

Publications (2)

Publication Number Publication Date
JP2008152260A JP2008152260A (ja) 2008-07-03
JP4968036B2 true JP4968036B2 (ja) 2012-07-04

Family

ID=39517175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007322494A Active JP4968036B2 (ja) 2006-12-13 2007-12-13 韻律語グルーピング方法及び装置

Country Status (3)

Country Link
US (1) US8392191B2 (ja)
JP (1) JP4968036B2 (ja)
CN (1) CN101202041B (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430680B (zh) 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9484015B2 (en) * 2013-05-28 2016-11-01 International Business Machines Corporation Hybrid predictive model for enhancing prosodic expressiveness
CN104142909B (zh) * 2014-05-07 2016-04-27 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
CN104021784B (zh) * 2014-06-19 2017-06-06 百度在线网络技术(北京)有限公司 基于大语料库的语音合成方法和装置
CN107038163A (zh) * 2016-02-03 2017-08-11 常州普适信息科技有限公司 一种面向海量互联网信息的文本语义建模方法
CN107039034B (zh) * 2016-02-04 2020-05-01 科大讯飞股份有限公司 一种韵律预测方法及系统
US11195513B2 (en) * 2017-09-27 2021-12-07 International Business Machines Corporation Generating phonemes of loan words using two converters
CN111354333B (zh) * 2018-12-21 2023-11-10 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
CN110534087B (zh) * 2019-09-04 2022-02-15 清华大学深圳研究生院 一种文本韵律层级结构预测方法、装置、设备及存储介质
CN111105780B (zh) * 2019-12-27 2023-03-31 出门问问信息科技有限公司 一种韵律纠正方法、装置以及计算机可读存储介质
CN112131878B (zh) * 2020-09-29 2022-05-31 腾讯科技(深圳)有限公司 文本处理方法、装置以及计算机设备
CN114707503B (zh) * 2022-02-14 2023-04-07 慧言科技(天津)有限公司 基于多任务学习的前端文本分析方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995010832A1 (en) 1993-10-15 1995-04-20 At & T Corp. A method for training a system, the resulting apparatus, and method of use thereof
JPH0962286A (ja) 1995-08-22 1997-03-07 Sony Corp 音声合成装置および音声合成方法
US5850629A (en) 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
AU2931600A (en) 1999-03-15 2000-10-04 British Telecommunications Public Limited Company Speech synthesis
US6978239B2 (en) 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US7263488B2 (en) * 2000-12-04 2007-08-28 Microsoft Corporation Method and apparatus for identifying prosodic word boundaries
US7136802B2 (en) * 2002-01-16 2006-11-14 Intel Corporation Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system

Also Published As

Publication number Publication date
JP2008152260A (ja) 2008-07-03
CN101202041B (zh) 2011-01-05
CN101202041A (zh) 2008-06-18
US8392191B2 (en) 2013-03-05
US20080147405A1 (en) 2008-06-19

Similar Documents

Publication Publication Date Title
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
KR100996817B1 (ko) 문자 대 음성 변환을 위한 상호 정보 기준을 이용한 큰 그라포넴 단위의 생성
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
CN105336322A (zh) 多音字模型训练方法、语音合成方法及装置
JP2006031228A (ja) 形態素解析装置、方法及びプログラム
CN104021784A (zh) 基于大语料库的语音合成方法和装置
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
Hifny Open vocabulary Arabic diacritics restoration
WO2009107441A1 (ja) 音声合成装置、テキスト生成装置およびその方法並びにプログラム
CN111128181B (zh) 背诵题评测方法、装置以及设备
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
JP2005092682A (ja) 翻字装置、及び翻字プログラム
Vu et al. Vietnamese automatic speech recognition: The flavor approach
Wang et al. Integrating conditional random fields and joint multi-gram model with syllabic features for grapheme-to-phone conversion.
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
JP2002258884A (ja) 音声合成方法および装置並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2008038994A1 (en) Method for converting pronunciation using boundary pause intensity and text-to-speech synthesis system based on the same
TWI635483B (zh) Method and system for generating prosody by using linguistic features inspired by punctuation
JP2008181537A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Hasegawa-Johnson et al. Fast transcription of speech in low-resource languages
JP2005345846A (ja) 入力テキストのポーズ位置予測装置
JP6125991B2 (ja) 発音辞書変換モデル作成装置と発音辞書変換装置とそれらの方法と、プログラムとその記録媒体
JP2024001922A (ja) 情報処理システム、情報処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4968036

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150