JP2007024960A - システム、プログラムおよび制御方法 - Google Patents

システム、プログラムおよび制御方法 Download PDF

Info

Publication number
JP2007024960A
JP2007024960A JP2005203160A JP2005203160A JP2007024960A JP 2007024960 A JP2007024960 A JP 2007024960A JP 2005203160 A JP2005203160 A JP 2005203160A JP 2005203160 A JP2005203160 A JP 2005203160A JP 2007024960 A JP2007024960 A JP 2007024960A
Authority
JP
Japan
Prior art keywords
corpus
reading
accent
text
notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005203160A
Other languages
English (en)
Inventor
Toru Nagano
徹 長野
Shinsuke Mori
信介 森
Masafumi Nishimura
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2005203160A priority Critical patent/JP2007024960A/ja
Priority to CA2614840A priority patent/CA2614840C/en
Priority to EP06764122.5A priority patent/EP1908054B1/en
Priority to PCT/EP2006/064052 priority patent/WO2007006769A1/en
Priority to CN2006800254459A priority patent/CN101223572B/zh
Priority to JP2008520863A priority patent/JP4247564B2/ja
Priority to BRPI0614034-3A priority patent/BRPI0614034A2/pt
Priority to US11/457,145 priority patent/US20070016422A1/en
Publication of JP2007024960A publication Critical patent/JP2007024960A/ja
Priority to US12/534,808 priority patent/US8751235B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Abstract

【課題】テキストに自然な読みおよびアクセントを与える。
【解決手段】テキストの読みおよびアクセントを出力するシステムを提供する。このシステムは、予め入力されたテキストの表記、読み、およびアクセントを、当該テキストに含まれる語句の区切り毎に記録した第1コーパスを格納している格納部を有する。そして、読みおよびアクセントを出力する対象となる対象テキストを取得し、第1コーパス中で連続する表記の組の中から、対象テキストの表記と一致する表記の組を少なくとも1つ検索し、検索された当該表記の組に対応する読みおよびアクセントの組み合わせのうち、第1コーパス中に出現する出現確率が予め定められた基準確率よりも高い読みおよびアクセントの組み合わせを、対象テキストの読みおよびアクセントとして選択する。
【選択図】図4

Description

本発明は、システム、プログラムおよび制御方法に関する。特に、本発明は、テキストの読み及びアクセントを出力するシステム、プログラムおよび制御方法に関する。
音声合成技術の最終的な目的は、人間の発する音声と区別出来ない程度の自然さで、また人間と同等またはそれ以上の正確さ・明確さの音声を合成することにある。しかしながら、現在の音声合成技術は、どの観点においても人間の発声のレベルには達していない。
音声の自然さや正確さを決定付ける基本的な要素として、読みおよびアクセントが挙げられる。一般的に、音声合成システムは、文字列(例えば日本語の場合、漢字かな交じり文)を入力として、音声を出力する。音声を合成する処理は、2つの段階の処理から構成される場合が多い。例えば、前段階はフロントエンドと呼ばれ、後段階はバックエンドと呼ばれる。
フロントエンドにおいて、音声合成システムは、テキストを解析する処理を行う。具体的には、音声合成システムは、文字列を入力として、その入力文字列に対して語句の境界を推定すると共に、各語句に読みとアクセントを与える。バックエンドにおいて、音声合成システムは、各語句に与えられた読みおよびアクセントに基づいて音素列を組み合わせて、実際の合成音声を出力する。
従来、フロントエンドにおいて問題となっていたのは、読みとアクセントの精度が充分に高くないということである。このため、合成音声が不自然に聞こえてしまう場合があった。これに対して、従来、入力文字列にできるだけ自然な読みおよびアクセントを与える技術が提案されている(特許文献1および特許文献2を参照。)。
特許文献1に記載の音声合成装置は、単語の表記、単語の読みとアクセント、単語の品詞情報および頻度情報を、単語の表記毎に記憶している(同文献の図3を参照。)。そして、複数の単語分割候補が求められた場合に、単語分割候補毎に、その単語分割候補に含まれる各単語の頻度情報の合計を求め、その合計が大きい単語分割候補を選択する(同文献の段落22)。そして、選択された単語分割候補に対応付けられた読みおよびアクセントを出力する。
また、特許文献2に記載の音声合成装置は、各形態素の読みのアクセントを、その形態素の属性に基づいて決定する規則を生成する。そして、入力テキストを形態素毎に分割し、各々の形態素の属性をその規則に入力して読みのアクセントを定める。ここで、形態素の属性とは、その形態素のモーラ数、品詞、活用形などに加え、その前後に隣接する形態素のモーラ数、品詞、活用形などの組み合わせである。
非特許文献1については後述する。
特開2003−5776号公報 特開2001−75585号公報 Nagata, M., "A stochastic Japanese morphological analyzer using a Forward-DP Backward-A* N-Best search algorithm,"Proceedings of Coling, pp 201-207, 1994.
特許文献1の技術において、単語分割候補は、各々の単語の頻度情報に基づいて定められ、その単語の前後の文脈には無関係に定められる。しかしながら、日本語や中国語などの単語境界が明示されない言語において、同一の表記がその文脈によって異なる複数の単語に分割され、異なる読みやアクセントにより発音される場合がある。従って、この技術によっては適切な読みおよびアクセントを定められない場合がある。
また、特許文献2の技術において、アクセントの決定は、単語境界や読みの決定とは別の処理として行われる。このため、読みや単語境界を決定するために入力テキストを走査した後に、アクセントを決定するためのその入力テキストを再度走査しなければならず、効率が悪い。また、この技術は、学習データを入力することにより、アクセントを決定する規則の精度を高めていく。しかしながら、この規則は、アクセントの決定にのみ用いられるので、学習データを増加させても読みや単語境界の決定の精度を高めることはできない。
そこで本発明は、上記の課題を解決することのできるシステム、プログラムおよび制御方法を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、テキストの読みおよびアクセントを出力するシステムであって、予め入力されたテキストの表記、読み、およびアクセントを、当該テキストに含まれる語句の区切り毎に記録した第1コーパスを格納している格納部と、読みおよびアクセントを出力する対象となる対象テキストを取得するテキスト取得部と、第1コーパス中で連続する表記の組の中から、対象テキストの表記と一致する表記の組を少なくとも1つ検索する検索部と、検索された当該表記の組に対応する読みおよびアクセントの組み合わせのうち、第1コーパス中に出現する出現確率が予め定められた基準確率よりも高い読みおよびアクセントの組み合わせを、対象テキストの読みおよびアクセントとして選択する選択部とを備えるシステム、当該システムとして情報処理装置を機能させるプログラム、および、当該システムを制御する制御方法を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本発明によれば、テキストに自然な読みおよびアクセントを与えることができる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、音声処理システム10の全体構成を示す。音声処理システム10は、格納部20と、音声認識装置30と、音声合成装置40とを備える。音声認識装置30は、利用者から発せられた音声を認識することによりテキストを生成する。そして、音声認識装置30は、生成したそのテキストを、認識した音声に基づく読みおよびアクセントに対応付けて格納部20に格納する。格納部20に格納されたテキストは、音声合成に用いるためのコーパスとなる。
音声合成装置40は、読みおよびアクセントを出力する対象となる対象テキストを取得すると、その対象テキストを格納部20に格納されたコーパスと比較する。そして、音声合成装置40は、その対象テキスト中の複数の語句について、最も出現確率の高い読みおよびアクセントの組み合わせをコーパス中から選択する。音声合成装置40は、選択した読みおよびアクセントに基づいて合成音声を生成して出力する。
本実施例において、音声処理システム10は、コーパス中に連続して出現する表記の組について、その読みおよびアクセントの組み合わせの出現確率に基づいて、対象テキストの読みおよびアクセントを選択する。これにより、語句自体の出現確率のみならず語句の文脈を考慮して読みおよびアクセントを選択することを目的とする。また、音声合成に用いられるコーパスは、例えば音声認識技術などによって自動的に生成することができる。これにより、音声合成に必要な手間や費用を削減して、これまでより幅広い種類の言語に対応することを目的とする。
図2は、格納部20のデータ構造の一例を示す。格納部20は、第1コーパス22および第2コーパス24を格納している。第1コーパス22は、予め入力されたテキストの表記、品詞、読み、およびアクセントを、そのテキストに含まれる語句の区切り毎に記録している。例えば、本図の例において、第1コーパス22は、「京都タワーホテル」というテキストを、表記「京都」、表記「タワー」、および表記「ホテル」に分割してこの順に記録している。また、第1コーパス22は、他の文脈においてそれぞれ表記「京都」、表記「タワー」、および表記「ホテル」を別個に記録している。
第1コーパス22は、表記「京都」に対応付けて、その表記の語句が固有名詞であり、その表記の読みが「Kyo:to」であり、その表記のアクセントが「LHH」である旨を記録している。ここで「:」は長音記号であり、「H」および「L」は、高低アクセント要素を示す。即ちこの文脈のテキストにおいて、語句「京都」は、先頭の音節において低いアクセントの「Kyo」と読まれ、2番目の音節において高いアクセントの「o:」と読まれ、3番目の音節において高いアクセントの「to」と読まれている。
一方で、他の文脈に出現する語句「京都」は、アクセント「HLL」に対応付けて記録されており、「京都タワーホテル」というテキスト中に出現した語句「京都」とは、アクセントが異なっている。同様に、語句「タワー」は、「京都タワーホテル」というテキスト中ではアクセント「HHH」に対応付けられており、他の文脈では「HLL」に対応付けられている。このように、第1コーパス22は、各々の語句について一義的な読みおよびアクセントを記録するのではなく、その語句が出現した文脈において用いられる読みおよびアクセントを記録している。
なお、本図においては説明の便宜上、アクセントは、その高低を示す「H」や「L」によって表されるが、これに代えて、アクセントのパターンを所定のタイプに分類した識別子によって表されてもよい。例えば、「LHH」はXタイプ、「HHH」はYタイプ等のように表し、第1コーパス22は、これらのアクセントのタイプを記録してもよい。
ここで、音声合成装置40の用途は様々であり、音声合成装置40には、新聞や書籍などの原稿のみならず、電子メールや掲示板・ウェブページ等の様々なテキストが対象テキストとして入力され得る。このため、対象テキストに出現し得る全ての語句を第1コーパス22に記録しておくのは現実的でない。対象テキスト中に、第1コーパス22に出現しない語句が含まれていた場合においても、その読みを適切に判断するべく、格納部20は、第2コーパス24を更に格納している。
具体的には、第2コーパス24は、第1コーパス22中において、対象テキスト中の語句と表記を比較しない除外語句について、その除外語句に含まれる文字毎にその文字の読みを記録している。また、第2コーパス24は、除外語句に含まれる文字毎にその除外語句の品詞およびアクセントを記録している。即ち例えば、テキスト「京都タワーホテル」中の語句「京都」が除外語句であるとすれば、第2コーパス24は、語句「京都」に含まれる文字「京」および「都」の各々に対応付けて、その文字の読み「kyo」および「to」の各々を記録する。また、第2コーパス24は、語句「京都」が名詞でありアクセントがXタイプであるので、文字「京」および「都」の各々に対応付けて、品詞が名詞でありアクセントがXタイプである旨の情報を記録する。
第2コーパス24を準備しておけば、語句「京都」が第1コーパス22に記録されていない場合であっても、文字「京」および文字「都」の読みを組み合わせることによって、語句「京都」の読みを適切に判断することができる。
更に、第1コーパス22および/または第2コーパス24は、テキスト中で明示的に現れる語句のみならず、テキストの先頭・終端や語句の先頭・終端、或いは、改行や空白などを、語句の文脈を特定するための記号として記録してもよい。これにより、読みおよびアクセントを一層精度良く付与することができる。
格納部20は、第1コーパス22および第2コーパス24の他に、音声合成に必要な音素および韻律の情報を更に格納していてもよい。即ち例えば、音声認識装置30は、音声認識によって認識した語句の読みに、当該読みが実際に発音された時の音素および韻律の情報を対応付けた韻律情報を生成し、それを格納部20に格納してもよい。この場合、音声合成装置40は、対象テキストの読みを選択した上で、選択したその読みの音素および韻律を韻律情報に基づいて生成して合成音声として出力してもよい。
図3は、音声認識装置30の機能構成を示す。音声認識装置30は、音声認識部300と、読み生成部310と、アクセント生成部320と、第1コーパス生成部330と、頻度算出部340と、第2コーパス生成部350と、韻律情報生成部360とを有する。音声認識部300は、音声を認識することにより、表記を語句の区切り毎に記録したテキストを生成する。音声認識部300は、認識したテキスト中の各語句に、その語句の品詞を対応付けたデータを生成してもよい。また、音声認識部300は、利用者の操作に基づいてそのテキストを修正してもよい。
読み生成部310は、音声認識部300が取得した音声に基づいて、そのテキスト中の各語句の読みを生成する。なお、読み生成部310は、利用者の操作に基づいてその読みを修正してもよい。アクセント生成部320は、音声認識部300が取得した音声に基づいて各語句のアクセントを生成する。これに代えて、アクセント生成部320は、テキスト中の各語句のアクセントを利用者から入力してもよい。
第1コーパス生成部330は、音声認識部300により生成されたテキストを、読み生成部310により生成された読み、および、アクセント生成部320により入力されたアクセントに対応付けて記録することにより第1コーパス22を生成し、格納部20に格納する。頻度算出部340は、第1コーパス中に出現する表記、読み、および、アクセントの組の出現頻度を求める。ここで、出現頻度は、表記毎に求められるのではなく、表記、読み、および、アクセントの組毎に求められる。例えば、表記「京都」の出現頻度が高い場合であっても、表記「京都」のアクセントを「LHH」とする場合の出現頻度が低ければ、その低い出現頻度がその表記およびアクセントの組に対応付けて算出される。
そして、第1コーパス生成部330は、出現頻度が予め定められた基準よりも低い表記、読み、および、アクセントの組を、除外語句として第1コーパス22に記録する。また、第2コーパス生成部350は、各々の除外語句に含まれる各文字を、その文字の読みに対応付けて第2コーパス24に記録する。韻律情報生成部360は、音声認識部300により認識されたテキストに含まれる各々の語句について、当該語句の韻律および音素を示す韻律情報を生成し、格納部20に格納する。
なお、第1コーパス生成部330は、第1コーパス22それ自体を格納部20に格納するのに代えて、第1コーパス22中において連続する複数の表記の組の各々について、当該表記の組の読みおよびアクセントが第1コーパス22中に出現する回数や頻度等を示す言語モデルを生成して、その言語モデルを格納部20に格納してもよい。同様に、第2コーパス生成部350は、第2コーパス24それ自体を格納部20に格納するのに代えて、第2コーパス24中において連続する複数の文字の組の各々について、当該文字の組の読みが第2コーパス24中に出現する回数や頻度等を示す言語モデルを生成して、その言語モデルを格納部20に格納してもよい。これによって、読みおよびアクセントがコーパス中で出現する出現確率を算出し易くして、対象テキストの入力から合成音声の出力までの処理を効率化できる。
図4は、音声合成装置40の機能構成を示す。音声合成装置40は、テキスト取得部400と、検索部410と、選択部420と、音声合成部430とを有する。テキスト取得部400は、対象テキストを取得する。対象テキストは、例えば日本語や中国語などの、語句の境界が明示的に示されていない言語で記述されている。検索部410は、第1コーパス22中で連続する表記の組の中から、対象テキストの表記と一致する表記の組を少なくとも1つ検索する。選択部420は、検索された表記の組に対応する読みおよびアクセントの組み合わせのうち、第1コーパス22中に出現する出現確率が予め定められた基準確率よりも高い読みおよびアクセントの組み合わせを、その対象テキストの読みおよびアクセントとして選択する。
好ましくは、選択部420は、出現確率が最も高い読みおよびアクセントの組み合わせを選択し、更に好ましくは、その対象テキストが現れる前後の文脈を更に考慮して最も適切な読みおよびアクセントの組み合わせを選択する。また、対象テキストの表記と一致する表記を第1コーパス22から検索できない場合には、選択部420は、その表記の読みを第2コーパス24から選択してもよい。そして、音声合成部430は、選択した読みおよびアクセントに基づき合成音声を生成して出力する。このとき、音声合成部430は、格納部20に格納された韻律情報を用いることが望ましい。
図5は、音声認識によりコーパスを生成する処理の一例を示す。音声認識部300は、利用者から音声を入力する(S500)。そして、音声認識部300は、音声を認識することにより、表記を語句の区切り毎に記録したテキストを生成する(S510)。読み生成部310は、音声認識部300が取得した音声に基づいて、そのテキスト中の各語句の読みを生成する(S520)。アクセント生成部320は、そのテキスト中の各語句のアクセントを利用者から入力する(S530)。
第1コーパス生成部330は、音声認識部300により生成されたテキストを、読み生成部310により生成された読み、および、アクセント生成部320により生成されたアクセントに対応付けて記録することにより第1コーパスを生成する(S540)。頻度算出部340は、第1コーパス中に出現する表記、読み、および、アクセントの組の出現頻度を求める(S550)。そして、第1コーパス生成部330は、出現頻度が予め定められた基準よりも低い表記、読み、および、アクセントの組を、除外語句として第1コーパス22に記録する(S560)。また、第2コーパス生成部350は、各々の除外語句に含まれる各文字を、その文字の読みに対応付けて第2コーパス24に記録する(S570)。
図6は、除外語句および第2コーパスの生成例を示す。第1コーパス生成部330は、出現頻度が予め定められた基準よりも低い表記、読み、および、アクセントの組を除外語句として検出する。本図では、第1コーパス22中の除外語句に注目し、それに対する処理の詳細を説明する。図6(a)に示すように、除外語句として、語句「ABC」、語句「DEF」、語句「GHI」、語句「JKL」および語句「MNO」が検出されている。本図では説明の便宜上、語句を構成する文字をアルファベットにより抽象化して示すが、実際の語句の表記は、音声合成の対象となる言語の文字によって構成される。
除外語句の表記は、対象テキスト中の語句と比較される対象とはならない。一方で、これらの語句は、例えば音声認識技術によって音声からテキストに変換されたものであるから、その品詞およびアクセントは判明している。第1コーパス22は、各々の除外語句に対応付けてその語句の品詞およびアクセントのタイプを対応付けて記録している。例えば、第1コーパス22は、語句「ABC」に対応付けて品詞「名詞」およびアクセントのタイプ「X」を対応付けて記録している。なお、第1コーパス22は、除外語句の表記「ABC」や読み「abc」は記録しなくてもよい。
図6(b)に示すように、第2コーパス生成部350は、各々の除外語句に含まれる各文字をその文字の読み、その語句の品詞、および、その語句のアクセントのタイプに対応付けて第2コーパス24に記録する。即ち、語句「ABC」が除外語句として検出されたので、第2コーパス24は、その語句を構成する文字「A」、文字「B」、および、文字「C」の各々をその読みに対応付けて記録する。また、第2コーパス24は、各々の除外語句に含まれる文字の読みをその除外語句の品詞およびアクセントの組毎に分類して記録する。例えば、語句「ABC」は名詞であってアクセントのタイプがXであるので、語句「ABC」中に出現する文字「A」は名詞およびアクセントタイプXに対応付けて記録される。
なお、第2コーパス24についても第1コーパス22と同様に、各々の文字について一義的な読みを記録するのではなく、その文字が出現した語句において用いられる読みを記録している。即ち例えば、第2コーパス24は、語句「ABC」中の表記「A」に対応付けて読み「a」を記録する一方で、他の除外語句に現れる表記「A」に対応付けて他の読みを記録してもよい。
また、本図で説明した除外語句の生成方法は一例であり、除外語句は他の方法によって生成されてもよい。例えば、エンジニアや利用者によって予め設定された語句が除外語句として生成され第2コーパスに記録されてもよい。
図7は、対象テキストの読みおよびアクセントを選択する処理の一例を示す。テキスト取得部400は、対象テキストを取得する(S700)。検索部410は、第1コーパス22中で連続する表記の組の中から、対象テキストの表記と一致する表記の組を全て検索する(S710)。選択部420は、検索された表記の組に対応する読みおよびアクセントの組み合わせを第1コーパス22から全て選択する(S720)。
また、S710において、検索部410は、対象テキストの表記と完全に一致する表記の組のみならず、対象テキストと除外語句を除き一致する表記の組を第1コーパス22から検索してもよい。この場合、S720において、選択部420は、除外語句を含んで検索されたその表記の組の読みおよびアクセントの組み合わせを第1コーパス22から全て選択する。
検索された表記の組が除外語句を含むことを条件に(S730:YES)、検索部410は、対象テキストのうち除外語句に対応する部分テキスト中の各々の文字に一致する文字の組を第2コーパス24から検索する(S740)。そして、選択部420は、除外語句を含んで検索された表記の組の読みおよびアクセントの組み合わせの各々の出現確率を求める(S750)。また、選択部420は、その部分テキストについて第2コーパス24のうち当該除外語句の品詞およびアクセントに対応する文字の中から検索された文字の組の読みの組み合わせの各々の出現確率を求める。そして、選択部420は、求めたこれらの出現確率の積を算出し、その積を最大とする読みおよびアクセントの組み合わせを選択する(S760)。
S710において検索された表記の組が除外語句を含まないことを条件に(S730:NO)、選択部420は、検索された表記の組の読みおよびアクセントの組み合わせの各々の出現確率を求め(S750)、その出現確率を最大とする読みおよびアクセントの組を選択してもよい(S760)。そして、音声合成部430は、選択した読みおよびアクセントに基づき合成音声を生成して出力する(S770)。
なお、出現確率を最大とする読みおよびアクセントを選択することが好ましいが、これに代えて、所定の基準確率を超える読みおよびアクセントの何れかを選択する処理としてもよい。即ち例えば、選択部420は、除外語句を含んで検索された表記の組の読みおよびアクセントの組み合わせのうち出現確率が基準確率よりも高い読みおよびアクセントの組み合わせを選択してもよい。更に、選択部420は、除外語句に対応する部分テキストについて検索された文字の組の読みの組み合わせのうち出現確率が他の基準確率よりも高い読みの組み合わせを選択してもよい。このような処理によっても、ある程度の精度で読み及びアクセントを定めることができる。
なお、S760において読みおよびアクセントの組を選択するには、ある1つの対象テキストについて求めた出現確率のみならず、その対象テキストの前後の対象テキストについて求めた出現確率を用いることが好ましい。この処理の一例として、確率モデルまたはn−gramモデルと呼ばれる技術が知られている(詳しくは、非特許文献1を参照。)。続いて、n−gramの一つである2−gramモデルを本実施例に適用した場合の処理について説明する。
図8は、確率モデルにより読み及びアクセントを選択する処理の一例を示す。選択部420がS760において読みおよびアクセントを選択するためには、本図において説明するように、複数の対象テキストについて求めた出現確率を用いることが望ましい。以下、この処理について具体的に述べる。まず、テキスト取得部400は、複数の対象テキストを含むテキストを入力する。このテキストを、例えば、「山田君は京都タワー・・・ABC・・・」とする。このテキストにおいて、対象テキストの区切り部分は明示されていない。
まず、対象テキストが、除外語句を含まない表記の組に一致する場合について説明する。
テキスト取得部400は、例えば、このテキストのうち「山田君」の部分を、処理の対象である対象テキスト800aとして選択する。検索部410は、第1コーパス22中で連続する表記の組の中から、対象テキスト800aの表記と一致する表記の組を検索する。例えば、「山田」という語句810aと、「君」という語句810bが連続して記録されていれば、検索部410は、語句810aおよび語句810bを検索する。更に、「山」という語句810cと、「田君」という語句810dが連続して記録されていれば、検索部410は、語句810cおよび語句810dを検索する。
このとき、第1コーパス22において、表記「山田」は、日本に多い苗字や地名の「やまだ」とひと続きにかつ自然に発音するアクセントに対応付けられており、表記「山」は、山岳などを表す一般名称に適したアクセントに対応付けられている。また、本図の例では説明の都合上、語句の境界が異なる複数の表記の組を示しているが、語句の境界が同じであって読みまたはアクセントのみが異なる表記の組も検出される場合がある。
そして、選択部420は、検索された表記の組に対応する読みおよびアクセントの組み合わせの各々について、当該組み合わせが第1コーパス22中で出現する出現確率を算出する。例えば、語句810aおよび語句810bが連続して出現する回数が9回であり、語句810cおよび語句810dが連続して出現する回数が1回であれば、語句810aおよび語句810bの組が出現する確率は90%である。
続いて、テキスト取得部400は、次の対象テキストに処理を移す。例えば、テキスト取得部400は、表記「田君は」を対象テキスト800bとして選択する。検索部410は、「田君」という語句810dと、「は」という語句810eとを含む表記の組と、「田君」という語句810dと、「は」という語句810fとを含む表記の組とを検索する。ここで、語句810eおよび語句810fは、表記の上で同一であるが、読みまたはアクセントが異なるため別々に検索される。選択部420は、語句810dおよび語句810eが連続して出現する出現確率と、語句810dおよび語句810fが連続して出現する出現確率とを算出する。
また、テキスト取得部400は、次の対象テキストに処理を移す。例えば、テキスト取得部400は、表記「君は」を対象テキスト800cとして選択する。検索部410は、「君」という語句810bと、「は」という語句810eとを含む表記の組と、「君」という語句810bと、「は」という語句810fとを含む表記の組とを検索する。選択部420は、語句810bおよび語句810eが連続して出現する出現確率と、語句810bおよび語句810fが連続して出現する出現確率とを算出する。
以降、同様に、テキスト取得部400は、対象テキスト800d、対象テキスト800e、および、対象テキスト800fを順次選択する。そして、選択部420は、各々の対象テキストの表記に一致する各々の表記の組についてその読みおよびアクセントの組み合わせの出現確率を算出する。最後に、選択部420は、入力したテキストの一部と一致する表記の組を順次選択する経路の各々について、その表記の組の出現確率の積を算出する。一例として、選択部420は、語句810a、語句810b、語句810e、語句810g、および、語句810hを順次選択する経路について、語句810aおよび語句810bの組の出現確率と、語句810bおよび語句810eの組の出現確率と、語句810eおよび語句810gの組の出現確率と、語句810gおよび語句810hの組の出現確率とを算出する。
この算出処理を一般化すると、以下の式(1)となる。
Figure 2007024960
この式においてhは表記の組の数であり、本図の例では5である。また、kは、遡って考慮する文脈中の語句の数であり、本図の例では2gramモデルを仮定するのでk=1である。また、u=<w,t,s,a>である。これは図2における各々の記号と一致し、wは表記を示し、tは品詞を示し、sは読みを示し、aはアクセントを示す。
選択部420は、各々の経路について算出した出現確率を最も大きくする読みおよびアクセントの組み合わせを選択する。この選択処理を一般化すると、以下の式(2)となる。
Figure 2007024960
この式においてx1x2…xhは、テキスト取得部400が入力するテキストであり、x1、x2からxhまでの各々は文字である。
以上の処理によれば、音声合成装置40は、入力されたテキストの文脈と、第1コーパス22に含まれるテキストの文脈とを比較することで、対象テキストの読みおよびアクセントを適切に決定することができる。
次に、対象テキストが、除外語句を含む表記の組に一致する場合の処理について説明する。検索部410は、対象テキスト800gの表記に除外語句を除いて一致する表記の組として、除外語句820aおよび語句810kを含む表記の組を検索する。除外語句820aは、実際には表記「ABC」を有するが、この表記は比較の対象とならない。また、検索部410は、対象テキスト800gの表記に除外語句を除いて一致する表記の組として、除外語句820bおよび語句810lを含む表記の組を検出する。除外語句820bは、実際には表記「MNO」を有するが、この表記は比較の対象とならない。
選択部420は、除外語句を含んで検索された表記の組の読みおよびアクセントの組み合わせの各々の出現確率を求める。例えば、選択部420は、除外語句820aおよび語句810kがこの順に連続して第1コーパス22中に出現する出現確率を求める。そして、選択部420は、除外語句に対応する部分テキスト「PQR」について、第2コーパス24のうちその除外語句の品詞およびアクセントに対応する文字の中から検索された文字の組の読みの組み合わせの各々の出現確率を算出する。即ち、選択部420は、名詞かつアクセントのタイプがXである全ての除外語句を用いて、文字P、文字Q、および、文字Rの出現確率を算出する。そして、選択部420は、文字Pおよび文字Qをこの順に連続して含む文字列の出現確率を算出する。また、選択部420は、文字Qおよび文字Rをこの順に連続して含む文字列の出現確率を算出する。そして、選択部420は、第1コーパス22に基づき算出した出現確率の各々と、第2コーパス24に基づき算出した出現確率の各々とを乗じる。
また、選択部420は、除外語句820bおよび語句810lがこの順に連続して第1コーパス22中に出現する出現確率を求める。そして、選択部420は、動詞かつアクセントのタイプがYである全ての除外語句を用いて、文字P、文字Q、および、文字Rの出現確率を算出する。また、選択部420は、文字Pおよび文字Qをこの順に連続して含む文字列の出現確率を算出する。また、選択部420は、文字Qおよび文字Rをこの順に連続して含む文字列の出現確率を算出する。そして、選択部420は、第1コーパス22に基づき算出した出現確率の各々と、第2コーパス24に基づき算出した出現確率の各々とを乗じる。
同様に、選択部420は、除外語句820aおよび語句810lがこの順に連続して第1コーパス22中に出現する出現確率を求める。即ち、選択部420は、名詞かつアクセントのタイプがXである全ての除外語句を用いて、文字P、文字Q、および、文字Rの出現確率を算出する。そして、選択部420は、文字Pおよび文字Qをこの順に連続して含む文字列の出現確率を算出する。また、選択部420は、文字Qおよび文字Rをこの順に連続して含む文字列の出現確率を算出する。そして、選択部420は、第1コーパス22に基づき算出した出現確率の各々と、第2コーパス24に基づき算出した出現確率の各々とを乗じる。
さらに、選択部420は、除外語句820bおよび語句810kがこの順に連続して第1コーパス22中に出現する出現確率を求める。そして、選択部420は、動詞かつアクセントのタイプがYである全ての除外語句を用いて、文字P、文字Q、および、文字Rの出現確率を算出する。また、選択部420は、文字Pおよび文字Qをこの順に連続して含む文字列の出現確率を算出する。また、選択部420は、文字Qおよび文字Rをこの順に連続して含む文字列の出現確率を算出する。そして、選択部420は、第1コーパス22に基づき算出した出現確率の各々と、第2コーパス24に基づき算出した出現確率の各々とを乗じる。
選択部420は、このように算出した出現確率の積の中から、最も出現確率の高い読みおよびアクセントの組み合わせを選択する。この処理を一般化すると以下のように表すことができる。
Figure 2007024960
Figure 2007024960
このとき、選択部420は、最も出現確率の高い除外語句のアクセントを、その除外語句に対応する部分テキストのアクセントとして選択する。例えば、除外語句820aおよび語句810kの組の出現確率と、名詞およびアクセントタイプX中の文字の出現確率との積が最大であれば、除外語句820aのアクセントタイプXが部分テキストのアクセントとして選択される。
以上、本図で説明したように、音声合成装置40は、対象テキストが除外語句を含むテキストに一致する場合であっても、除外語句に対応する部分テキストの文字について、その読みおよびアクセントを定めることができる。これにより、第1コーパス22の表記と完全に一致するテキストのみならず、その他の多様なテキストに尤もらしい読みおよびアクセントを与えることができる。
図9は、音声認識装置30および音声合成装置40として機能する情報処理装置500のハードウェア構成の一例を示す。情報処理装置500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるBIOS1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、BIOS1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、情報処理装置500が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、BIOS1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。BIOS1010は、情報処理装置500の起動時にCPU1000が実行するブートプログラムや、情報処理装置500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
情報処理装置500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され情報処理装置500にインストールされて実行される。プログラムが情報処理装置500等に働きかけて行わせる動作は、図1から図8において説明した音声認識装置30および音声合成装置40における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置500に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、音声処理システム10の全体構成を示す。 図2は、格納部20のデータ構造の一例を示す。 図3は、音声認識装置30の機能構成を示す。 図4は、音声合成装置40の機能構成を示す。 図5は、音声認識によりコーパスを生成する処理の一例を示す。 図6は、除外語句および第2コーパスの生成例を示す。 図7は、対象テキストの読みおよびアクセントを選択する処理の一例を示す。 図8は、確率モデルにより読み及びアクセントを選択する処理の一例を示す。 図9は、音声認識装置30および音声合成装置40として機能する情報処理装置500のハードウェア構成の一例を示す。
符号の説明
10 音声処理システム
20 格納部
30 音声認識装置
40 音声合成装置
22 第1コーパス
24 第2コーパス
300 音声認識部
310 読み生成部
320 アクセント生成部
330 第1コーパス生成部
340 頻度算出部
350 第2コーパス生成部
360 韻律情報生成部
400 テキスト取得部
410 検索部
420 選択部
430 音声合成部
500 情報処理装置
800 対象テキスト
810 語句
820 除外語句

Claims (10)

  1. テキストの読みおよびアクセントを出力するシステムであって、
    予め入力されたテキストの表記、読み、およびアクセントを、当該テキストに含まれる語句の区切り毎に記録した第1コーパスを格納している格納部と、
    読みおよびアクセントを出力する対象となる対象テキストを取得するテキスト取得部と、
    前記第1コーパス中で連続する表記の組の中から、前記対象テキストの表記と一致する表記の組を少なくとも1つ検索する検索部と、
    検索された当該表記の組に対応する読みおよびアクセントの組み合わせのうち、前記第1コーパス中に出現する出現確率が予め定められた基準確率よりも高い読みおよびアクセントの組み合わせを、前記対象テキストの読みおよびアクセントとして選択する選択部と
    を備えるシステム。
  2. 前記格納部は、前記対象テキスト中の語句と表記を比較しない除外語句を含むテキストを前記第1コーパスとして格納し、更に、除外語句に含まれる文字毎に当該文字の読みを記録した第2コーパスを格納し、
    前記検索部は、前記対象テキストと除外語句を除き一致する表記の組を前記第1コーパスから検索し、更に、前記対象テキストのうち除外語句に対応する部分テキスト中の各々の文字に一致する文字の組を前記第2コーパスから検索し、
    前記選択部は、除外語句を含んで検索された前記表記の組の読みおよびアクセントの組み合わせの各々の中から、当該組み合わせの出現確率に基づいて読みおよびアクセントを選択し、更に、前記部分テキストについて検索された文字の組の読みの組み合わせの各々の中から、当該組み合わせの出現確率に基づいて読みの組み合わせを選択する
    請求項1に記載のシステム。
  3. 前記第1コーパスは、各々の前記除外語句を当該除外語句の品詞に対応付けて記録し、
    前記第2コーパスは、各々の前記除外語句に含まれる文字の読みを当該除外語句の品詞毎に分類して記録し、
    前記選択部は、除外語句を含んで検索された前記表記の組の読みおよびアクセントの組み合わせのうち前記出現確率が前記基準確率よりも高い読みおよびアクセントの組み合わせを選択し、更に、前記部分テキストについて検索された文字の組の読みの組み合わせのうち前記出現確率が他の基準確率よりも高い読みの組み合わせを選択する
    請求項2に記載のシステム。
  4. 前記第1コーパスは、各々の前記除外語句を当該除外語句の品詞およびアクセントの組に対応付けて記録し、
    前記第2コーパスは、各々の前記除外語句に含まれる文字の読みを当該除外語句の読みおよびアクセントの組毎に分類して記録し、
    前記選択部は、除外語句を含んで検索された前記表記の組の読みおよびアクセントの組み合わせの各々の前記出現確率、および、前記部分テキストについて前記第2コーパスのうち当該除外語句の品詞およびアクセントに対応する文字の中から検索された文字の組の読みの組み合わせの各々の前記出現確率の積を算出し、当該積が最大の読みおよびアクセントの組み合わせを選択する
    請求項3に記載のシステム。
  5. 前記予め入力されたテキスト中に出現する表記、読み、および、アクセントの組の出現頻度を求める頻度算出部を更に備え、
    前記格納部は、前記出現頻度が予め定められた基準よりも低い表記、読み、および、アクセントの組を、前記除外語句として含むテキストを前記第1コーパスとして格納している
    請求項2に記載のシステム。
  6. 音声を認識することにより、表記を語句の区切り毎に記録したテキストを生成する音声認識部と、
    前記音声認識部が取得した音声に基づいて、当該テキスト中の各語句の読みを生成する読み生成部と、
    前記音声認識部が取得した音声に基づいて、当該テキスト中の各語句のアクセントを生成するアクセント生成部と、
    前記音声認識部により生成されたテキストを、前記読み生成部により生成された読み、および、前記アクセント生成部により生成されたアクセントに対応付けて記録することにより前記第1コーパスを生成する第1コーパス生成部と
    を更に備える請求項1に記載のシステム。
  7. 前記第1コーパス中に出現する表記、読み、および、アクセントの組の出現頻度を求める頻度算出部を更に備え、
    前記第1コーパス生成部は、前記出現頻度が予め定められた基準よりも低い表記、読み、および、アクセントの組を、前記除外語句として前記第1コーパスに記録する
    請求項6に記載のシステム。
  8. 各々の前記除外語句に含まれる各文字を、当該文字の読みに対応付けて記録する第2コーパスを生成する第2コーパス生成部を更に備える請求項7に記載のシステム。
  9. テキストの読みおよびアクセントを出力するシステムとして、情報処理装置を機能させるプログラムであって、
    前記情報処理装置を、
    予め入力されたテキストの表記、読み、およびアクセントを、当該テキストに含まれる語句の区切り毎に記録した第1コーパスを格納している格納部と、
    読みおよびアクセントを出力する対象となる対象テキストを取得するテキスト取得部と、
    前記第1コーパス中で連続する表記の組の中から、前記対象テキストの表記と一致する表記の組を少なくとも1つ検索する検索部と、
    検索された当該表記の組に対応する読みおよびアクセントの組み合わせのうち、前記第1コーパス中に出現する出現確率が予め定められた基準確率よりも高い読みおよびアクセントの組み合わせを、前記対象テキストの読みおよびアクセントとして選択する選択部と
    して機能させるプログラム。
  10. テキストの読みおよびアクセントを出力するシステムの制御方法であって、
    前記システムは、予め入力されたテキストの表記、読み、およびアクセントを、当該テキストに含まれる語句の区切り毎に記録した第1コーパスを格納している格納部を有し、
    読みおよびアクセントを出力する対象となる対象テキストを取得するテキスト取得段階と、
    前記第1コーパス中で連続する表記の組の中から、前記対象テキストの表記と一致する表記の組を少なくとも1つ検索する検索段階と、
    検索された当該表記の組に対応する読みおよびアクセントの組み合わせのうち、前記第1コーパス中に出現する出現確率が予め定められた基準確率よりも高い読みおよびアクセントの組み合わせを、前記対象テキストの読みおよびアクセントとして選択する選択段階と
    を備える制御方法。
JP2005203160A 2005-07-12 2005-07-12 システム、プログラムおよび制御方法 Pending JP2007024960A (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP2005203160A JP2007024960A (ja) 2005-07-12 2005-07-12 システム、プログラムおよび制御方法
CA2614840A CA2614840C (en) 2005-07-12 2006-07-10 System, program, and control method for speech synthesis
EP06764122.5A EP1908054B1 (en) 2005-07-12 2006-07-10 System, program, and control method for speech synthesis
PCT/EP2006/064052 WO2007006769A1 (en) 2005-07-12 2006-07-10 System, program, and control method for speech synthesis
CN2006800254459A CN101223572B (zh) 2005-07-12 2006-07-10 用于语音合成的系统、程序和控制方法
JP2008520863A JP4247564B2 (ja) 2005-07-12 2006-07-10 システム、プログラムおよび制御方法
BRPI0614034-3A BRPI0614034A2 (pt) 2005-07-12 2006-07-10 sistema, programa e método de controle para sintetização de discurso
US11/457,145 US20070016422A1 (en) 2005-07-12 2006-07-12 Annotating phonemes and accents for text-to-speech system
US12/534,808 US8751235B2 (en) 2005-07-12 2009-08-03 Annotating phonemes and accents for text-to-speech system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005203160A JP2007024960A (ja) 2005-07-12 2005-07-12 システム、プログラムおよび制御方法

Publications (1)

Publication Number Publication Date
JP2007024960A true JP2007024960A (ja) 2007-02-01

Family

ID=36993760

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2005203160A Pending JP2007024960A (ja) 2005-07-12 2005-07-12 システム、プログラムおよび制御方法
JP2008520863A Active JP4247564B2 (ja) 2005-07-12 2006-07-10 システム、プログラムおよび制御方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2008520863A Active JP4247564B2 (ja) 2005-07-12 2006-07-10 システム、プログラムおよび制御方法

Country Status (7)

Country Link
US (2) US20070016422A1 (ja)
EP (1) EP1908054B1 (ja)
JP (2) JP2007024960A (ja)
CN (1) CN101223572B (ja)
BR (1) BRPI0614034A2 (ja)
CA (1) CA2614840C (ja)
WO (1) WO2007006769A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026223A (ja) * 2008-07-18 2010-02-04 Nippon Hoso Kyokai <Nhk> 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム
JP2013246224A (ja) * 2012-05-24 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> アクセント句境界推定装置、アクセント句境界推定方法及びプログラム
JP2014215396A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 発音付与方法とその装置とプログラム

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221760B (zh) * 2008-01-30 2010-12-22 中国科学院计算技术研究所 一种音频匹配方法及系统
US8374873B2 (en) 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
KR101054911B1 (ko) 2008-10-17 2011-08-05 동아제약주식회사 디펩티딜펩티다아제-ⅳ의 활성을 저해하는 화합물 및 다른 항당뇨 또는 항비만 약물을 유효성분으로 함유하는 당뇨 또는 비만의 예방 및 치료용 약학적 조성물
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN102479508B (zh) * 2010-11-30 2015-02-11 国际商业机器公司 用于将文本转换成语音的方法和系统
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
EP2864856A4 (en) 2012-06-25 2015-10-14 Microsoft Technology Licensing Llc SEIZURE METHOD EDITOR APPLICATION PLATFORM
KR102023157B1 (ko) * 2012-07-06 2019-09-19 삼성전자 주식회사 휴대 단말기의 사용자 음성 녹음 및 재생 방법 및 장치
JP6122499B2 (ja) 2012-08-30 2017-04-26 マイクロソフト テクノロジー ライセンシング,エルエルシー 特徴に基づく候補選択
US9734819B2 (en) * 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
EP3030982A4 (en) 2013-08-09 2016-08-03 Microsoft Technology Licensing Llc INPUT PROCESSORS EDITOR WITH LANGUAGE SUPPORT
US10922322B2 (en) 2014-07-22 2021-02-16 Nuance Communications, Inc. Systems and methods for speech-based searching of content repositories
DE102014114845A1 (de) * 2014-10-14 2016-04-14 Deutsche Telekom Ag Verfahren zur Interpretation von automatischer Spracherkennung
US9922643B2 (en) * 2014-12-23 2018-03-20 Nice Ltd. User-aided adaptation of a phonetic dictionary
US9336782B1 (en) * 2015-06-29 2016-05-10 Vocalid, Inc. Distributed collection and processing of voice bank data
US9990916B2 (en) * 2016-04-26 2018-06-05 Adobe Systems Incorporated Method to synthesize personalized phonetic transcription
US10255905B2 (en) * 2016-06-10 2019-04-09 Google Llc Predicting pronunciations with word stress
US10345144B2 (en) * 2017-07-11 2019-07-09 Bae Systems Information And Electronics Systems Integration Inc. Compact and athermal VNIR/SWIR spectrometer
IT201800005283A1 (it) * 2018-05-11 2019-11-11 Rimodulatore del timbro vocale
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN109376362A (zh) * 2018-11-30 2019-02-22 武汉斗鱼网络科技有限公司 一种纠错文本的确定方法以及相关设备
JP2021096327A (ja) * 2019-12-16 2021-06-24 株式会社PKSHA Technology アクセント推定装置、アクセント学習装置、アクセント推定方法、および、アクセント学習方法
CN111951779B (zh) * 2020-08-19 2023-06-13 广州华多网络科技有限公司 语音合成的前端处理方法及相关设备
CN112331176B (zh) * 2020-11-03 2023-03-10 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
WO2022256026A1 (en) * 2021-06-04 2022-12-08 Google Llc Systems and methods for generating phonetic spelling variations

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0632019B2 (ja) 1985-06-25 1994-04-27 松下電工株式会社 音声コ−ド作成方法
JPS63285598A (ja) * 1987-05-18 1988-11-22 ケイディディ株式会社 音素接続形パラメ−タ規則合成方式
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
GB2292235A (en) * 1994-08-06 1996-02-14 Ibm Word syllabification.
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US6098042A (en) * 1998-01-30 2000-08-01 International Business Machines Corporation Homograph filter for speech synthesis system
US6640006B2 (en) * 1998-02-13 2003-10-28 Microsoft Corporation Word segmentation in chinese text
US6029132A (en) * 1998-04-30 2000-02-22 Matsushita Electric Industrial Co. Method for letter-to-sound in text-to-speech synthesis
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
US6694055B2 (en) * 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
JP2000075585A (ja) 1998-08-31 2000-03-14 Konica Corp 画像形成装置
US6173263B1 (en) * 1998-08-31 2001-01-09 At&T Corp. Method and system for performing concatenative speech synthesis using half-phonemes
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
CA2354871A1 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
JP3361291B2 (ja) * 1999-07-23 2003-01-07 コナミ株式会社 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP2001043221A (ja) 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
JP2001075585A (ja) 1999-09-07 2001-03-23 Canon Inc 自然言語処理方法及び前記方法を用いた音声合成装置
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
JP2003005776A (ja) 2001-06-21 2003-01-08 Nec Corp 音声合成装置
US7165030B2 (en) * 2001-09-17 2007-01-16 Massachusetts Institute Of Technology Concatenative speech synthesis using a finite-state transducer
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US20030191645A1 (en) * 2002-04-05 2003-10-09 Guojun Zhou Statistical pronunciation model for text to speech
EP1627325B1 (en) * 2003-05-28 2011-07-27 LOQUENDO SpA Automatic segmentation of texts comprising chunks without separators
US7280963B1 (en) * 2003-09-12 2007-10-09 Nuance Communications, Inc. Method for learning linguistically valid word pronunciations from acoustic data
US20050060150A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Unsupervised training for overlapping ambiguity resolution in word segmentation
US20050071148A1 (en) * 2003-09-15 2005-03-31 Microsoft Corporation Chinese word segmentation
EP1704558B8 (en) * 2004-01-16 2011-09-21 Nuance Communications, Inc. Corpus-based speech synthesis based on segment recombination
US8069045B2 (en) * 2004-02-26 2011-11-29 International Business Machines Corporation Hierarchical approach for the statistical vowelization of Arabic text

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026223A (ja) * 2008-07-18 2010-02-04 Nippon Hoso Kyokai <Nhk> 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム
JP2013246224A (ja) * 2012-05-24 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> アクセント句境界推定装置、アクセント句境界推定方法及びプログラム
JP2014215396A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 発音付与方法とその装置とプログラム

Also Published As

Publication number Publication date
CN101223572B (zh) 2011-07-06
BRPI0614034A2 (pt) 2011-03-01
CN101223572A (zh) 2008-07-16
US8751235B2 (en) 2014-06-10
US20100030561A1 (en) 2010-02-04
CA2614840C (en) 2016-11-22
EP1908054A1 (en) 2008-04-09
WO2007006769A1 (en) 2007-01-18
JP4247564B2 (ja) 2009-04-02
US20070016422A1 (en) 2007-01-18
CA2614840A1 (en) 2007-01-18
JP2009500678A (ja) 2009-01-08
EP1908054B1 (en) 2014-03-19

Similar Documents

Publication Publication Date Title
JP4247564B2 (ja) システム、プログラムおよび制御方法
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US5949961A (en) Word syllabification in speech synthesis system
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
EP1463031A1 (en) Front-end architecture for a multi-lingual text-to-speech system
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
US8626510B2 (en) Speech synthesizing device, computer program product, and method
EP1668628A1 (en) Method for synthesizing speech
JP6453631B2 (ja) 認識システム、認識方法およびプログラム
CN105609097A (zh) 语音合成装置及其控制方法
JP2008046538A (ja) テキスト音声合成を支援するシステム
US20060229874A1 (en) Speech synthesizer, speech synthesizing method, and computer program
US20110238420A1 (en) Method and apparatus for editing speech, and method for synthesizing speech
JP2005534070A (ja) 連結式テキスト音声変換
JP4758758B2 (ja) 辞書作成装置および辞書作成プログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2020060642A (ja) 音声合成システム、及び音声合成装置
JP5152588B2 (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP3821131B2 (ja) 音声合成装置および音声合成方法
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP5012444B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP2005215411A (ja) 音声合成装置および音声合成方法
JP2005215288A (ja) 音声合成装置および音声合成方法
GB2292235A (en) Word syllabification.
JP2011191634A (ja) 音声合成装置及びプログラム