JP4262077B2 - 情報処理装置及びその制御方法、プログラム - Google Patents

情報処理装置及びその制御方法、プログラム Download PDF

Info

Publication number
JP4262077B2
JP4262077B2 JP2003415426A JP2003415426A JP4262077B2 JP 4262077 B2 JP4262077 B2 JP 4262077B2 JP 2003415426 A JP2003415426 A JP 2003415426A JP 2003415426 A JP2003415426 A JP 2003415426A JP 4262077 B2 JP4262077 B2 JP 4262077B2
Authority
JP
Japan
Prior art keywords
pronunciation
partial character
word
character string
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003415426A
Other languages
English (en)
Other versions
JP2005173391A (ja
JP2005173391A5 (ja
Inventor
道雄 相澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003415426A priority Critical patent/JP4262077B2/ja
Priority to US11/000,060 priority patent/US20050131674A1/en
Publication of JP2005173391A publication Critical patent/JP2005173391A/ja
Publication of JP2005173391A5 publication Critical patent/JP2005173391A5/ja
Application granted granted Critical
Publication of JP4262077B2 publication Critical patent/JP4262077B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、単語の発音を推定するための発音規則を生成する、または処理対象の単語の発音を推定する情報処理装置及びその制御方法、プログラムに関するものである。
単語の表記からその発音を推定する方法として、単語の表記を部分文字列に分解し、部分文字列に対応する発音を結合することで、その単語の発音とする方法が広く使われている。この方法では、部分文字列と対応する発音を予め発音規則として用意しておく。
図9に発音規則の例を示す。
例えば、1行目の発音規則は、部分文字列「a」に対応する発音が「ei」であることを示し、2行目の発音規則は、部分文字列「at」に対応する発音が「{t」であることを示している。ここで、発音は、アルファベットと記号を用いて表している。
以下、例として、単語「moderation」の発音を推定する場合について説明する。
まず、単語の表記「moderation」を発音規則(図9)に含まれる部分文字列へ分割する。この場合、例えば、「mod/er/a/tion」と、4つの部分文字列に分割することができる。
次に、各部分文字列に対応する発音を発音規則から取り出し、結合して単語全体の発音と推定する。この例の場合、部分文字列「mod」に対応する発音は「mad」、部分文字列「er」に対する発音は「@r」、部分文字列「a」に対応する発音は「ei」、部分文字列「tion」に対応する発音は「S@n」なので、これらの発音を結合し、単語「moderation」に対する発音は「mad@reiS@n」と推定される。
従来、この部分文字列を用いた発音推定装置として、発音規則を作成する方法に関して、特許文献1の「COMPUTER METHOD AND APPARATUS FOR GRAPHEME−TO−PHONEME RULE−SET−GENERATION」がある。また、上記の方法を用いて作成した発音規則を利用して発音を推定する方法に関して、特許文献2の「COMPUER METHOD AND APPARATUS FOR TRANSLATING TEXT TO SOUND」がある。
これらの特許文献1や2で開示される方法では、発音規則を接頭辞に関するもの、接尾辞に関するもの、単語内部に関するものに分けて作成し、利用している。
米国特許番号6,347,295号公報 米国特許番号6,076,060号公報
しかしながら、特許文献2の方法で単語の発音を推定する場合、接頭辞、接尾辞、単語の内部に関する発音規則を単語中の部分文字列の位置に応じて使い分けなければいけないため処理が複雑になるという課題がある。
また、特許文献1のような部分文字列を用いた発音推定装置においては、一般的に次のような課題がある。
例えば、単語「moderation」を「mod/er/a/tion」と分割した場合、部分文字列「a」の発音は「ei」となるが、別の単語「analog」を「an/a/log」と分割した場合、部分文字列「a」の発音は「V」となる。つまり、同じ部分文字列に対し異なる発音が起こりえる。
また、単語「moderation」を「mod/er/a/tion」と分割し発音規則を生成したとしても、発音を推定する時に「mode/ra/tion」と異なる部分文字列に分割される可能性がある。そのため、生成時と推定時において異なる部分文字列への分割が行なわれると発音を正しく推定できない可能性が高くなる。
本発明は上記の課題を解決するためになされたものであり、処理対象の単語の発音をより適切に推定可能にするための発音規則を生成し、かつその発音規則を使用して発音を推定することで、より適切な発音を推定することができる情報処理装置及びその制御方法、プログラムを提供することを目的とする。
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
表記と発音が関連付けられた複数の単語を含む単語辞書から処理対象の単語を順に取得して、処理対象の単語の表記を、母音字・子音字の並びを用いた、以下の4つの分割規則として、
分割規則(1)語頭および語末の子音字はその直後あるいは直前の母音字と同じ部分文字列に含める
分割規則(2)母音字に挟まれた1つの子音字は後ろの部分文字列に含める
分割規則(3)母音字に挟まれた2つの子音字はその間を部分文字列の区切りとする
分割規則(4)3つ以上の子音字が連続するときは最後の子音字の前を部分文字列の区切りとする、
分割規則を用いて、複数の部分文字列に分割する第1分割手段と、
前記分割手段で分割された複数の部分文字列の内、隣接した部分文字列を連結して新しい部分文字列を生成する連結手段と、
前記分割手段で分割された部分文字列及び前記連結手段によって連結して生成された新しい部分文字列のそれぞれについて、処理対象の単語の発音の中で該部分文字列が対応する部分の発音を決定し、その部分文字列と決定した対応する発音の組を発音規則として発音規則保持部に登録する登録手段と、
発音推定対象の単語の表記を取得する取得手段と、
前記4つの分割規則(1)乃至(4)を用いて、前記発音推定対象の単語の表記を複数の部分文字列に分割する第2分割手段と、
前記第2分割手段によって、表記の先頭から順に、前記発音推定対象の単語の表記を分割した部分文字列の区切り位置に合い、かつ最も部分文字列が長い発音規則を、前記発音規則保持部から選択する選択手段と、
前記選択手段で選択された発音規則の発音を順に結合したものを発音推定対象の単語の発音推定する推定手段と
を備える。
上記の目的を達成するための本発明による情報処理装置の制御方法は以下の構成を備える。即ち、
表記と発音が関連付けられた複数の単語を含む単語辞書から処理対象の単語を順に取得して、処理対象の単語の表記を、母音字・子音字の並びを用いた、以下の4つの分割規則として、
分割規則(1)語頭および語末の子音字はその直後あるいは直前の母音字と同じ部分文字列に含める
分割規則(2)母音字に挟まれた1つの子音字は後ろの部分文字列に含める
分割規則(3)母音字に挟まれた2つの子音字はその間を部分文字列の区切りとする
分割規則(4)3つ以上の子音字が連続するときは最後の子音字の前を部分文字列の区切りとする、
分割規則を用いて、複数の部分文字列に分割する第1分割工程と、
前記分割工程で分割された複数の部分文字列の内、隣接した部分文字列を連結して新しい部分文字列を生成する連結工程と、
前記分割工程で分割された部分文字列及び前記連結工程によって連結して生成された新しい部分文字列のそれぞれについて、処理対象の単語の発音の中で該部分文字列が対応する部分の発音を決定し、その部分文字列と決定した対応する発音の組を発音規則として発音規則保持部に登録する登録工程と、
発音推定対象の単語の表記を取得する取得工程と、
前記4つの分割規則(1)乃至(4)を用いて、前記発音推定対象の単語の表記を複数の部分文字列に分割する第2分割工程と、
前記第2分割工程によって、表記の先頭から順に、前記発音推定対象の単語の表記を分割した部分文字列の区切り位置に合い、かつ最も部分文字列が長い発音規則を、前記発音規則保持部から選択する選択工程と、
前記選択工程で選択された発音規則の発音を順に結合したものを発音推定対象の単語の発音推定する推定工程と
を備える。
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
処理対象の発音を推定する情報処理装置の制御をコンピュータに実行させるためのプログラムであって、
表記と発音が関連付けられた複数の単語を含む単語辞書から処理対象の単語を順に取得して、処理対象の単語の表記を、母音字・子音字の並びを用いた、以下の4つの分割規則として、
分割規則(1)語頭および語末の子音字はその直後あるいは直前の母音字と同じ部分文字列に含める
分割規則(2)母音字に挟まれた1つの子音字は後ろの部分文字列に含める
分割規則(3)母音字に挟まれた2つの子音字はその間を部分文字列の区切りとする
分割規則(4)3つ以上の子音字が連続するときは最後の子音字の前を部分文字列の区切りとする、
分割規則を用いて、複数の部分文字列に分割する第1分割工程と、
前記分割工程で分割された複数の部分文字列の内、隣接した部分文字列を連結して新しい部分文字列を生成する連結工程と、
前記分割工程で分割された部分文字列及び前記連結工程によって連結して生成された新しい部分文字列のそれぞれについて、処理対象の単語の発音の中で該部分文字列が対応する部分の発音を決定し、その部分文字列と決定した対応する発音の組を発音規則として発音規則保持部に登録する登録工程と、
発音推定対象の単語の表記を取得する取得工程と、
前記4つの分割規則(1)乃至(4)を用いて、前記発音推定対象の単語の表記を複数の部分文字列に分割する第2分割工程と、
前記第2分割工程によって、表記の先頭から順に、前記発音推定対象の単語の表記を分割した部分文字列の区切り位置に合い、かつ最も部分文字列が長い発音規則を、前記発音規則保持部から選択する選択工程と、
前記選択工程で選択された発音規則の発音を順に結合したものを発音推定対象の単語の発音推定する推定工程と
をコンピュータに実行させることを特徴とする。
本発明によれば、処理対象の単語の発音をより適切に推定可能にするための発音規則を生成し、かつその発音規則を使用して発音を推定することで、より適切な発音を推定することができる情報処理装置及びその制御方法、プログラムを提供できる。
以下、本発明の実施の形態について図面を用いて詳細に説明する。
<実施形態1>
図1は本発明の実施形態1に係る発音推定装置の機能構成を示すブロック図である。
101は単語辞書であり、発音規則を生成するための単語の表記と発音の情報を持つ複数の単語を記憶管理している。102は表記文字列分割部であり、処理対象の単語の表記の文字列を部分文字列に分割する。
103は部分文字列連結部であり、表記文字列分割部102によって生成された複数の部分文字列の内、隣接した複数の部分文字列を連結して新しい部分文字列を生成する。104は発音規則生成部であり、各部分文字列に対して、その対応する発音を決定し、その部分文字列と発音の組を発音規則として発音規則保持部105に登録する。
105は発音規則保持部であり、発音規則を保持する。106は発音規則削除部であり、発音規則の中から不要な発音規則を削除する。
尚、この発音推定装置は、専用ハードウェアによって実現されても良いし、あるいはパーソナルコンピュータ等の汎用コンピュータ(情報処理装置)上で動作するプログラムとして実現されても良い。また、この汎用コンピュータの標準的な構成要素としては、例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス、マイク、スピーカ等を有している。
次に、実施形態1の発音推定装置が実行する処理について、図2を用いて説明する。
図2は本発明の実施形態1に係る発音推定装置が実行する処理を示すフローチャートである。
尚、図2では、単語の発音を推定するための発音規則を生成する処理について説明する。
ステップS201で、単語辞書101から未処理の単語を1つ取り出す。以下、例として、単語辞書101より、表記「dedicate」、発音「dedikeit」の単語を取り出した場合について説明する。
ステップS202で、表記文字列分割部102によって、単語の表記「dedicate」を母音字・子音字の並びで部分文字列に分割する。ここで、「aeiou」を母音字、その他のアルファベットを子音字とする。分割は、例えば、「ロワイヤル仏和辞典」(旺文社発行)にある以下の規則を用いて行なう。
・ 語頭および語末の子音字は、その直後あるいは直前の母音字と結びつく。
・ 母音字に挟まれた1つの子音字は後の部分文字列に属する。
・ 母音字に挟まれた2つの子音字はその間で切る。
・ 3つ以上の子音字が連続するときは、最後の子音字の前で切る。
以上の規則を用いると、「dedicate」は「de/di/ca/te」と4つの部分文字列に分割される。
ステップS203で、部分文字列連結部103によって、隣接した複数の部分文字列を連結して新しい部分文字列を生成する。
例えば、部分文字列「de」と右に隣接した「di」を連結し、部分文字列「dedi」を生成する。例えば、連結する部分文字列の数を2とすると、「dedi」、「dica」、「cate」の3つの部分文字列が新たに生成される。ここで、連結する部分文字列の数は2に限らず、3以上の連結する部分文字列を連結してもよい。
ステップS204で、発音規則生成部104によって、部分文字列と対応する発音を発音規則として生成し、それを発音規則保持部105に登録する。
ここで、部分文字列に対応する発音は、例えば、以下のようにして、決定することが可能である。
例えば、DPマッチングを用いて、単語の表記「dedicate」と発音「dedikeit」の文字同士の対応付けを行なう。この対応付けの結果の一例を、図3に示す。この対応付けの結果では、部分文字列「de」に対応する発音が「de」、部分文字列「di」に対応する発音が「di」等のように部分文字列に対応する発音を決定することができる。
また、これによって得られる、発音規則部保持部105に登録する発音規則は、図4のようになる。
図4の例の場合、ステップS202で4つの部分文字列、ステップS203で3つの部分文字列が生成されるので、「dedicate」からは計7つの発音規則が発音規則部保持部105に登録されることになる。また、発音規則を登録する場合、同じ発音規則がすでに登録されていた場合は、その頻度(登録頻度)に1を足し、未登録の場合は頻度を1に設定する。
ステップS205で、すべての単語の処理が終了した否かを判定する。すべての単語の処理が終了していない場合(ステップS205でNO)、ステップS201に戻り、未処理の単語を単語辞書101から取り出す。一方、すべての単語の処理が終了した場合(ステップS205でYES)、ステップS206へ進む。
ステップS206で、同じ部分文字列に対して異なる発音を有する発音規則が発音規則保持部105に登録されている場合、発音規則削除部106によって、最も頻度の高い発音規則を選択し、他の発音規則を削除する。
例えば、部分文字列「a」に対して、発音が「V」となる発音規則と発音が「ei」となる発音規則が発音規則保持部105に登録されており、発音が「V」となる発音規則の頻度が1400、発音が「ei」となる発音規則の頻度が200であるとする。この場合、発音規則削除部106は、と、部分文字列「a」に対して発音「V」となる発音規則を選択し、部分文字列「a」に対して発音が「ei」となる発音規則を発音規則保持部105から削除する。
ステップS207で、発音規則削除部106によって、ステップS206で選択した発音規則の中で、頻度の高いものから、予め指定した数の発音規則を選択し、それ以外の発音規則を削除する。
以上説明したように、実施形態1によれば、同じ部分文字列で異なる発音規則が発音規則保持部に登録されている場合には、各発音規則の頻度に基づいて、不要と思われる発音規則を削除する。
これにより、より単語の発音として適切と思われる発音規則を記憶管理することができる。また、不要と思われる発音規則を削除することがで、発音規則を記憶管理するための記憶資源を有効に使用することができる。
また、部分文字列連結部103で新たな部分文字列を生成し、各部分文字列に対する発音規則を生成することで、同じ部分文字列に対し異なる発音が起こりえるという問題を回避することが可能となる。例えば、「mod/er/a/tion」と「an/a/log」において、双方では部分文字列「a」の発音が異なるが、「ation」という部分文字列を生成することで「moderation」の分割を「mod/er/ation」と変化させ、部分文字列「a」の発音を1つに絞ることが可能となる。
<実施形態2>
実施形態1では、単語の発音を推定するための発音規則を生成する処理について説明したが、実施形態2では、この生成された発音規則を用いて、単語の発音を推定する処理について説明する。
図5は本発明の実施形態2に係る発音推定装置の構成を示すブロック図である。
尚、図5において、実施形態1の図1の発音推定装置の構成要素と同一の構成要素については、同一の参照番号を付加し、その詳細については省略する。
601は表記入力部であり、発音推定対象の単語の表記を入力する。
602は発音規則選択部602であり、表記文字列分割部102によって、発音推定対象の単語の表記を分割した部分文字列の情報を用いて、発音規則保持部105から発音規則を選択する。
603は発音出力部であり、発音規則選択部602が選択した発音規則を用いて、発音推定対象の単語の発音を推定し、出力する。
次に、実施形態2の発音推定装置が実行する処理について、図6を用いて説明する。
図6は本発明の実施形態2に係る発音推定装置が実行する処理を示すフローチャートである。
尚、図6では、発音推定対象の単語の発音を、その表記から推定する処理について説明する。特に、ここでは、一例として、発音推定対象の単語の表記「dedicated」から、その単語の発音を推定する場合について説明する。また、図7で示す10個の発音規則(実施形態1の処理によって生成された)を用いることにする。但し、発音規則の頻度は、発音推定時には用いないので図7では、各発音規則の頻度は省略している。
まず、ステップS701で、表記文字列分割部102によって、単語の表記「dedicated」を母音字・子音字の並びで部分文字列に分割する。この処理は、図2のステップS202と同じである。この場合、上述のように、「dedicated」は、「de/di/ca/ted」と4つの部分文字列に分割される。
ステップS702で、発音規則選択部602によって、ポインタを表記の先頭に合わせる。ここでは、先頭の「d」の位置にポインタを合わせる。
ステップS703で、発音規則選択部602によって、ポインタが表記の末尾にあるか否かを判定する。ポインタが表記の末尾にない場合(ステップS703でNO)、ステップS704に進む。一方、ポインタが表記の末尾にある場合(ステップS703でYES)、ステップS707に進む。
ステップS704で、発音規則選択部602によって、ポインタの位置から始まる表記にマッチする発音規則を、発音規則保持部105から取り出す。
例えば、ポインタが先頭の「d」の位置にある場合、図8(a)に示すように、「d」、「de」、「dedi」の3つの発音規則が取り出される。
また、ポインタが5文字目の「c」の位置にある場合、図8(b)に示すように、「c」、「ca」、「cat」、「cate」の4つの発音規則が取り出される。
更に、ポインタが7文字目の「t」の位置にある場合、図8(c)に示すように、「t」、「te」、「ted」の3つの発音規則が取り出される。
ステップS705で、ステップS704で取り出した発音規則の中から、ステップS701で分割した部分文字列の区切り位置に合い、かつ最も長い部分文字列となる発音規則を選択する。
例えば、図8(a)の場合は、「dedi」の発音規則を選択する。
また、図8(b)の場合は、「ca」の発音規則を選択する。ここで、「cat」、「cate」の発音規則は「ca」よりも長いが、部分文字列の区切り位置に合わないので選択しない。
更に、図8(c)の場合は、「ted」の発音規則を選択する。
ステップS706で、選択した発音規則の部分文字列の長さだけポインタを進める。そして、ステップS703に戻る。
例えば、図8(a)の場合、5文字目の「c」の位置にポインタを進める。
一方、ステップS703で、ポインタが表記の末尾にあると、ステップS707で、発音出力部603によって選択した発音規則の発音を結合し、推定された発音として出力する。
この例の場合、図8(a)〜図8(c)で、それぞれ「dedi」、「ca」、「ted」の発音規則が選択され、発音は、それぞれ「dedi」、「kei」、「tid」となる。これらを結合した「dedikeitid」が表記「dedicated」から推定された発音として出力される。
以上説明したように、実施形態2によれば、発音推定対象の単語の先頭から末尾に向かい表記を1回走査するという簡単な処理で、発音規則を推定することが可能である。
また、表記文字列分割部102を、発音規則の生成時と発音の推定時で共通に使用する分割手段とすることにより、発音規則の生成時と発音の推定時において異なる分割が行なわれる問題を回避することが可能となる。
<実施形態3>
実施形態1の図2のステップSS202や実施形態2の図7のステップS701において、表記文字列分割部102は、単語の表記を母音字・子音字の並びで部分文字列に分割していたが、音節(シラブル)を部分文字列としてもよい。
特に、ステップS202の場合は、音節区切りの情報がついた単語辞書を用いることで可能となる。
また、ステップS202とステップS701において、例えば、米国特許番号5,949,961の「WORD SYLLABLIFICATION IN SPEECH SYNTHESIS SYSTEM」で開示されている方法などを用いて、自動的に音節に分割することも可能である。
以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
本発明の実施形態1に係る発音推定装置の機能構成を示すブロック図である。 本発明の実施形態1に係る発音推定装置が実行する処理を示すフローチャートである。 本発明の実施形態1に係る表記と発音の文字列の対応付けを説明するための図である。 本発明の実施形態1に係る発音規則の一例を示す図である。 本発明の実施形態2に係る発音推定装置の構成を示すブロック図である。 本発明の実施形態2に係る発音推定装置が実行する処理を示すフローチャートである。 本発明の実施形態2に係る発音規則の一例を示す図である。 本発明の実施形態2に係る発音規則を選択する手順を説明するための図である。 発音規則の一例を示す図である。
符号の説明
101 単語辞書
102 表記文字列分割部
103 部分文字列連結部
104 発音規則生成部
105 発音規則保持部
106 発音規則削除部
601 表記入力部
602 発音規則選択部
603 発音出力部

Claims (3)

  1. 表記と発音が関連付けられた複数の単語を含む単語辞書から処理対象の単語を順に取得して、処理対象の単語の表記を、母音字・子音字の並びを用いた、以下の4つの分割規則として、
    分割規則(1)語頭および語末の子音字はその直後あるいは直前の母音字と同じ部分文字列に含める
    分割規則(2)母音字に挟まれた1つの子音字は後ろの部分文字列に含める
    分割規則(3)母音字に挟まれた2つの子音字はその間を部分文字列の区切りとする
    分割規則(4)3つ以上の子音字が連続するときは最後の子音字の前を部分文字列の区切りとする、
    分割規則を用いて、複数の部分文字列に分割する第1分割手段と、
    前記分割手段で分割された複数の部分文字列の内、隣接した部分文字列を連結して新しい部分文字列を生成する連結手段と、
    前記分割手段で分割された部分文字列及び前記連結手段によって連結して生成された新しい部分文字列のそれぞれについて、処理対象の単語の発音の中で該部分文字列が対応する部分の発音を決定し、その部分文字列と決定した対応する発音の組を発音規則として発音規則保持部に登録する登録手段と、
    発音推定対象の単語の表記を取得する取得手段と、
    前記4つの分割規則(1)乃至(4)を用いて、前記発音推定対象の単語の表記を複数の部分文字列に分割する第2分割手段と、
    前記第2分割手段によって、表記の先頭から順に、前記発音推定対象の単語の表記を分割した部分文字列の区切り位置に合い、かつ最も部分文字列が長い発音規則を、前記発音規則保持部から選択する選択手段と、
    前記選択手段で選択された発音規則の発音を順に結合したものを発音推定対象の単語の発音推定する推定手段と
    を備えることを特徴とする情報処理装置。
  2. 表記と発音が関連付けられた複数の単語を含む単語辞書から処理対象の単語を順に取得して、処理対象の単語の表記を、母音字・子音字の並びを用いた、以下の4つの分割規則として、
    分割規則(1)語頭および語末の子音字はその直後あるいは直前の母音字と同じ部分文字列に含める
    分割規則(2)母音字に挟まれた1つの子音字は後ろの部分文字列に含める
    分割規則(3)母音字に挟まれた2つの子音字はその間を部分文字列の区切りとする
    分割規則(4)3つ以上の子音字が連続するときは最後の子音字の前を部分文字列の区切りとする、
    分割規則を用いて、複数の部分文字列に分割する第1分割工程と、
    前記分割工程で分割された複数の部分文字列の内、隣接した部分文字列を連結して新しい部分文字列を生成する連結工程と、
    前記分割工程で分割された部分文字列及び前記連結工程によって連結して生成された新しい部分文字列のそれぞれについて、処理対象の単語の発音の中で該部分文字列が対応する部分の発音を決定し、その部分文字列と決定した対応する発音の組を発音規則として発音規則保持部に登録する登録工程と、
    発音推定対象の単語の表記を取得する取得工程と、
    前記4つの分割規則(1)乃至(4)を用いて、前記発音推定対象の単語の表記を複数の部分文字列に分割する第2分割工程と、
    前記第2分割工程によって、表記の先頭から順に、前記発音推定対象の単語の表記を分割した部分文字列の区切り位置に合い、かつ最も部分文字列が長い発音規則を、前記発音規則保持部から選択する選択工程と、
    前記選択工程で選択された発音規則の発音を順に結合したものを発音推定対象の単語の発音推定する推定工程と
    を備えることを特徴とする情報処理装置の制御方法。
  3. 処理対象の発音を推定する情報処理装置の制御をコンピュータに実行させるためのプログラムであって、
    表記と発音が関連付けられた複数の単語を含む単語辞書から処理対象の単語を順に取得して、処理対象の単語の表記を、母音字・子音字の並びを用いた、以下の4つの分割規則として、
    分割規則(1)語頭および語末の子音字はその直後あるいは直前の母音字と同じ部分文字列に含める
    分割規則(2)母音字に挟まれた1つの子音字は後ろの部分文字列に含める
    分割規則(3)母音字に挟まれた2つの子音字はその間を部分文字列の区切りとする
    分割規則(4)3つ以上の子音字が連続するときは最後の子音字の前を部分文字列の区切りとする、
    分割規則を用いて、複数の部分文字列に分割する第1分割工程と、
    前記分割工程で分割された複数の部分文字列の内、隣接した部分文字列を連結して新しい部分文字列を生成する連結工程と、
    前記分割工程で分割された部分文字列及び前記連結工程によって連結して生成された新しい部分文字列のそれぞれについて、処理対象の単語の発音の中で該部分文字列が対応する部分の発音を決定し、その部分文字列と決定した対応する発音の組を発音規則として発音規則保持部に登録する登録工程と、
    発音推定対象の単語の表記を取得する取得工程と、
    前記4つの分割規則(1)乃至(4)を用いて、前記発音推定対象の単語の表記を複数の部分文字列に分割する第2分割工程と、
    前記第2分割工程によって、表記の先頭から順に、前記発音推定対象の単語の表記を分割した部分文字列の区切り位置に合い、かつ最も部分文字列が長い発音規則を、前記発音規則保持部から選択する選択工程と、
    前記選択工程で選択された発音規則の発音を順に結合したものを発音推定対象の単語の発音推定する推定工程と
    をコンピュータに実行させることを特徴とするプログラム。
JP2003415426A 2003-12-12 2003-12-12 情報処理装置及びその制御方法、プログラム Expired - Fee Related JP4262077B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003415426A JP4262077B2 (ja) 2003-12-12 2003-12-12 情報処理装置及びその制御方法、プログラム
US11/000,060 US20050131674A1 (en) 2003-12-12 2004-12-01 Information processing apparatus and its control method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003415426A JP4262077B2 (ja) 2003-12-12 2003-12-12 情報処理装置及びその制御方法、プログラム

Publications (3)

Publication Number Publication Date
JP2005173391A JP2005173391A (ja) 2005-06-30
JP2005173391A5 JP2005173391A5 (ja) 2006-02-09
JP4262077B2 true JP4262077B2 (ja) 2009-05-13

Family

ID=34650581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003415426A Expired - Fee Related JP4262077B2 (ja) 2003-12-12 2003-12-12 情報処理装置及びその制御方法、プログラム

Country Status (2)

Country Link
US (1) US20050131674A1 (ja)
JP (1) JP4262077B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080177548A1 (en) * 2005-05-31 2008-07-24 Canon Kabushiki Kaisha Speech Synthesis Method and Apparatus
US9275633B2 (en) * 2012-01-09 2016-03-01 Microsoft Technology Licensing, Llc Crowd-sourcing pronunciation corrections in text-to-speech engines
JP6245846B2 (ja) * 2013-05-30 2017-12-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識における読み精度を改善するシステム、方法、およびプログラム
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5949961A (en) * 1995-07-19 1999-09-07 International Business Machines Corporation Word syllabification in speech synthesis system
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound
US6347295B1 (en) * 1998-10-26 2002-02-12 Compaq Computer Corporation Computer method and apparatus for grapheme-to-phoneme rule-set-generation
US6470347B1 (en) * 1999-09-01 2002-10-22 International Business Machines Corporation Method, system, program, and data structure for a dense array storing character strings
JP2005031259A (ja) * 2003-07-09 2005-02-03 Canon Inc 自然言語処理方法

Also Published As

Publication number Publication date
US20050131674A1 (en) 2005-06-16
JP2005173391A (ja) 2005-06-30

Similar Documents

Publication Publication Date Title
KR100403293B1 (ko) 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
US7228270B2 (en) Dictionary management apparatus for speech conversion
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP4738847B2 (ja) データ検索装置および方法
CA2275391C (en) File processing method, data processing device, and storage medium
JP4262077B2 (ja) 情報処理装置及びその制御方法、プログラム
JP2005031259A (ja) 自然言語処理方法
JP6619932B2 (ja) 形態素解析装置およびプログラム
JP2019095603A (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
JP4173404B2 (ja) 文セット自動生成装置、文セット自動生成プログラム、記憶媒体
JPH1115497A (ja) 氏名読み音声合成装置
JP4971732B2 (ja) 自然言語処理装置、およびプログラム
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP3379643B2 (ja) 形態素解析方法および形態素解析プログラムを記録した記録媒体
JP2007316916A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
WO2023073886A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
JP2007127994A (ja) 音声合成方法及び音声合成装置並びにプログラム
JP2007178692A (ja) 文字入力装置および方法
JP7124358B2 (ja) 出力プログラム、情報処理装置及び出力制御方法
JPH09258763A (ja) 音声合成装置
JP2003132052A (ja) 読みがな付与装置およびプログラム
JP4344195B2 (ja) 音声合成用リスト生成装置及び音声合成用リスト生成プログラム
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140220

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees