JP5502814B2

JP5502814B2 - アラビア語テキストに発音区別符号を付与するための方法およびシステム

Info

Publication number: JP5502814B2
Application number: JP2011170038A
Authority: JP
Inventors: モハメド・スレイマン・ホルシード; フセイン・ハリド・アル−オマリ
Original assignee: King Abdulaziz City for Science and Technology KACST
Current assignee: King Abdulaziz City for Science and Technology KACST
Priority date: 2010-10-27
Filing date: 2011-08-03
Publication date: 2014-05-28
Anticipated expiration: 2031-08-03
Also published as: US20120109633A1; EP2447854A1; US8543382B2; JP2012094117A

Description

発明の分野
本発明は、概して発音区別符号が付されていないテキストに発音区別符号を付与すること（diacritizing）に関し、より具体的には、発音区別符号が付されていないアラビア語のテキストに発音区別符号を付与するための方法およびシステムに関する。

発明の背景
アラビア語のアルファベットは２８文字からなる。２８文字のうちの２５文字は子音を表す。アラビア語における残りの３つの文字は、アラビア語の長母音を表す。さらに、アラビア語は６つの母音からなり、それらは短母音および長母音からなる３つの対に分割される。このようなことから、各々の対は異なる音価に対応する。アラビア語の記述体系の顕著な特徴は、短母音がアルファベットによって表されないことである。代わりに、アルファベットは、直前の子音の上または下のいずれかに置かれる短い線である、いわゆる発音区別符号（diacritics）によって表されている。発音区別符号が付されていないテキストに発音区別符号を追加するこの処理は、発音区別符号付与（diacritization）と呼ばれる。

アラビア語で記述された現代のテキストではほとんど発音区別符号が付されておらず、すなわち現代のアラビア語で記述されたテキストは単語の母音が除かれたアラビア語のアルファベットからなる。しかしながら、発音区別符号はある特定の単語を発音する際において重要な機能を果たす。一般的に、アラビア語のテキストにおいて、単語を構成する同じ組のアルファベットに対して多数の可能な母音の組合せが存在する。一方では、多数の可能な母音の組合せを用いて形成された各々の単語はその形式が妥当であるという意味において正しい。しかしながら、他方ではこれらの単語が用いられる文脈において、この方法で形成された単語がすべて正しいというわけではない。このことを例によって示す。以下の単語を考える。

これは、

すなわち「大学」または

すなわち「腎臓」のいずれかに発音され得る。すなわち、発音区別符号が付されていないアラビア語の単語に対して膨大な数の発音が存在し得るが、発音区別符号が付されたアラビア語の単語には１つの発音しか存在しない。この重要性にも関わらず、アラビア語のテキストには発音区別符号が付されていない場合があり、アラビア語のテキストの読者はアラビア語のテキストの文脈、文法の知識およびアラビア語の語彙からその意味を推察することを習慣づけられる。

したがってアラビア語のテキストには単語レベルでの語彙の曖昧さが存在する。近年の研究では、アラビア語のテキスト中の単語の約７４％が語彙的に曖昧であることが明らかとなっている。アラビア語のテキスト中の語彙的な曖昧さという原因がアラビア語の形態が複雑であるという事実となっている。概して、アラビア語の単語当たり５つの可能な異なる形態的分析が存在する。さらに連結的な方式で、接頭辞および接尾辞がアラビア語のテキスト中の単語に付加され得る。したがって、アラビア語のテキスト中における単語の語彙的曖昧性を解消することおよび母音の修復は難しい作業である。

同様に、単語の語彙的曖昧性のため、発音区別符号が付されていないアラビア語のテキストをどのようにして発音するかを決定することは不可能である。さらに、アラビア語の多数の単語に対して多数の発音が可能である。したがって、アラビア語のテキストを発音区別符号が付された形式に修復することは、非ネイティブの話者にとって役に立つであろう。さらに、子供の教科書のような初心者のテキストに発音区別符号を付与する作業（これは現在は手作業で行なわれている）は、自動的および労力を要さずに実行され得る。

したがって、発音区別符号が付されていないアラビア語のテキストに自動的に発音区別符号を付与するための方法およびシステムに対する必要性が存在する。

添付の図面において、同様の参照符号は別々の図面を通じて同一または機能的に同様の要素を参照し、以下の詳細な説明とともに明細書に取り入れられるとともに明細書の一部を形成し、さまざまな実施形態を示すとともに本発明に従うさまざまな原理および利点のすべてを説明する役割を果たす。

本発明の実施形態に従う、発音区別符号の組を用いた、テキストに発音区別符号を付与する方法のフロー図である。本発明の実施形態に従う、複数の文字の各々の文字に発音区別符号の組のうちのある発音区別符号を与える方法のフロー図である。発音区別符号の組のうちの１５の発音区別符号を示す表である。本発明の例示的実施形態に従う、アラビア語のテキストに発音区別符号を付与することを示すブロック図である。本発明の実施形態に従う、発音区別符号の組を用いてテキストに発音区別符号を付与するためのシステムのブロック図である。

当業者は、図中の要素が単純化および明確性のために示されており、必ずしも拡大縮小して記述されたものではないということを理解するであろう。たとえば、図中のいくつかの要素の寸法は、本発明の実施形態の理解の改善を助けるために他の要素と比較して誇張され得る。

発明の詳細な説明
本発明に従う実施の形態を詳細に記述する前に、その実施形態は、主にテキストに発音区別符号を付与するための方法およびシステムに関する方法のステップおよび装置の要素の組合せに属するということに注意すべきである。したがって、装置の要素および方法のステップは、図中において従来の符号によって適切に表されているが、図は開示の詳細が不明瞭とならないように本発明の実施形態を理解するのに関連するこれらの特定の詳細を示しているに過ぎない。その詳細は、本明細書の記載の恩恵を有する当業者にとって直ちに明らかとなるであろう。

この文書において、第１および第２などのような関連した用語は１つの実体または動作を他の実体または動作と、それらの実体または動作との間の何らかの実際のそのような関係または順序を必ずしも要求するまたは含むことなく区別するということのみに用いられ得る。

本発明のさまざまな実施形態は、テキストに発音区別符号を付与するための方法およびシステムを提供する。方法は、テキストを分析してそのテキストが１以上の発音区別符号を必要とするかどうかを判断するステップを含み、その１以上の発音区別符号は発音区別符号の組と関連付けられる。発音区別符号の組は、１５の発音区別符号を備え、テキストはアラビア語のテキストである。その後、そのテキストと関連する複数の文字は、逐次的方法で隠れマルコフモデル（ＨＭＭ）に与えられる。ＨＭＭは、次に、テキストの文脈に基づいて、その入力されたテキストに最も適合しそうな発音区別符号の配列を生成する。その後、ＨＭＭによって生成された発音区別符号は、発音区別符号が付されたアラビア語のテキストを与えるために、そのテキストに与えられる。テキストに発音区別符号を付与する処理は、図１および図２を合わせて詳細に説明される。

図を参照して、図１は本発明の実施形態に従う、発音区別符号の組を用いた、テキストに発音区別符号を付与する方法のフロー図を示す。テキストに関連する言語はアラビア語である。テキストは複数の文字を含む。複数の文字は、発音区別符号を用いて発音区別符号が付与され得る。複数の文字のうちの各々の文字に割当てられた発音区別符号は、発音区別符号の組から選択され得る。発音区別符号の組は、ファトハ、シャッダ＋ファトハ、タンウィーンファトハ、シャッダ＋タンウィーンファトハ、ダンマ、シャッダ＋ダンマ、タンウィーンダンマ、シャッダ＋タンウィーンダンマ、カスラ、シャッダ＋カスラ、タンウィーンカスラ、シャッダ＋タンウィーンカスラ、マッダ、スクーンおよび発音区別符号なしを含み得るがこれらに限定されるものではない。

ステップ１０２において、テキストが分析されてそのテキストが１以上の発音区別符号が必要かどうかが判断される。同じように、テキストが走査されて、テキストと関連する複数の文字のうちの１以上の文字が１以上の発音区別符号を含むかどうかが判断される。１以上の文字が１以上の発音区別符号を含むならば、その１以上の発音区別符号が削除され得る。その後、テキストに関連する複数の文字が、逐次的方法で処理され得る。実施の形態において、テキストに関連する文脈が特定されて、テキストは隠れマルコフモデル（ＨＭＭ）を用いて処理され得る。同様に、テキストに関連する複数の文字のうちの１以上の文字と関連する文脈が特定される。１以上の文字に関連する文脈は、ＨＭＭがテキストの意味を確からしく理解することを容易にする。複数の文字は、次に処理される。実施の形態において、エルゴード的ＨＭＭがテキストを処理するために用いられ得る。さらに、続く処理においてテキストの文脈を記述するために、１以上の文字に関連する文脈が記憶されるとともに繰返して用いられて、エルゴード的ＨＭＭを教育する。しかしながら、当業者にとっては、テキストがＨＭＭと等価な他のモデル、たとえばコンカレントニューラルネットワークを用いて処理され得るということが明らかであるだろう。

続いて、ステップ１０４において、発音区別符号が付されたアラビア語のテキストを与えるために、発音区別符号の組の中の生成された発音区別符号が、テキストに関連する複数の文字の各々の文字に与えられる。発音区別符号を生成して、発音区別符号の組の中からその発音区別符号を付与する処理は、図２と合わせて詳細に説明される。

図２は、本発明の実施形態に従う、複数の文字の各々の文字に発音区別符号の組のうちのある発音区別符号を与える処理のフロー図を示す。ステップ２０２において、発音区別符号の組から発音区別符号の配列が生成される。発音区別符号の組は１５の発音区別符号を含む。発音区別符号の配列は、発音区別符号の組のうちの少なくとも１つの発音区別符号を含む。図３は、発音区別符号の組のうちの各発音区別符号に対する状態コードに従う１５の発音区別符号を示す。

同様に、発音区別符号の組から発音区別符号の配列を生成するために、テキストに関連する複数の文字のうちの各々の文字が逐次的方法でＨＭＭに与えられる。複数の文字は、ＨＭＭに右から左に与えられ得る。代わりに、複数の文字は、ＨＭＭに左から右に与えられてもよい。逐次的方法で複数の文字のうちの各々の文字を受けると、最初にＨＭＭは最も右の文字を処理する。ＨＭＭは、テキストの文脈を考慮して、最も右にある文字に、発音区別符号の組のうちのある発音区別符号を与える。その後、ＨＭＭは最も右にある文字の発音区別符号の確率を確認するとともに、その発音区別符号の確率を記憶する。その確率は、テキストの文脈を考慮した、最も右の文字の発音区別符号の正しい整合を決定する測定値とみなされ得る。実施の形態において、逐次的方法で複数の文字の各々の文字を受けると、複数の文字のうちの各々の文字に関連するＡＳＣＩＩコードが特定され得る。その後ＨＭＭは、最も右のＡＳＣＩＩコードから始まる逐次的方法でＡＳＣＩＩコードを処理する。これは、さらに図４と合わせて説明される。

複数の文字のうちの各々の文字を処理する間、ＨＭＭは発音区別符号の組のうちの１つの発音区別符号から別の発音区別符号へと移行するとともに最も右の文字における各発音区別符号の確率を記憶する。発音区別符号の組のうちの各々の発音区別符号を個別の状態として考慮すると、その移行は１つの状態から別の状態への状態の変化とみなされ得る。あらゆる瞬間においてＨＭＭは１つの状態のみにあり得るので、ＨＭＭは各状態に関連する確率の組に従って１つの状態から別の状態へと変化する。これらの移行は、規則的に間隔を設けられた別々の期間において行なわれる。確率の組は、以前の状態に関連する移行の確率を含み得る。たとえば、ＨＭＭは時刻ｔにおける状態ｑ_iから時刻ｔ＋１における状態ｑ_jへと移行する。ここでｔ＝１，２，３，…Ｍであり、ｉ，ｊ＝１，２，…Ｎであり、Ｍは観察数（numbers of observations）である。したがって、移行確率ａ_ijは、状態ｑ_iから状態ｑ_jへの移行の期待値を、状態ｑ_iからの移行の期待値で割ることに等しい。換言すれば、移行確率ａ_ijは、発音区別符号ｑ_jが発音区別符号ｑ_iの直後に表れる確率を表している。その後、ＨＭＭは、最も右にある文字において最も高い確率を有する、発音区別符号の組のうちの１つの発音区別符号を確定する。

その後、ＨＭＭは、最も右にある文字に続く直後の文字を処理するとともに、上記の処理を繰返す。しかしながら、最も右にある文字に続くすべての文字を処理する間、ＨＭＭは、また、各々の文字における発音区別符号の確率を決定するために、テキストの文脈に従って、複数の文字のうちの１以上の以前の文字に与えられた発音区別符号の確率を考慮する。一旦ＨＭＭが複数の文字のうちの各々の文字を処理すると、ＨＭＭは発音区別符号の配列を与える。実施の形態において、発音区別符号の配列を生成するために、ＨＭＭによってビタビアルゴリズムが用いられ得る。さらに、発音区別符号の配列は、特定の文字と正確に同じ位置にある、複数の文字のうちの各々の文字に対する発音区別符号を含む。たとえば、発音区別符号の配列の最も右に位置する発音区別符号は、処理のためにＨＭＭに与えられた、複数の文字のうちの最も右にある文字に対応し得る。言い換えれば、ＨＭＭは、各々の文字がＨＭＭによって受取られた同じ配列における複数の文字のうちの各々の文字に対して発音区別符号を与える。

ステップ２０４において、発音区別符号の配列はテキストと整合されて発音区別符号が付されたテキストが得られる。たとえば、ＨＭＭに与えられたテキストがＣ₁，Ｃ₂，Ｃ₃，…Ｃ₁₀のような１０個の文字からなると考える。したがってＨＭＭは、最も右にある文字Ｃ₁から始めてテキストを右から左に処理し、その後Ｄ₁，Ｄ₂，Ｄ₃，…Ｄ₁₀のような１０個の発音区別符号を与える。したがって、発音区別符号の配列は文字の配列と整合して、発音区別符号が付されたテキストが得られる。同様に、最も右にある発音区別符号Ｄ₁は最も右にある文字Ｃ₁と整合し、発音区別符号Ｄ₂は文字Ｃ₂と整合し、発音区別符号が付されたテキストが得られる。

図４は、本発明の例示的実施形態に従うアラビア語のテキストの発音区別符号の付与を示すブロック図である。図４に示されるように、ブロック４０２は、アラビア語における発音区別符号が付されていないテキスト

を示す。発音区別符号が付されていないテキストは次に分析されて、そのテキストが１以上の発音区別符号が必要かどうかが判断される。その後、ブロック４０４に示されるように、発音区別符号が付与されていないテキストは分岐して発音区別符号が付されていないテキストに関連する各々の文字へと分離される。その後、各々の文字に付随する情報交換用米国標準コード（ＡＳＣＩＩコード）が特定されて、ＡＳＣＩＩコードはブロック４０６に示されるように、順に配置される。たとえば、配列における最も右の文字

は、矢印４０４−１で示されるＡＳＣＩＩコード１５８０を有する。
その後、各々の文字に関連するＡＳＣＩＩコードが右から左に順にＨＭＭに与えられる。その後、ブロック４０８に示されるように、ＨＭＭは発音区別符号が付されていないテキストに関連する各々の文字を処理して、各々の文字に対して発音区別符号を与える。したがって、ブロック４０８に示されるように、ＨＭＭによって状態コードの配列が生成される。状態コードの配列は、発音区別符号の配列に対応し得る。さらに、発音区別符号の配列は、図３に示された表から推測され得る。各々の文字に発音区別符号を与えるためにＨＭＭによって各々の文字を処理する方法が、図２と合わせて詳細に記述される。たとえば、ＡＳＣＩＩコードが１５８０である

の文字の場合、ＨＭＭは、矢印４０６−１で示されるように状態コードＳ５を与える。状態コードＳ５は、ＨＭＭによって与えられる適切な発音区別符号をマップするために用いられ得る。たとえば、図３の表に示されるように、状態コードＳ５は発音区別符号ダンマに関連する。

その後、状態コードの形態でＨＭＭによって与えられた発音区別符号の配列が、次にＨＭＭに既に左から右に与えられたＡＳＣＩＩコードの配列と整合される。たとえば、矢印４０８−１で示されるように、状態コードＳ５は文字

の発音区別符号が付された形態

を与えるために、ＡＳＣＩＩコード１５８０と整合される。ブロック４１０は、発音区別符号が付されたアラビア語のテキスト

を表す。このテキストは状態コードの形態でＨＭＭによって与えられた発音区別符号の配列を、既にＨＭＭに右から左に与えられたＡＳＣＩＩコードの配列に適用した後に与えられる。同様に、ＨＭＭによって与えられた発音区別符号の配列のうちの各々の発音区別符号は、複数の文字のうちの各々の対応する文字に与えられて、発音区別符号が付されたテキストが得られる。

ここで図５に戻り、本発明の実施形態に従う、発音区別符号の組を用いてテキストに発音区別符号を付与するためのシステムのブロック図が示される。図５に示されるように、システム５００は、プロセッサ５０２とメモリ５０４とを含む。プロセッサ５０２は発音区別符号の組を用いてテキストに発音区別符号を付与するためにメモリ５０４と協調的に動作する。本発明の実施形態において、発音区別符号が付されていないアラビア語のテキストは発音区別符号が付される必要があり得る。たとえば、図４のブロック４０２に示された、発音区別符号が付されていないアラビア語のテキストは、発音区別符号を付す必要があり得る。この発音区別符号が付されていないアラビア語のテキストは、演算装置によって受取られ、その演算装置は、携帯電話、ラップトップ、携帯端末、パーソナルコンピュータ、携帯情報端末（ＰＤＡ）、ネットブックを含む。当業者にとっては、メモリとプロセッサとを有する任意の他の装置が、発音区別符号が付されていないアラビア語のテキストを受けるために用いられ得るということが明らかであるだろう。その後、発音区別符号が付されていないアラビア語のテキストは、メモリ５０４に記憶され得る。

プロセッサ５０２は発音区別符号が付されていないアラビア語のテキストに発音区別符号を付すための要求を受ける。発音区別符号が付されていないアラビア語のテキストに発音区別符号を付すための要求を受けると、プロセッサ５０２はメモリ５０４に記憶された、発音区別符号が付されていないアラビア語のテキストにアクセスするためにメモリ５０４と通信する。発音区別符号が付されていないアラビア語のテキストをプロセッサ５０２が一旦取得すると、プロセッサ５０２はその発音区別符号が付されていないアラビア語のテキストに関連する各々の文字を特定する。たとえば、プロセッサは、ブロック４０４に示される発音区別符号が付されていないアラビア語のテキストに関連する各々の文字を特定する。プロセッサ５０２は、次に発音区別符号が付されていないアラビア語のテキストに関連する各々の文字を順にメモリ５０４に記憶させる。

その後、プロセッサ５０２は、各々の文字に関連するＡＳＣＩＩコードを特定する。たとえば、プロセッサ５０２は、ブロック４０６に示されるＡＳＣＩＩコードを特定し得るが、それらは図４のブロック４０４に示された発音区別符号が付されていないアラビア語のテキストの各々の文字と関連するものである。その後、プロセッサは各々の文字に関連するＡＳＣＩＩコードを順にメモリ５０４に記憶させる。次のステップにおいて、プロセッサ５０２は各々の文字に発音区別符号を与えるために、発音区別符号が付されていないアラビア語のテキストの各々の文字を処理する。各々の文字に対して発音区別符号を与えるための各々の文字を処理する方法が図２と合わせて詳細に記述される。たとえば、プロセッサ５０２は、図４のブロック４０８に示されるような状態コードの形態で発音区別符号の配列を与えるために発音区別符号が付されていないアラビア語のテキストの各々の文字を処理し得る。各々の発音区別符号を状態コードにマッピングする処理は、図４と合わせて詳細に記述される。

プロセッサ５０２は、次に、発音区別符号が付されたアラビア語のテキストを与えるために、発音区別符号の配列の各々の発音区別符号を、発音区別符号が付されていないアラビア語のテキストの各々の対応する文字と整合させる。たとえば、プロセッサ５０２は、ブロック４０８に示されるような状態コードの形態で与えられる、発音区別符号の配列のうちの各々の発音区別符号を、ブロック４０６の各々の対応する文字と整合させる。その後、図４のブロック４１０において示されるように、発音区別符号が付与されたアラビア語のテキストが与えられる。プロセッサ５０２は、次に、その発音区別符号が付与されたアラビア語のテキストをメモリ５０４に記憶させる。

本発明のさまざまな実施の形態は、テキストに発音区別符号を付与するための方法およびシステムを与える。そのテキストは分析されて、そのテキストが１以上の発音区別符号が必要であるかどうかが判断される。１以上の発音区別符号は、発音区別符号の組と関連付けられ、その発音区別符号の組は、１５の発音区別符号を備える。テキストは、アラビア語のテキストであり得る。その後、テキストに関連する複数の文字が逐次的方法で隠れマルコフモデル（ＨＭＭ）に与えられる。この入力に基づいて、ＨＭＭは、次に発音区別符号の配列を生成する。発音区別符号の配列は、入力されたテキストに最もそれらしく整合するテキストの文脈に基づいて生成される。その後、ＨＭＭによって生成された発音区別符号は、発音区別符号が付与されたアラビア語のテキストを与えるために、そのテキストに与えられる。

当業者は、本明細書で記述される以上のように理解される利点および他の利点が単に例示的なものであって本発明のさまざまな実施の形態のすべての利点を完全に表現したものであることを意味するものではないということを理解するであろう。

上述の明細書において、本発明の特定の実施形態が記述される。しかしながら、当業者は、さまざまな変形および変更が、以下の請求項に記載されるような本発明の範囲から逸脱することなくなされ得るということを理解するであろう。したがって、明細書および図面は限定的意味というよりは例示的な意味で扱われるべきであり、すべてのそのような変形は、本発明の範囲内に含まれることを意図している。恩恵、利点、課題の解決および、いかなる恩恵、利点、または生じるかあるいはより表明される解決手段を生じさせ得る任意の要素は、任意のまたはすべての請求項の重要な、必要なまたは本質的な要素の特徴として解釈されるべきではない。本発明は、この出願の継続中になされる任意の補正を含む添付の請求項および発行されたこれらの請求項のすべての均等物によってのみ定義される。

１０２，１０４，２０２，２０４ステップ、４０２，４０４，４０６，４０８，４１０ブロック、４０４−１，４０６−１，４０８−１矢印、５００システム、５０２プロセッサ、５０４メモリ。

Claims

コンピュータで実行可能な、テキストに発音区別符号を付与する方法であって、
所与の発音区別符号を前記テキストの所与の特徴と関連付けることについての確率を確立するために、コンピュータメモリ内に隠れマルコフモデルを記憶するステップと、
前記テキストの個々の文字の配列をコンピュータプロセッサに入力するステップとを備え、
前記コンピュータプロセッサは、以下の、
アラビア語に関連する複数の文字を含む前記テキストを走査して、前記複数の文字のうちの各々の文字が少なくとも１つの発音区別符号を備えるかどうかを判断することによって、前記テキストが、発音区別符号の組のうちの少なくとも１つの発音区別符号を必要とするかどうかを判断するステップと、
各文字をＡＳＣＩＩコードに変換するステップと、
各ＡＳＣＩＩコードを前記隠れマルコフモデルに逐次与えるステップと、
前記配列の一方端で始まる各ＡＳＣＩＩコードに期待値最大化処理を適用するステップと、
各ＡＳＣＩＩコードについての前記発音区別符号の組うちの１つの発音区別符号から別の発音区別符号へと移行するステップと、
現在の各ＡＳＣＩＩコードと関連する場合に、各発音区別符号についての確率を記録するステップと、
一定間隔の期間にわたる各確率に基づいて、前記隠れマルコフモデルの状態を変化させるステップとを実行するようにプログラムされ、
前記隠れマルコフモデルは、時刻ｔにおける状態ｑ _i から時刻ｔ＋１における状態ｑ _j へと移行し、ここで、ｔ＝１，２，３，…Ｍであり、ｉ，ｊ＝１，２，…Ｎであり、Ｍは移行の数を表し、Ｎは状態の数を表し、
発音区別符号ｑ _j が発音区別符号ｑ _i の直後に現れる確率を表わす移行確率ａ _ij が、状態ｑ _i からの移行の期待値によって割られた、状態ｑ _i から状態ｑ _j への移行の期待値と等しく、
前記コンピュータプロセッサは、
現在のＡＳＣＩＩコードについての最高確率を有する発音区別符号を確定するステップと、
前記配列内の各文字を処理するステップとを実行するようにさらにプログラムされ、
前記隠れマルコフモデルは、所与の文字についての発音区別符号の確率を決定するために、前記配列の１つ以上の以前の文字に適用された発音区別符号の確率と前記テキストについての文脈とに少なくとも一部基づいた確率を基礎とし、
前記方法は、
前記文字の配列に対応する発音区別符号の配列を生成するステップと、
前記発音区別符号の配列を前記テキストと整合させて発音区別符号が付与されたテキストを取得するステップと、
前記発音区別符号が付与されたテキストを出力装置に表示するステップとをさらに備える、方法。
前記発音区別符号の組に関連する前記発音区別符号は、
ファトハ、シャッダ＋ファトハ、タンウィーンファトハ、シャッダ＋タンウィーンファトハ、ダンマ、シャッダ＋ダンマ、タンウィーンダンマ、シャッダ＋タンウィーンダンマ、カスラ、シャッダ＋カスラ、タンウィーンカスラ、シャッダ＋タンウィーンカスラ、マッダ、スクーンおよび発音区別符号なしのうちの少なくとも１つである、請求項１に記載の方法。
前記テキストの一部に与えられる少なくとも１つの発音区別符号に基づいて、前記テキストに関連する前記文脈を判断するステップをさらに備える、請求項１に記載の方法。
前記発音区別符号の組のうちの前記発音区別符号を前記複数の文字のうちの各々の文字に与えるステップをさらに備え、
前記発音区別符号の組のうちの前記発音区別符号を前記複数の文字のうちの各々の文字に与えるステップは、前記各々の文字のうちの少なくとも１つの先行する文字に関連する文脈に基づいて、高い確率を有する発音区別符号を各々の文字に対して選択するステップをさらに備える、請求項１に記載の方法。
テキストに発音区別符号を付与するためのシステムであって、
隠れマルコフモデルと、テキストと、発音区別符号の組のうちの少なくとも１つの発音区別符号とを記憶するためのメモリを備え、
前記テキストは、アラビア語に関連する複数の文字を備え、
前記システムは、
前記メモリに結合されたプロセッサをさらに備え、
前記プロセッサは、
前記テキスト走査して、前記複数の文字のうちの各々の文字が少なくとも１つの発音区別符号を備えるかどうかを判断することによって、前記テキストが、前記発音区別符号の組のうちの少なくとも１つの発音区別符号を必要とするかどうかを判断し、
各文字をＡＳＣＩＩコードに変換し、
各ＡＳＣＩＩコードを前記隠れマルコフモデルに逐次与え、
前記配列の一方端で始まる各ＡＳＣＩＩコードに期待値最大化処理を適用し、
各ＡＳＣＩＩコードについての前記発音区別符号の組うちの１つの発音区別符号から別の発音区別符号へと移行し、
現在の各ＡＳＣＩＩコードと関連する場合に、各発音区別符号についての確率を記録し、
一定間隔の期間にわたる各確率に基づいて、前記隠れマルコフモデルの状態を変化させるように構成され、
前記隠れマルコフモデルは、時刻ｔにおける状態ｑ _i から時刻ｔ＋１における状態ｑ _j へと移行し、ここで、ｔ＝１，２，３，…Ｍであり、ｉ，ｊ＝１，２，…Ｎであり、Ｍは移行の数を表し、Ｎは状態の数を表し、
発音区別符号ｑ _j が発音区別符号ｑ _i の直後に現れる確率を表わす移行確率ａ _ij が、状態ｑ _i からの移行の期待値によって割られた、状態ｑ _i から状態ｑ _j への移行の期待値と等しく、
前記プロセッサは、さらに、
現在のＡＳＣＩＩコードについての最高確率を有する発音区別符号を確定し、
前記配列内の各文字を処理するように構成され、
前記隠れマルコフモデルは、所与の文字についての発音区別符号の確率を決定するために、前記配列の１つ以上の以前の文字に適用された発音区別符号の確率と前記テキストについての文脈とに少なくとも一部基づいた確率を基礎とし、
前記プロセッサは、さらに、
前記文字の配列に対応する発音区別符号の配列を生成し、
前記発音区別符号の配列を前記テキストと整合させて発音区別符号が付与されたテキストを取得するように構成され、
前記システムは、
前記発音区別符号が付与されたテキストを提示するためのディスプレイをさらに備える、システム。
前記発音区別符号の組に関連する前記発音区別符号は、
ファトハ、シャッダ＋ファトハ、タンウィーンファトハ、シャッダ＋タンウィーンファトハ、ダンマ、シャッダ＋ダンマ、タンウィーンダンマ、シャッダ＋タンウィーンダンマ、カスラ、シャッダ＋カスラ、タンウィーンカスラ、シャッダ＋タンウィーンカスラ、マッダ、スクーンおよび発音区別符号なしのうちの少なくとも１つである、請求項５に記載のシステム。
前記テキストに関連付けられる前記文脈は、前記テキストの一部に与えられる少なくとも１つの発音区別符号に基づいて判断される、請求項５に記載のシステム。
前記プロセッサは、さらに、
前記各々の文字のうちの少なくとも１つの先行する文字に関連する文脈に基づいて、高い確率を有する発音区別符号を各々の文字に対して選択するように構成される、請求項５に記載のシステム。