JP5502814B2 - アラビア語テキストに発音区別符号を付与するための方法およびシステム - Google Patents

アラビア語テキストに発音区別符号を付与するための方法およびシステム Download PDF

Info

Publication number
JP5502814B2
JP5502814B2 JP2011170038A JP2011170038A JP5502814B2 JP 5502814 B2 JP5502814 B2 JP 5502814B2 JP 2011170038 A JP2011170038 A JP 2011170038A JP 2011170038 A JP2011170038 A JP 2011170038A JP 5502814 B2 JP5502814 B2 JP 5502814B2
Authority
JP
Japan
Prior art keywords
text
code
diacritic
probability
diacritics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011170038A
Other languages
English (en)
Other versions
JP2012094117A (ja
Inventor
モハメド・スレイマン・ホルシード
フセイン・ハリド・アル−オマリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
King Abdulaziz City for Science and Technology KACST
Original Assignee
King Abdulaziz City for Science and Technology KACST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by King Abdulaziz City for Science and Technology KACST filed Critical King Abdulaziz City for Science and Technology KACST
Publication of JP2012094117A publication Critical patent/JP2012094117A/ja
Application granted granted Critical
Publication of JP5502814B2 publication Critical patent/JP5502814B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

発明の分野
本発明は、概して発音区別符号が付されていないテキストに発音区別符号を付与すること(diacritizing)に関し、より具体的には、発音区別符号が付されていないアラビア語のテキストに発音区別符号を付与するための方法およびシステムに関する。
発明の背景
アラビア語のアルファベットは28文字からなる。28文字のうちの25文字は子音を表す。アラビア語における残りの3つの文字は、アラビア語の長母音を表す。さらに、アラビア語は6つの母音からなり、それらは短母音および長母音からなる3つの対に分割される。このようなことから、各々の対は異なる音価に対応する。アラビア語の記述体系の顕著な特徴は、短母音がアルファベットによって表されないことである。代わりに、アルファベットは、直前の子音の上または下のいずれかに置かれる短い線である、いわゆる発音区別符号(diacritics)によって表されている。発音区別符号が付されていないテキストに発音区別符号を追加するこの処理は、発音区別符号付与(diacritization)と呼ばれる。
アラビア語で記述された現代のテキストではほとんど発音区別符号が付されておらず、すなわち現代のアラビア語で記述されたテキストは単語の母音が除かれたアラビア語のアルファベットからなる。しかしながら、発音区別符号はある特定の単語を発音する際において重要な機能を果たす。一般的に、アラビア語のテキストにおいて、単語を構成する同じ組のアルファベットに対して多数の可能な母音の組合せが存在する。一方では、多数の可能な母音の組合せを用いて形成された各々の単語はその形式が妥当であるという意味において正しい。しかしながら、他方ではこれらの単語が用いられる文脈において、この方法で形成された単語がすべて正しいというわけではない。このことを例によって示す。以下の単語を考える。
Figure 0005502814
これは、
Figure 0005502814
すなわち「大学」または
Figure 0005502814
すなわち「腎臓」のいずれかに発音され得る。すなわち、発音区別符号が付されていないアラビア語の単語に対して膨大な数の発音が存在し得るが、発音区別符号が付されたアラビア語の単語には1つの発音しか存在しない。この重要性にも関わらず、アラビア語のテキストには発音区別符号が付されていない場合があり、アラビア語のテキストの読者はアラビア語のテキストの文脈、文法の知識およびアラビア語の語彙からその意味を推察することを習慣づけられる。
したがってアラビア語のテキストには単語レベルでの語彙の曖昧さが存在する。近年の研究では、アラビア語のテキスト中の単語の約74%が語彙的に曖昧であることが明らかとなっている。アラビア語のテキスト中の語彙的な曖昧さという原因がアラビア語の形態が複雑であるという事実となっている。概して、アラビア語の単語当たり5つの可能な異なる形態的分析が存在する。さらに連結的な方式で、接頭辞および接尾辞がアラビア語のテキスト中の単語に付加され得る。したがって、アラビア語のテキスト中における単語の語彙的曖昧性を解消することおよび母音の修復は難しい作業である。
同様に、単語の語彙的曖昧性のため、発音区別符号が付されていないアラビア語のテキストをどのようにして発音するかを決定することは不可能である。さらに、アラビア語の多数の単語に対して多数の発音が可能である。したがって、アラビア語のテキストを発音区別符号が付された形式に修復することは、非ネイティブの話者にとって役に立つであろう。さらに、子供の教科書のような初心者のテキストに発音区別符号を付与する作業(これは現在は手作業で行なわれている)は、自動的および労力を要さずに実行され得る。
したがって、発音区別符号が付されていないアラビア語のテキストに自動的に発音区別符号を付与するための方法およびシステムに対する必要性が存在する。
添付の図面において、同様の参照符号は別々の図面を通じて同一または機能的に同様の要素を参照し、以下の詳細な説明とともに明細書に取り入れられるとともに明細書の一部を形成し、さまざまな実施形態を示すとともに本発明に従うさまざまな原理および利点のすべてを説明する役割を果たす。
本発明の実施形態に従う、発音区別符号の組を用いた、テキストに発音区別符号を付与する方法のフロー図である。 本発明の実施形態に従う、複数の文字の各々の文字に発音区別符号の組のうちのある発音区別符号を与える方法のフロー図である。 発音区別符号の組のうちの15の発音区別符号を示す表である。 本発明の例示的実施形態に従う、アラビア語のテキストに発音区別符号を付与することを示すブロック図である。 本発明の実施形態に従う、発音区別符号の組を用いてテキストに発音区別符号を付与するためのシステムのブロック図である。
当業者は、図中の要素が単純化および明確性のために示されており、必ずしも拡大縮小して記述されたものではないということを理解するであろう。たとえば、図中のいくつかの要素の寸法は、本発明の実施形態の理解の改善を助けるために他の要素と比較して誇張され得る。
発明の詳細な説明
本発明に従う実施の形態を詳細に記述する前に、その実施形態は、主にテキストに発音区別符号を付与するための方法およびシステムに関する方法のステップおよび装置の要素の組合せに属するということに注意すべきである。したがって、装置の要素および方法のステップは、図中において従来の符号によって適切に表されているが、図は開示の詳細が不明瞭とならないように本発明の実施形態を理解するのに関連するこれらの特定の詳細を示しているに過ぎない。その詳細は、本明細書の記載の恩恵を有する当業者にとって直ちに明らかとなるであろう。
この文書において、第1および第2などのような関連した用語は1つの実体または動作を他の実体または動作と、それらの実体または動作との間の何らかの実際のそのような関係または順序を必ずしも要求するまたは含むことなく区別するということのみに用いられ得る。
本発明のさまざまな実施形態は、テキストに発音区別符号を付与するための方法およびシステムを提供する。方法は、テキストを分析してそのテキストが1以上の発音区別符号を必要とするかどうかを判断するステップを含み、その1以上の発音区別符号は発音区別符号の組と関連付けられる。発音区別符号の組は、15の発音区別符号を備え、テキストはアラビア語のテキストである。その後、そのテキストと関連する複数の文字は、逐次的方法で隠れマルコフモデル(HMM)に与えられる。HMMは、次に、テキストの文脈に基づいて、その入力されたテキストに最も適合しそうな発音区別符号の配列を生成する。その後、HMMによって生成された発音区別符号は、発音区別符号が付されたアラビア語のテキストを与えるために、そのテキストに与えられる。テキストに発音区別符号を付与する処理は、図1および図2を合わせて詳細に説明される。
図を参照して、図1は本発明の実施形態に従う、発音区別符号の組を用いた、テキストに発音区別符号を付与する方法のフロー図を示す。テキストに関連する言語はアラビア語である。テキストは複数の文字を含む。複数の文字は、発音区別符号を用いて発音区別符号が付与され得る。複数の文字のうちの各々の文字に割当てられた発音区別符号は、発音区別符号の組から選択され得る。発音区別符号の組は、ファトハ、シャッダ+ファトハ、タンウィーン ファトハ、シャッダ+タンウィーン ファトハ、ダンマ、シャッダ+ダンマ、タンウィーン ダンマ、シャッダ+タンウィーン ダンマ、カスラ、シャッダ+カスラ、タンウィーン カスラ、シャッダ+タンウィーン カスラ、マッダ、スクーンおよび発音区別符号なしを含み得るがこれらに限定されるものではない。
ステップ102において、テキストが分析されてそのテキストが1以上の発音区別符号が必要かどうかが判断される。同じように、テキストが走査されて、テキストと関連する複数の文字のうちの1以上の文字が1以上の発音区別符号を含むかどうかが判断される。1以上の文字が1以上の発音区別符号を含むならば、その1以上の発音区別符号が削除され得る。その後、テキストに関連する複数の文字が、逐次的方法で処理され得る。実施の形態において、テキストに関連する文脈が特定されて、テキストは隠れマルコフモデル(HMM)を用いて処理され得る。同様に、テキストに関連する複数の文字のうちの1以上の文字と関連する文脈が特定される。1以上の文字に関連する文脈は、HMMがテキストの意味を確からしく理解することを容易にする。複数の文字は、次に処理される。実施の形態において、エルゴード的HMMがテキストを処理するために用いられ得る。さらに、続く処理においてテキストの文脈を記述するために、1以上の文字に関連する文脈が記憶されるとともに繰返して用いられて、エルゴード的HMMを教育する。しかしながら、当業者にとっては、テキストがHMMと等価な他のモデル、たとえばコンカレントニューラルネットワークを用いて処理され得るということが明らかであるだろう。
続いて、ステップ104において、発音区別符号が付されたアラビア語のテキストを与えるために、発音区別符号の組の中の生成された発音区別符号が、テキストに関連する複数の文字の各々の文字に与えられる。発音区別符号を生成して、発音区別符号の組の中からその発音区別符号を付与する処理は、図2と合わせて詳細に説明される。
図2は、本発明の実施形態に従う、複数の文字の各々の文字に発音区別符号の組のうちのある発音区別符号を与える処理のフロー図を示す。ステップ202において、発音区別符号の組から発音区別符号の配列が生成される。発音区別符号の組は15の発音区別符号を含む。発音区別符号の配列は、発音区別符号の組のうちの少なくとも1つの発音区別符号を含む。図3は、発音区別符号の組のうちの各発音区別符号に対する状態コードに従う15の発音区別符号を示す。
同様に、発音区別符号の組から発音区別符号の配列を生成するために、テキストに関連する複数の文字のうちの各々の文字が逐次的方法でHMMに与えられる。複数の文字は、HMMに右から左に与えられ得る。代わりに、複数の文字は、HMMに左から右に与えられてもよい。逐次的方法で複数の文字のうちの各々の文字を受けると、最初にHMMは最も右の文字を処理する。HMMは、テキストの文脈を考慮して、最も右にある文字に、発音区別符号の組のうちのある発音区別符号を与える。その後、HMMは最も右にある文字の発音区別符号の確率を確認するとともに、その発音区別符号の確率を記憶する。その確率は、テキストの文脈を考慮した、最も右の文字の発音区別符号の正しい整合を決定する測定値とみなされ得る。実施の形態において、逐次的方法で複数の文字の各々の文字を受けると、複数の文字のうちの各々の文字に関連するASCIIコードが特定され得る。その後HMMは、最も右のASCIIコードから始まる逐次的方法でASCIIコードを処理する。これは、さらに図4と合わせて説明される。
複数の文字のうちの各々の文字を処理する間、HMMは発音区別符号の組のうちの1つの発音区別符号から別の発音区別符号へと移行するとともに最も右の文字における各発音区別符号の確率を記憶する。発音区別符号の組のうちの各々の発音区別符号を個別の状態として考慮すると、その移行は1つの状態から別の状態への状態の変化とみなされ得る。あらゆる瞬間においてHMMは1つの状態のみにあり得るので、HMMは各状態に関連する確率の組に従って1つの状態から別の状態へと変化する。これらの移行は、規則的に間隔を設けられた別々の期間において行なわれる。確率の組は、以前の状態に関連する移行の確率を含み得る。たとえば、HMMは時刻tにおける状態qiから時刻t+1における状態qjへと移行する。ここでt=1,2,3,…Mであり、i,j=1,2,…Nであり、Mは観察数(numbers of observations)である。したがって、移行確率aijは、状態qiから状態qjへの移行の期待値を、状態qiからの移行の期待値で割ることに等しい。換言すれば、移行確率aijは、発音区別符号qjが発音区別符号qiの直後に表れる確率を表している。その後、HMMは、最も右にある文字において最も高い確率を有する、発音区別符号の組のうちの1つの発音区別符号を確定する。
その後、HMMは、最も右にある文字に続く直後の文字を処理するとともに、上記の処理を繰返す。しかしながら、最も右にある文字に続くすべての文字を処理する間、HMMは、また、各々の文字における発音区別符号の確率を決定するために、テキストの文脈に従って、複数の文字のうちの1以上の以前の文字に与えられた発音区別符号の確率を考慮する。一旦HMMが複数の文字のうちの各々の文字を処理すると、HMMは発音区別符号の配列を与える。実施の形態において、発音区別符号の配列を生成するために、HMMによってビタビアルゴリズムが用いられ得る。さらに、発音区別符号の配列は、特定の文字と正確に同じ位置にある、複数の文字のうちの各々の文字に対する発音区別符号を含む。たとえば、発音区別符号の配列の最も右に位置する発音区別符号は、処理のためにHMMに与えられた、複数の文字のうちの最も右にある文字に対応し得る。言い換えれば、HMMは、各々の文字がHMMによって受取られた同じ配列における複数の文字のうちの各々の文字に対して発音区別符号を与える。
ステップ204において、発音区別符号の配列はテキストと整合されて発音区別符号が付されたテキストが得られる。たとえば、HMMに与えられたテキストがC1,C2,C3,…C10のような10個の文字からなると考える。したがってHMMは、最も右にある文字C1から始めてテキストを右から左に処理し、その後D1,D2,D3,…D10のような10個の発音区別符号を与える。したがって、発音区別符号の配列は文字の配列と整合して、発音区別符号が付されたテキストが得られる。同様に、最も右にある発音区別符号D1は最も右にある文字C1と整合し、発音区別符号D2は文字C2と整合し、発音区別符号が付されたテキストが得られる。
図4は、本発明の例示的実施形態に従うアラビア語のテキストの発音区別符号の付与を示すブロック図である。図4に示されるように、ブロック402は、アラビア語における発音区別符号が付されていないテキスト
Figure 0005502814
を示す。発音区別符号が付されていないテキストは次に分析されて、そのテキストが1以上の発音区別符号が必要かどうかが判断される。その後、ブロック404に示されるように、発音区別符号が付与されていないテキストは分岐して発音区別符号が付されていないテキストに関連する各々の文字へと分離される。その後、各々の文字に付随する情報交換用米国標準コード(ASCIIコード)が特定されて、ASCIIコードはブロック406に示されるように、順に配置される。たとえば、配列における最も右の文字
Figure 0005502814
は、矢印404−1で示されるASCIIコード1580を有する。
その後、各々の文字に関連するASCIIコードが右から左に順にHMMに与えられる。その後、ブロック408に示されるように、HMMは発音区別符号が付されていないテキストに関連する各々の文字を処理して、各々の文字に対して発音区別符号を与える。したがって、ブロック408に示されるように、HMMによって状態コードの配列が生成される。状態コードの配列は、発音区別符号の配列に対応し得る。さらに、発音区別符号の配列は、図3に示された表から推測され得る。各々の文字に発音区別符号を与えるためにHMMによって各々の文字を処理する方法が、図2と合わせて詳細に記述される。たとえば、ASCIIコードが1580である
Figure 0005502814
の文字の場合、HMMは、矢印406−1で示されるように状態コードS5を与える。状態コードS5は、HMMによって与えられる適切な発音区別符号をマップするために用いられ得る。たとえば、図3の表に示されるように、状態コードS5は発音区別符号ダンマに関連する。
その後、状態コードの形態でHMMによって与えられた発音区別符号の配列が、次にHMMに既に左から右に与えられたASCIIコードの配列と整合される。たとえば、矢印408−1で示されるように、状態コードS5は文字
Figure 0005502814
の発音区別符号が付された形態
Figure 0005502814
を与えるために、ASCIIコード1580と整合される。ブロック410は、発音区別符号が付されたアラビア語のテキスト
Figure 0005502814
を表す。このテキストは状態コードの形態でHMMによって与えられた発音区別符号の配列を、既にHMMに右から左に与えられたASCIIコードの配列に適用した後に与えられる。同様に、HMMによって与えられた発音区別符号の配列のうちの各々の発音区別符号は、複数の文字のうちの各々の対応する文字に与えられて、発音区別符号が付されたテキストが得られる。
ここで図5に戻り、本発明の実施形態に従う、発音区別符号の組を用いてテキストに発音区別符号を付与するためのシステムのブロック図が示される。図5に示されるように、システム500は、プロセッサ502とメモリ504とを含む。プロセッサ502は発音区別符号の組を用いてテキストに発音区別符号を付与するためにメモリ504と協調的に動作する。本発明の実施形態において、発音区別符号が付されていないアラビア語のテキストは発音区別符号が付される必要があり得る。たとえば、図4のブロック402に示された、発音区別符号が付されていないアラビア語のテキストは、発音区別符号を付す必要があり得る。この発音区別符号が付されていないアラビア語のテキストは、演算装置によって受取られ、その演算装置は、携帯電話、ラップトップ、携帯端末、パーソナルコンピュータ、携帯情報端末(PDA)、ネットブックを含む。当業者にとっては、メモリとプロセッサとを有する任意の他の装置が、発音区別符号が付されていないアラビア語のテキストを受けるために用いられ得るということが明らかであるだろう。その後、発音区別符号が付されていないアラビア語のテキストは、メモリ504に記憶され得る。
プロセッサ502は発音区別符号が付されていないアラビア語のテキストに発音区別符号を付すための要求を受ける。発音区別符号が付されていないアラビア語のテキストに発音区別符号を付すための要求を受けると、プロセッサ502はメモリ504に記憶された、発音区別符号が付されていないアラビア語のテキストにアクセスするためにメモリ504と通信する。発音区別符号が付されていないアラビア語のテキストをプロセッサ502が一旦取得すると、プロセッサ502はその発音区別符号が付されていないアラビア語のテキストに関連する各々の文字を特定する。たとえば、プロセッサは、ブロック404に示される発音区別符号が付されていないアラビア語のテキストに関連する各々の文字を特定する。プロセッサ502は、次に発音区別符号が付されていないアラビア語のテキストに関連する各々の文字を順にメモリ504に記憶させる。
その後、プロセッサ502は、各々の文字に関連するASCIIコードを特定する。たとえば、プロセッサ502は、ブロック406に示されるASCIIコードを特定し得るが、それらは図4のブロック404に示された発音区別符号が付されていないアラビア語のテキストの各々の文字と関連するものである。その後、プロセッサは各々の文字に関連するASCIIコードを順にメモリ504に記憶させる。次のステップにおいて、プロセッサ502は各々の文字に発音区別符号を与えるために、発音区別符号が付されていないアラビア語のテキストの各々の文字を処理する。各々の文字に対して発音区別符号を与えるための各々の文字を処理する方法が図2と合わせて詳細に記述される。たとえば、プロセッサ502は、図4のブロック408に示されるような状態コードの形態で発音区別符号の配列を与えるために発音区別符号が付されていないアラビア語のテキストの各々の文字を処理し得る。各々の発音区別符号を状態コードにマッピングする処理は、図4と合わせて詳細に記述される。
プロセッサ502は、次に、発音区別符号が付されたアラビア語のテキストを与えるために、発音区別符号の配列の各々の発音区別符号を、発音区別符号が付されていないアラビア語のテキストの各々の対応する文字と整合させる。たとえば、プロセッサ502は、ブロック408に示されるような状態コードの形態で与えられる、発音区別符号の配列のうちの各々の発音区別符号を、ブロック406の各々の対応する文字と整合させる。その後、図4のブロック410において示されるように、発音区別符号が付与されたアラビア語のテキストが与えられる。プロセッサ502は、次に、その発音区別符号が付与されたアラビア語のテキストをメモリ504に記憶させる。
本発明のさまざまな実施の形態は、テキストに発音区別符号を付与するための方法およびシステムを与える。そのテキストは分析されて、そのテキストが1以上の発音区別符号が必要であるかどうかが判断される。1以上の発音区別符号は、発音区別符号の組と関連付けられ、その発音区別符号の組は、15の発音区別符号を備える。テキストは、アラビア語のテキストであり得る。その後、テキストに関連する複数の文字が逐次的方法で隠れマルコフモデル(HMM)に与えられる。この入力に基づいて、HMMは、次に発音区別符号の配列を生成する。発音区別符号の配列は、入力されたテキストに最もそれらしく整合するテキストの文脈に基づいて生成される。その後、HMMによって生成された発音区別符号は、発音区別符号が付与されたアラビア語のテキストを与えるために、そのテキストに与えられる。
当業者は、本明細書で記述される以上のように理解される利点および他の利点が単に例示的なものであって本発明のさまざまな実施の形態のすべての利点を完全に表現したものであることを意味するものではないということを理解するであろう。
上述の明細書において、本発明の特定の実施形態が記述される。しかしながら、当業者は、さまざまな変形および変更が、以下の請求項に記載されるような本発明の範囲から逸脱することなくなされ得るということを理解するであろう。したがって、明細書および図面は限定的意味というよりは例示的な意味で扱われるべきであり、すべてのそのような変形は、本発明の範囲内に含まれることを意図している。恩恵、利点、課題の解決および、いかなる恩恵、利点、または生じるかあるいはより表明される解決手段を生じさせ得る任意の要素は、任意のまたはすべての請求項の重要な、必要なまたは本質的な要素の特徴として解釈されるべきではない。本発明は、この出願の継続中になされる任意の補正を含む添付の請求項および発行されたこれらの請求項のすべての均等物によってのみ定義される。
102,104,202,204 ステップ、402,404,406,408,410 ブロック、404−1,406−1,408−1 矢印、500 システム、502 プロセッサ、504 メモリ。

Claims (8)

  1. コンピュータで実行可能な、テキストに発音区別符号を付与する方法であって、
    所与の発音区別符号を前記テキストの所与の特徴と関連付けることについての確率を確立するために、コンピュータメモリ内に隠れマルコフモデルを記憶するステップと、
    前記テキストの個々の文字の配列をコンピュータプロセッサに入力するステップとを備え、
    前記コンピュータプロセッサは、以下の、
    アラビア語に関連する複数の文字を含む前記テキストを走査して、前記複数の文字のうちの各々の文字が少なくとも1つの発音区別符号を備えるかどうかを判断することによって、前記テキストが、発音区別符号の組のうちの少なくとも1つの発音区別符号を必要とするかどうかを判断するステップ
    各文字をASCIIコードに変換するステップと、
    各ASCIIコードを前記隠れマルコフモデルに逐次与えるステップと、
    前記配列の一方端で始まる各ASCIIコードに期待値最大化処理を適用するステップと、
    各ASCIIコードについての前記発音区別符号の組うちの1つの発音区別符号から別の発音区別符号へと移行するステップと、
    現在の各ASCIIコードと関連する場合に、各発音区別符号についての確率を記録するステップと、
    一定間隔の期間にわたる各確率に基づいて、前記隠れマルコフモデルの状態を変化させるステップとを実行するようにプログラムされ、
    前記隠れマルコフモデルは、時刻tにおける状態q i から時刻t+1における状態q j へと移行し、ここで、t=1,2,3,…Mであり、i,j=1,2,…Nであり、Mは移行の数を表し、Nは状態の数を表し、
    発音区別符号q j が発音区別符号q i の直後に現れる確率を表わす移行確率a ij が、状態q i からの移行の期待値によって割られた、状態q i から状態q j への移行の期待値と等しく、
    前記コンピュータプロセッサは、
    現在のASCIIコードについての最高確率を有する発音区別符号を確定するステップと、
    前記配列内の各文字を処理するステップとを実行するようにさらにプログラムされ、
    前記隠れマルコフモデルは、所与の文字についての発音区別符号の確率を決定するために、前記配列の1つ以上の以前の文字に適用された発音区別符号の確率と前記テキストについての文脈とに少なくとも一部基づいた確率を基礎とし
    前記方法は、
    前記文字の配列に対応する発音区別符号の配列を生成するステップと、
    前記発音区別符号の配列を前記テキストと整合させて発音区別符号が付与されたテキストを取得するステップと、
    前記発音区別符号が付与されたテキストを出力装置に表示するステップとをさらに備える、方法。
  2. 前記発音区別符号の組に関連する前記発音区別符号は、
    ファトハ、シャッダ+ファトハ、タンウィーン ファトハ、シャッダ+タンウィーン ファトハ、ダンマ、シャッダ+ダンマ、タンウィーン ダンマ、シャッダ+タンウィーン ダンマ、カスラ、シャッダ+カスラ、タンウィーン カスラ、シャッダ+タンウィーン カスラ、マッダ、スクーンおよび発音区別符号なしのうちの少なくとも1つである、請求項1に記載の方法。
  3. 前記テキストの一部に与えられる少なくとも1つの発音区別符号に基づいて、前記テキストに関連する前記文脈を判断するステップをさらに備える、請求項1に記載の方法。
  4. 前記発音区別符号の組のうちの前記発音区別符号を前記複数の文字のうちの各々の文字に与えるステップをさらに備え、
    前記発音区別符号の組のうちの前記発音区別符号を前記複数の文字のうちの各々の文字に与えるステップは、前記各々の文字のうちの少なくとも1つの先行する文字に関連する文脈に基づいて、高い確率を有する発音区別符号を各々の文字に対して選択するステップをさらに備える、請求項1に記載の方法。
  5. テキストに発音区別符号を付与するためのシステムであって、
    隠れマルコフモデルと、テキストと、発音区別符号の組のうちの少なくとも1つの発音区別符号とを記憶するためのメモリを備え
    記テキストは、アラビア語に関連する複数の文字を備え、
    前記システムは、
    前記メモリに結合されたプロセッサをさらに備え、
    前記プロセッサは、
    前記テキスト走査して、前記複数の文字のうちの各々の文字が少なくとも1つの発音区別符号を備えるかどうかを判断することによって、前記テキストが、前記発音区別符号の組のうちの少なくとも1つの発音区別符号を必要とするかどうかを判断し、
    各文字をASCIIコードに変換し、
    各ASCIIコードを前記隠れマルコフモデルに逐次与え、
    前記配列の一方端で始まる各ASCIIコードに期待値最大化処理を適用し、
    各ASCIIコードについての前記発音区別符号の組うちの1つの発音区別符号から別の発音区別符号へと移行し、
    現在の各ASCIIコードと関連する場合に、各発音区別符号についての確率を記録し、
    一定間隔の期間にわたる各確率に基づいて、前記隠れマルコフモデルの状態を変化させるように構成され、
    前記隠れマルコフモデルは、時刻tにおける状態q i から時刻t+1における状態q j へと移行し、ここで、t=1,2,3,…Mであり、i,j=1,2,…Nであり、Mは移行の数を表し、Nは状態の数を表し、
    発音区別符号q j が発音区別符号q i の直後に現れる確率を表わす移行確率a ij が、状態q i からの移行の期待値によって割られた、状態q i から状態q j への移行の期待値と等しく、
    前記プロセッサは、さらに、
    現在のASCIIコードについての最高確率を有する発音区別符号を確定し、
    前記配列内の各文字を処理するように構成され、
    前記隠れマルコフモデルは、所与の文字についての発音区別符号の確率を決定するために、前記配列の1つ以上の以前の文字に適用された発音区別符号の確率と前記テキストについての文脈とに少なくとも一部基づいた確率を基礎とし、
    前記プロセッサは、さらに、
    前記文字の配列に対応する発音区別符号の配列を生成し、
    前記発音区別符号の配列を前記テキストと整合させて発音区別符号が付与されたテキストを取得するように構成され、
    前記システムは、
    前記発音区別符号が付与されたテキストを提示するためのディスプレイをさらに備える、システム。
  6. 前記発音区別符号の組に関連する前記発音区別符号は、
    ファトハ、シャッダ+ファトハ、タンウィーン ファトハ、シャッダ+タンウィーン ファトハ、ダンマ、シャッダ+ダンマ、タンウィーン ダンマ、シャッダ+タンウィーン ダンマ、カスラ、シャッダ+カスラ、タンウィーン カスラ、シャッダ+タンウィーン カスラ、マッダ、スクーンおよび発音区別符号なしのうちの少なくとも1つである、請求項に記載のシステム。
  7. 前記テキストに関連付けられる前記文脈は、前記テキストの一部に与えられる少なくとも1つの発音区別符号に基づいて判断される、請求項に記載のシステム。
  8. 前記プロセッサは、さらに、
    前記各々の文字のうちの少なくとも1つの先行する文字に関連する文脈に基づいて、高い確率を有する発音区別符号を各々の文字に対して選択するように構成される、請求項に記載のシステム。
JP2011170038A 2010-10-27 2011-08-03 アラビア語テキストに発音区別符号を付与するための方法およびシステム Expired - Fee Related JP5502814B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/913,667 2010-10-27
US12/913,667 US8543382B2 (en) 2010-10-27 2010-10-27 Method and system for diacritizing arabic language text

Publications (2)

Publication Number Publication Date
JP2012094117A JP2012094117A (ja) 2012-05-17
JP5502814B2 true JP5502814B2 (ja) 2014-05-28

Family

ID=43587356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011170038A Expired - Fee Related JP5502814B2 (ja) 2010-10-27 2011-08-03 アラビア語テキストに発音区別符号を付与するための方法およびシステム

Country Status (3)

Country Link
US (1) US8543382B2 (ja)
EP (1) EP2447854A1 (ja)
JP (1) JP5502814B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812302B2 (en) * 2012-01-17 2014-08-19 Google Inc. Techniques for inserting diacritical marks to text input via a user device
WO2014189400A1 (en) 2013-05-22 2014-11-27 Axon Doo A method for diacritisation of texts written in latin- or cyrillic-derived alphabets
WO2020197421A1 (en) * 2019-03-27 2020-10-01 Qatar Foundation For Education, Science And Community Development Method and system for diacritizing arabic text
US11556709B2 (en) 2020-05-19 2023-01-17 International Business Machines Corporation Text autocomplete using punctuation marks
US11314925B1 (en) * 2020-10-22 2022-04-26 Saudi Arabian Oil Company Controlling the display of diacritic marks
US11886794B2 (en) 2020-10-23 2024-01-30 Saudi Arabian Oil Company Text scrambling/descrambling
CN113011135A (zh) * 2021-03-03 2021-06-22 科大讯飞股份有限公司 阿拉伯语元音恢复方法、装置、设备及存储介质
US11734492B2 (en) 2021-03-05 2023-08-22 Saudi Arabian Oil Company Manipulating diacritic marks

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050112199A1 (en) * 2003-09-24 2005-05-26 Mahesh Padval Therapeutic regimens for administering drug combinations
TW200538969A (en) * 2004-02-11 2005-12-01 America Online Inc Handwriting and voice input with automatic correction
US8069045B2 (en) * 2004-02-26 2011-11-29 International Business Machines Corporation Hierarchical approach for the statistical vowelization of Arabic text
ATE368895T1 (de) * 2004-12-10 2007-08-15 Ibm System und verfahren zur verdeutlichung nicht diakritisierter arabischer wörter in einem text
US7966173B2 (en) * 2006-03-22 2011-06-21 Nuance Communications, Inc. System and method for diacritization of text
US20080300861A1 (en) * 2007-06-04 2008-12-04 Ossama Emam Word formation method and system
US8612206B2 (en) * 2009-12-08 2013-12-17 Microsoft Corporation Transliterating semitic languages including diacritics

Also Published As

Publication number Publication date
US20120109633A1 (en) 2012-05-03
EP2447854A1 (en) 2012-05-02
US8543382B2 (en) 2013-09-24
JP2012094117A (ja) 2012-05-17

Similar Documents

Publication Publication Date Title
JP5502814B2 (ja) アラビア語テキストに発音区別符号を付与するための方法およびシステム
CN101133411B (zh) 非罗马字符的容错罗马化输入方法
US8543375B2 (en) Multi-mode input method editor
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN103714048B (zh) 用于校正文本的方法和系统
CN110033760B (zh) 语音识别的建模方法、装置及设备
WO2020001458A1 (zh) 语音识别方法、装置及系统
EP1743275B1 (en) Apparatus and method for handwriting recognition
US20140095143A1 (en) Transliteration pair matching
CN102982021A (zh) 用于消除语言转换中的多个读法的歧义的方法
CN103970798A (zh) 数据的搜索和匹配
JP2010518534A (ja) 文脈上の入力方法
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
US9536180B2 (en) Text recognition based on recognition units
US11694028B2 (en) Data generation apparatus and data generation method that generate recognition text from speech data
JP7102710B2 (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
CN105683873A (zh) 容错输入法编辑器
JP2009199434A (ja) アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
US11809831B2 (en) Symbol sequence converting apparatus and symbol sequence conversion method
JP2019215660A (ja) 処理プログラム、処理方法および情報処理装置
CN116013278B (zh) 基于拼音对齐算法的语音识别多模型结果合并方法及装置
US11080488B2 (en) Information processing apparatus, output control method, and computer-readable recording medium
CN107870678A (zh) 一种手写输入方法及装置
US20190147039A1 (en) Information processing apparatus, information generation method, word extraction method, and computer-readable recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130607

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130607

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140313

R150 Certificate of patent or registration of utility model

Ref document number: 5502814

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees