JP5502814B2 - アラビア語テキストに発音区別符号を付与するための方法およびシステム - Google Patents
アラビア語テキストに発音区別符号を付与するための方法およびシステム Download PDFInfo
- Publication number
- JP5502814B2 JP5502814B2 JP2011170038A JP2011170038A JP5502814B2 JP 5502814 B2 JP5502814 B2 JP 5502814B2 JP 2011170038 A JP2011170038 A JP 2011170038A JP 2011170038 A JP2011170038 A JP 2011170038A JP 5502814 B2 JP5502814 B2 JP 5502814B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- code
- diacritic
- probability
- diacritics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、概して発音区別符号が付されていないテキストに発音区別符号を付与すること(diacritizing)に関し、より具体的には、発音区別符号が付されていないアラビア語のテキストに発音区別符号を付与するための方法およびシステムに関する。
アラビア語のアルファベットは28文字からなる。28文字のうちの25文字は子音を表す。アラビア語における残りの3つの文字は、アラビア語の長母音を表す。さらに、アラビア語は6つの母音からなり、それらは短母音および長母音からなる3つの対に分割される。このようなことから、各々の対は異なる音価に対応する。アラビア語の記述体系の顕著な特徴は、短母音がアルファベットによって表されないことである。代わりに、アルファベットは、直前の子音の上または下のいずれかに置かれる短い線である、いわゆる発音区別符号(diacritics)によって表されている。発音区別符号が付されていないテキストに発音区別符号を追加するこの処理は、発音区別符号付与(diacritization)と呼ばれる。
本発明に従う実施の形態を詳細に記述する前に、その実施形態は、主にテキストに発音区別符号を付与するための方法およびシステムに関する方法のステップおよび装置の要素の組合せに属するということに注意すべきである。したがって、装置の要素および方法のステップは、図中において従来の符号によって適切に表されているが、図は開示の詳細が不明瞭とならないように本発明の実施形態を理解するのに関連するこれらの特定の詳細を示しているに過ぎない。その詳細は、本明細書の記載の恩恵を有する当業者にとって直ちに明らかとなるであろう。
その後、各々の文字に関連するASCIIコードが右から左に順にHMMに与えられる。その後、ブロック408に示されるように、HMMは発音区別符号が付されていないテキストに関連する各々の文字を処理して、各々の文字に対して発音区別符号を与える。したがって、ブロック408に示されるように、HMMによって状態コードの配列が生成される。状態コードの配列は、発音区別符号の配列に対応し得る。さらに、発音区別符号の配列は、図3に示された表から推測され得る。各々の文字に発音区別符号を与えるためにHMMによって各々の文字を処理する方法が、図2と合わせて詳細に記述される。たとえば、ASCIIコードが1580である
Claims (8)
- コンピュータで実行可能な、テキストに発音区別符号を付与する方法であって、
所与の発音区別符号を前記テキストの所与の特徴と関連付けることについての確率を確立するために、コンピュータメモリ内に隠れマルコフモデルを記憶するステップと、
前記テキストの個々の文字の配列をコンピュータプロセッサに入力するステップとを備え、
前記コンピュータプロセッサは、以下の、
アラビア語に関連する複数の文字を含む前記テキストを走査して、前記複数の文字のうちの各々の文字が少なくとも1つの発音区別符号を備えるかどうかを判断することによって、前記テキストが、発音区別符号の組のうちの少なくとも1つの発音区別符号を必要とするかどうかを判断するステップと、
各文字をASCIIコードに変換するステップと、
各ASCIIコードを前記隠れマルコフモデルに逐次与えるステップと、
前記配列の一方端で始まる各ASCIIコードに期待値最大化処理を適用するステップと、
各ASCIIコードについての前記発音区別符号の組うちの1つの発音区別符号から別の発音区別符号へと移行するステップと、
現在の各ASCIIコードと関連する場合に、各発音区別符号についての確率を記録するステップと、
一定間隔の期間にわたる各確率に基づいて、前記隠れマルコフモデルの状態を変化させるステップとを実行するようにプログラムされ、
前記隠れマルコフモデルは、時刻tにおける状態q i から時刻t+1における状態q j へと移行し、ここで、t=1,2,3,…Mであり、i,j=1,2,…Nであり、Mは移行の数を表し、Nは状態の数を表し、
発音区別符号q j が発音区別符号q i の直後に現れる確率を表わす移行確率a ij が、状態q i からの移行の期待値によって割られた、状態q i から状態q j への移行の期待値と等しく、
前記コンピュータプロセッサは、
現在のASCIIコードについての最高確率を有する発音区別符号を確定するステップと、
前記配列内の各文字を処理するステップとを実行するようにさらにプログラムされ、
前記隠れマルコフモデルは、所与の文字についての発音区別符号の確率を決定するために、前記配列の1つ以上の以前の文字に適用された発音区別符号の確率と前記テキストについての文脈とに少なくとも一部基づいた確率を基礎とし、
前記方法は、
前記文字の配列に対応する発音区別符号の配列を生成するステップと、
前記発音区別符号の配列を前記テキストと整合させて発音区別符号が付与されたテキストを取得するステップと、
前記発音区別符号が付与されたテキストを出力装置に表示するステップとをさらに備える、方法。 - 前記発音区別符号の組に関連する前記発音区別符号は、
ファトハ、シャッダ+ファトハ、タンウィーン ファトハ、シャッダ+タンウィーン ファトハ、ダンマ、シャッダ+ダンマ、タンウィーン ダンマ、シャッダ+タンウィーン ダンマ、カスラ、シャッダ+カスラ、タンウィーン カスラ、シャッダ+タンウィーン カスラ、マッダ、スクーンおよび発音区別符号なしのうちの少なくとも1つである、請求項1に記載の方法。 - 前記テキストの一部に与えられる少なくとも1つの発音区別符号に基づいて、前記テキストに関連する前記文脈を判断するステップをさらに備える、請求項1に記載の方法。
- 前記発音区別符号の組のうちの前記発音区別符号を前記複数の文字のうちの各々の文字に与えるステップをさらに備え、
前記発音区別符号の組のうちの前記発音区別符号を前記複数の文字のうちの各々の文字に与えるステップは、前記各々の文字のうちの少なくとも1つの先行する文字に関連する文脈に基づいて、高い確率を有する発音区別符号を各々の文字に対して選択するステップをさらに備える、請求項1に記載の方法。 - テキストに発音区別符号を付与するためのシステムであって、
隠れマルコフモデルと、テキストと、発音区別符号の組のうちの少なくとも1つの発音区別符号とを記憶するためのメモリを備え、
前記テキストは、アラビア語に関連する複数の文字を備え、
前記システムは、
前記メモリに結合されたプロセッサをさらに備え、
前記プロセッサは、
前記テキスト走査して、前記複数の文字のうちの各々の文字が少なくとも1つの発音区別符号を備えるかどうかを判断することによって、前記テキストが、前記発音区別符号の組のうちの少なくとも1つの発音区別符号を必要とするかどうかを判断し、
各文字をASCIIコードに変換し、
各ASCIIコードを前記隠れマルコフモデルに逐次与え、
前記配列の一方端で始まる各ASCIIコードに期待値最大化処理を適用し、
各ASCIIコードについての前記発音区別符号の組うちの1つの発音区別符号から別の発音区別符号へと移行し、
現在の各ASCIIコードと関連する場合に、各発音区別符号についての確率を記録し、
一定間隔の期間にわたる各確率に基づいて、前記隠れマルコフモデルの状態を変化させるように構成され、
前記隠れマルコフモデルは、時刻tにおける状態q i から時刻t+1における状態q j へと移行し、ここで、t=1,2,3,…Mであり、i,j=1,2,…Nであり、Mは移行の数を表し、Nは状態の数を表し、
発音区別符号q j が発音区別符号q i の直後に現れる確率を表わす移行確率a ij が、状態q i からの移行の期待値によって割られた、状態q i から状態q j への移行の期待値と等しく、
前記プロセッサは、さらに、
現在のASCIIコードについての最高確率を有する発音区別符号を確定し、
前記配列内の各文字を処理するように構成され、
前記隠れマルコフモデルは、所与の文字についての発音区別符号の確率を決定するために、前記配列の1つ以上の以前の文字に適用された発音区別符号の確率と前記テキストについての文脈とに少なくとも一部基づいた確率を基礎とし、
前記プロセッサは、さらに、
前記文字の配列に対応する発音区別符号の配列を生成し、
前記発音区別符号の配列を前記テキストと整合させて発音区別符号が付与されたテキストを取得するように構成され、
前記システムは、
前記発音区別符号が付与されたテキストを提示するためのディスプレイをさらに備える、システム。 - 前記発音区別符号の組に関連する前記発音区別符号は、
ファトハ、シャッダ+ファトハ、タンウィーン ファトハ、シャッダ+タンウィーン ファトハ、ダンマ、シャッダ+ダンマ、タンウィーン ダンマ、シャッダ+タンウィーン ダンマ、カスラ、シャッダ+カスラ、タンウィーン カスラ、シャッダ+タンウィーン カスラ、マッダ、スクーンおよび発音区別符号なしのうちの少なくとも1つである、請求項5に記載のシステム。 - 前記テキストに関連付けられる前記文脈は、前記テキストの一部に与えられる少なくとも1つの発音区別符号に基づいて判断される、請求項5に記載のシステム。
- 前記プロセッサは、さらに、
前記各々の文字のうちの少なくとも1つの先行する文字に関連する文脈に基づいて、高い確率を有する発音区別符号を各々の文字に対して選択するように構成される、請求項5に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/913,667 | 2010-10-27 | ||
US12/913,667 US8543382B2 (en) | 2010-10-27 | 2010-10-27 | Method and system for diacritizing arabic language text |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012094117A JP2012094117A (ja) | 2012-05-17 |
JP5502814B2 true JP5502814B2 (ja) | 2014-05-28 |
Family
ID=43587356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011170038A Expired - Fee Related JP5502814B2 (ja) | 2010-10-27 | 2011-08-03 | アラビア語テキストに発音区別符号を付与するための方法およびシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8543382B2 (ja) |
EP (1) | EP2447854A1 (ja) |
JP (1) | JP5502814B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812302B2 (en) * | 2012-01-17 | 2014-08-19 | Google Inc. | Techniques for inserting diacritical marks to text input via a user device |
WO2014189400A1 (en) | 2013-05-22 | 2014-11-27 | Axon Doo | A method for diacritisation of texts written in latin- or cyrillic-derived alphabets |
WO2020197421A1 (en) * | 2019-03-27 | 2020-10-01 | Qatar Foundation For Education, Science And Community Development | Method and system for diacritizing arabic text |
US11556709B2 (en) | 2020-05-19 | 2023-01-17 | International Business Machines Corporation | Text autocomplete using punctuation marks |
US11314925B1 (en) * | 2020-10-22 | 2022-04-26 | Saudi Arabian Oil Company | Controlling the display of diacritic marks |
US11886794B2 (en) | 2020-10-23 | 2024-01-30 | Saudi Arabian Oil Company | Text scrambling/descrambling |
CN113011135A (zh) * | 2021-03-03 | 2021-06-22 | 科大讯飞股份有限公司 | 阿拉伯语元音恢复方法、装置、设备及存储介质 |
US11734492B2 (en) | 2021-03-05 | 2023-08-22 | Saudi Arabian Oil Company | Manipulating diacritic marks |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050112199A1 (en) * | 2003-09-24 | 2005-05-26 | Mahesh Padval | Therapeutic regimens for administering drug combinations |
TW200538969A (en) * | 2004-02-11 | 2005-12-01 | America Online Inc | Handwriting and voice input with automatic correction |
US8069045B2 (en) * | 2004-02-26 | 2011-11-29 | International Business Machines Corporation | Hierarchical approach for the statistical vowelization of Arabic text |
ATE368895T1 (de) * | 2004-12-10 | 2007-08-15 | Ibm | System und verfahren zur verdeutlichung nicht diakritisierter arabischer wörter in einem text |
US7966173B2 (en) * | 2006-03-22 | 2011-06-21 | Nuance Communications, Inc. | System and method for diacritization of text |
US20080300861A1 (en) * | 2007-06-04 | 2008-12-04 | Ossama Emam | Word formation method and system |
US8612206B2 (en) * | 2009-12-08 | 2013-12-17 | Microsoft Corporation | Transliterating semitic languages including diacritics |
-
2010
- 2010-10-27 US US12/913,667 patent/US8543382B2/en not_active Expired - Fee Related
-
2011
- 2011-01-14 EP EP11150935A patent/EP2447854A1/en not_active Withdrawn
- 2011-08-03 JP JP2011170038A patent/JP5502814B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20120109633A1 (en) | 2012-05-03 |
EP2447854A1 (en) | 2012-05-02 |
US8543382B2 (en) | 2013-09-24 |
JP2012094117A (ja) | 2012-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5502814B2 (ja) | アラビア語テキストに発音区別符号を付与するための方法およびシステム | |
CN101133411B (zh) | 非罗马字符的容错罗马化输入方法 | |
US8543375B2 (en) | Multi-mode input method editor | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN103714048B (zh) | 用于校正文本的方法和系统 | |
CN110033760B (zh) | 语音识别的建模方法、装置及设备 | |
WO2020001458A1 (zh) | 语音识别方法、装置及系统 | |
EP1743275B1 (en) | Apparatus and method for handwriting recognition | |
US20140095143A1 (en) | Transliteration pair matching | |
CN102982021A (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
CN103970798A (zh) | 数据的搜索和匹配 | |
JP2010518534A (ja) | 文脈上の入力方法 | |
JP6941494B2 (ja) | エンドツーエンド日本語音声認識モデル学習装置およびプログラム | |
US9536180B2 (en) | Text recognition based on recognition units | |
US11694028B2 (en) | Data generation apparatus and data generation method that generate recognition text from speech data | |
JP7102710B2 (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
CN105683873A (zh) | 容错输入法编辑器 | |
JP2009199434A (ja) | アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム | |
US11809831B2 (en) | Symbol sequence converting apparatus and symbol sequence conversion method | |
JP2019215660A (ja) | 処理プログラム、処理方法および情報処理装置 | |
CN116013278B (zh) | 基于拼音对齐算法的语音识别多模型结果合并方法及装置 | |
US11080488B2 (en) | Information processing apparatus, output control method, and computer-readable recording medium | |
CN107870678A (zh) | 一种手写输入方法及装置 | |
US20190147039A1 (en) | Information processing apparatus, information generation method, word extraction method, and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130607 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20130607 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20130719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140313 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5502814 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |