JP2012094117A - アラビア語テキストに発音区別符号を付与するための方法およびシステム - Google Patents
アラビア語テキストに発音区別符号を付与するための方法およびシステム Download PDFInfo
- Publication number
- JP2012094117A JP2012094117A JP2011170038A JP2011170038A JP2012094117A JP 2012094117 A JP2012094117 A JP 2012094117A JP 2011170038 A JP2011170038 A JP 2011170038A JP 2011170038 A JP2011170038 A JP 2011170038A JP 2012094117 A JP2012094117 A JP 2012094117A
- Authority
- JP
- Japan
- Prior art keywords
- text
- diacritic
- code
- characters
- diacritic code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Abstract
【解決手段】本発明はテキストに発音区別符号を付与するための方法およびシステムを提供する。方法は、テキストを分析してそのテキストが発音区別符号の組のうちの1以上の発音区別符号を必要とするかどうかを判断するステップを含む。発音区別符号の組は、15の発音区別符号を含み、テキストはアラビア語に関する複数の文字を含む。その後、テキストは複数の文字のうちの各々の文字のための発音区別符号を特定するために処理される。その後、発音区別符号の組のうちの発音区別符号が、テキストに関連する文脈に基づいて複数の文字のうちの各々の文字に与えられて、発音区別符号が付与されたアラビア語のテキストが得られる。
【選択図】図1
Description
本発明は、概して発音区別符号が付されていないテキストに発音区別符号を付与すること(diacritizing)に関し、より具体的には、発音区別符号が付されていないアラビア語のテキストに発音区別符号を付与するための方法およびシステムに関する。
アラビア語のアルファベットは28文字からなる。28文字のうちの25文字は子音を表す。アラビア語における残りの3つの文字は、アラビア語の長母音を表す。さらに、アラビア語は6つの母音からなり、それらは短母音および長母音からなる3つの対に分割される。このようなことから、各々の対は異なる音価に対応する。アラビア語の記述体系の顕著な特徴は、短母音がアルファベットによって表されないことである。代わりに、アルファベットは、直前の子音の上または下のいずれかに置かれる短い線である、いわゆる発音区別符号(diacritics)によって表されている。発音区別符号が付されていないテキストに発音区別符号を追加するこの処理は、発音区別符号付与(diacritization)と呼ばれる。
本発明に従う実施の形態を詳細に記述する前に、その実施形態は、主にテキストに発音区別符号を付与するための方法およびシステムに関する方法のステップおよび装置の要素の組合せに属するということに注意すべきである。したがって、装置の要素および方法のステップは、図中において従来の符号によって適切に表されているが、図は開示の詳細が不明瞭とならないように本発明の実施形態を理解するのに関連するこれらの特定の詳細を示しているに過ぎない。その詳細は、本明細書の記載の恩恵を有する当業者にとって直ちに明らかとなるであろう。
その後、各々の文字に関連するASCIIコードが右から左に順にHMMに与えられる。その後、ブロック408に示されるように、HMMは発音区別符号が付されていないテキストに関連する各々の文字を処理して、各々の文字に対して発音区別符号を与える。したがって、ブロック408に示されるように、HMMによって状態コードの配列が生成される。状態コードの配列は、発音区別符号の配列に対応し得る。さらに、発音区別符号の配列は、図3に示された表から推測され得る。各々の文字に発音区別符号を与えるためにHMMによって各々の文字を処理する方法が、図2と合わせて詳細に記述される。たとえば、ASCIIコードが1580である
Claims (14)
- テキストに発音区別符号を付与する方法であって、
前記テキストを分析して、前記テキストが、発音区別符号の組のうちの少なくとも1つの発音区別符号を必要とするかどうかを判断するステップを備え、
前記発音区別符号の組は、15の発音区別符号を備え、
前記テキストは、アラビア語に関連する複数の文字を備え、
前記方法は、
前記テキストに関連する文脈に基づいて、前記発音区別符号の組のうちの発音区別符号を前記複数の文字のうちの各々の文字に与えて、発音区別符号が付されたテキストを得るステップをさらに備える、方法。 - 前記発音区別符号の組に関連する前記発音区別符号は、
ファトハ、シャッダ+ファトハ、タンウィーン ファトハ、シャッダ+タンウィーン ファトハ、ダンマ、シャッダ+ダンマ、タンウィーン ダンマ、シャッダ+タンウィーン ダンマ、カスラ、シャッダ+カスラ、タンウィーン カスラ、シャッダ+タンウィーン カスラ、マッダ、スクーンおよび発音区別符号なしのうちの少なくとも1つである、請求項1に記載の方法。 - 前記発音区別符号の組のうちの前記発音区別符号を前記複数の文字のうちの各々の文字に与えるステップは、
前記発音区別符号の組から発音区別符号の配列を生成するステップを備え、
前記発音区別符号の配列は、前記発音区別符号の組からの少なくとも1つの発音区別符号を含み、
前記発音区別符号の組のうちの前記発音区別符号を前記複数の文字のうちの各々の文字に与えるステップは、
前記発音区別符号の配列を前記テキストに整合させて前記発音区別符号が付されたテキストを得るステップをさらに備える、請求項1に記載の方法。 - 前記発音区別符号の配列を前記テキストに整合させるステップは、前記発音区別符号の配列のうちの各々の発音区別符号を、前記テキストに関連する前記複数の文字のうちの対応する文字に関連付けるステップを備える、請求項3に記載の方法。
- 前記テキストの一部に与えられる少なくとも1つの発音区別符号に基づいて、前記テキストに関連する前記文脈を判断するステップをさらに備える、請求項1に記載の方法。
- 前記発音区別符号の組のうちの前記発音区別符号を前記複数の文字のうちの各々の文字に与えるステップは、
前記各々の文字のうちの少なくとも1つの先行する文字に関連する文脈に基づいて、高い確率を有する発音区別符号を各々の文字に対して選択するステップをさらに備える、請求項1に記載の方法。 - 前記テキストを分析して、前記テキストが、少なくとも1つの発音区別符号を必要とするかどうかを判断するステップは、
前記テキストを走査して、前記複数の文字のうちの各々の文字が少なくとも1つの発音区別符号を備えるかどうかを判断するステップを備える、請求項1に記載の方法。 - テキストに発音区別符号を付与するためのシステムであって、
テキストと、発音区別符号の組のうちの少なくとも1つの発音区別符号とを記憶するためのメモリを備え、
前記発音区別符号の組は、15の発音区別符号を備え、
前記テキストは、アラビア語に関連する複数の文字を備え、
前記システムは、
前記メモリに結合されたプロセッサをさらに備え、
前記プロセッサは、
前記テキストを分析して、前記テキストが、前記発音区別符号の組のうちの少なくとも1つの発音区別符号を必要とするかどうかを判断し、
前記テキストに関連する文脈に基づいて、前記発音区別符号の組のうちの発音区別符号を前記複数の文字のうちの各々の文字に与えて、発音区別符号が付されたテキストを得るように構成される、システム。 - 前記発音区別符号の組に関連する前記発音区別符号は、
ファトハ、シャッダ+ファトハ、タンウィーン ファトハ、シャッダ+タンウィーン ファトハ、ダンマ、シャッダ+ダンマ、タンウィーン ダンマ、シャッダ+タンウィーン ダンマ、カスラ、シャッダ+カスラ、タンウィーン カスラ、シャッダ+タンウィーン カスラ、マッダ、スクーンおよび発音区別符号なしのうちの少なくとも1つである、請求項8に記載のシステム。 - 前記プロセッサは、さらに、
前記発音区別符号の組から発音区別符号の配列を生成するように構成され、
前記発音区別符号の配列は、前記発音区別符号の組からの少なくとも1つの発音区別符号を含み、
前記プロセッサは、さらに、
前記発音区別符号の配列を前記テキストに整合させて前記発音区別符号が付されたテキストを得るように構成される、請求項8に記載のシステム。 - 前記プロセッサは、さらに、
前記発音区別符号の配列のうちの各々の発音区別符号を、前記テキストに関連する前記複数の文字のうちの対応する文字に関連付けるように構成される、請求項10に記載のシステム。 - 前記テキストに関連付けられる前記文脈は、前記テキストの一部に与えられる少なくとも1つの発音区別符号に基づいて判断される、請求項8に記載のシステム。
- 前記プロセッサは、さらに、
前記各々の文字のうちの少なくとも1つの先行する文字に関連する文脈に基づいて、高い確率を有する発音区別符号を各々の文字に対して選択するように構成される、請求項8に記載のシステム。 - 前記プロセッサは、さらに、
前記テキストを走査して、前記複数の文字のうちの各々の文字が少なくとも1つの発音区別符号を備えるかどうかを判断するように構成される、請求項8に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/913,667 | 2010-10-27 | ||
US12/913,667 US8543382B2 (en) | 2010-10-27 | 2010-10-27 | Method and system for diacritizing arabic language text |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012094117A true JP2012094117A (ja) | 2012-05-17 |
JP5502814B2 JP5502814B2 (ja) | 2014-05-28 |
Family
ID=43587356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011170038A Expired - Fee Related JP5502814B2 (ja) | 2010-10-27 | 2011-08-03 | アラビア語テキストに発音区別符号を付与するための方法およびシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8543382B2 (ja) |
EP (1) | EP2447854A1 (ja) |
JP (1) | JP5502814B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812302B2 (en) * | 2012-01-17 | 2014-08-19 | Google Inc. | Techniques for inserting diacritical marks to text input via a user device |
WO2014189400A1 (en) | 2013-05-22 | 2014-11-27 | Axon Doo | A method for diacritisation of texts written in latin- or cyrillic-derived alphabets |
WO2020197421A1 (en) * | 2019-03-27 | 2020-10-01 | Qatar Foundation For Education, Science And Community Development | Method and system for diacritizing arabic text |
US11556709B2 (en) | 2020-05-19 | 2023-01-17 | International Business Machines Corporation | Text autocomplete using punctuation marks |
US11314925B1 (en) * | 2020-10-22 | 2022-04-26 | Saudi Arabian Oil Company | Controlling the display of diacritic marks |
US11886794B2 (en) | 2020-10-23 | 2024-01-30 | Saudi Arabian Oil Company | Text scrambling/descrambling |
CN113011135A (zh) * | 2021-03-03 | 2021-06-22 | 科大讯飞股份有限公司 | 阿拉伯语元音恢复方法、装置、设备及存储介质 |
US11734492B2 (en) | 2021-03-05 | 2023-08-22 | Saudi Arabian Oil Company | Manipulating diacritic marks |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050112199A1 (en) * | 2003-09-24 | 2005-05-26 | Mahesh Padval | Therapeutic regimens for administering drug combinations |
JP2007524949A (ja) * | 2004-02-11 | 2007-08-30 | アメリカ オンライン インコーポレーティッド | 自動訂正機能を備えた手書き文字入力およびボイス入力 |
US20070225977A1 (en) * | 2006-03-22 | 2007-09-27 | Emam Ossama S | System and method for diacritization of text |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8069045B2 (en) * | 2004-02-26 | 2011-11-29 | International Business Machines Corporation | Hierarchical approach for the statistical vowelization of Arabic text |
ATE368895T1 (de) * | 2004-12-10 | 2007-08-15 | Ibm | System und verfahren zur verdeutlichung nicht diakritisierter arabischer wörter in einem text |
US20080300861A1 (en) * | 2007-06-04 | 2008-12-04 | Ossama Emam | Word formation method and system |
US8612206B2 (en) * | 2009-12-08 | 2013-12-17 | Microsoft Corporation | Transliterating semitic languages including diacritics |
-
2010
- 2010-10-27 US US12/913,667 patent/US8543382B2/en not_active Expired - Fee Related
-
2011
- 2011-01-14 EP EP11150935A patent/EP2447854A1/en not_active Withdrawn
- 2011-08-03 JP JP2011170038A patent/JP5502814B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050112199A1 (en) * | 2003-09-24 | 2005-05-26 | Mahesh Padval | Therapeutic regimens for administering drug combinations |
JP2007524949A (ja) * | 2004-02-11 | 2007-08-30 | アメリカ オンライン インコーポレーティッド | 自動訂正機能を備えた手書き文字入力およびボイス入力 |
US20070225977A1 (en) * | 2006-03-22 | 2007-09-27 | Emam Ossama S | System and method for diacritization of text |
US20080270115A1 (en) * | 2006-03-22 | 2008-10-30 | Emam Ossama S | System and method for diacritization of text |
Also Published As
Publication number | Publication date |
---|---|
US20120109633A1 (en) | 2012-05-03 |
EP2447854A1 (en) | 2012-05-02 |
US8543382B2 (en) | 2013-09-24 |
JP5502814B2 (ja) | 2014-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5502814B2 (ja) | アラビア語テキストに発音区別符号を付与するための方法およびシステム | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
US8543375B2 (en) | Multi-mode input method editor | |
JP5462001B2 (ja) | 文脈上の入力方法 | |
US9176936B2 (en) | Transliteration pair matching | |
US6792408B2 (en) | Interactive command recognition enhancement system and method | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
US9460088B1 (en) | Written-domain language modeling with decomposition | |
EP1743275B1 (en) | Apparatus and method for handwriting recognition | |
CN102982021A (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
CN101133411A (zh) | 非罗马字符的容错罗马化输入方法 | |
CN103970798A (zh) | 数据的搜索和匹配 | |
CN102439660A (zh) | 基于置信度得分的语音标签方法和装置 | |
US9536180B2 (en) | Text recognition based on recognition units | |
US11694028B2 (en) | Data generation apparatus and data generation method that generate recognition text from speech data | |
JP7102710B2 (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
US20160078013A1 (en) | Fault-tolerant input method editor | |
JP6009396B2 (ja) | 発音付与方法とその装置とプログラム | |
JP2009199434A (ja) | アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム | |
CN116013278B (zh) | 基于拼音对齐算法的语音识别多模型结果合并方法及装置 | |
CN113223522B (zh) | 语音识别方法、装置、设备和存储介质 | |
US11809831B2 (en) | Symbol sequence converting apparatus and symbol sequence conversion method | |
US11080488B2 (en) | Information processing apparatus, output control method, and computer-readable recording medium | |
CN107870678A (zh) | 一种手写输入方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130607 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20130607 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20130719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140313 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5502814 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |