JP5986051B2 - アラビア語テキストを自動的に認識するための方法 - Google Patents
アラビア語テキストを自動的に認識するための方法 Download PDFInfo
- Publication number
- JP5986051B2 JP5986051B2 JP2013187257A JP2013187257A JP5986051B2 JP 5986051 B2 JP5986051 B2 JP 5986051B2 JP 2013187257 A JP2013187257 A JP 2013187257A JP 2013187257 A JP2013187257 A JP 2013187257A JP 5986051 B2 JP5986051 B2 JP 5986051B2
- Authority
- JP
- Japan
- Prior art keywords
- arabic
- text
- line
- style
- pixels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/293—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana
Description
テキスト認識、すなわちテキストの自動読取りはパターン認識から派生したものである。テキスト認識の目的は、印刷されたテキストを人間並みの精度でより高速に読取ることである。大抵のテキスト認識法では、テキストを個々の文字に分離できるよう想定されている。このような技術は、ラテン語のタイプされたテキストまたは活字テキストでは成功しているものの、アラビア語などの筆記体の手書き文字に適用するには確実ではない。アラビア語の手書き文字認識についての従来の研究では、アラビア語の単語を個々の文字に分割しようとする試みが困難であることが確認された。
光学式文字認識(OCR:Optical Character Recognition)システムは、アラビア文字のトレーニングおよび認識のためのコーパス、すなわちデータセット、を必要とする。コーパスは2つの主要な部分を含む。第1に、ページ、記事、行、単語または文字画像のセット、第2に、当該ページ、記事、行、単語または文字画像のセットからなる同等のテキストを表わすグラウンドトルースである。
Claims (18)
- アラビア語テキストを自動的に認識するための方法であって、
アラビア語テキストファイルと、アラビア語テキストファイルの各々に対応するグラウンドトルースとを含むアラビア語コーパスを構築するステップを含み、アラビア語テキストファイルは、さまざまな文体で書かれたアラビア語テキストを含み、前記方法はさらに、
コンピュータによって文体インデックスをアラビア語テキストファイルに関連付けて記憶するステップを含み、文体インデックスの各々は、アラビア語テキストファイルのうちの1つが文体のうちの1つで書かれていることを示し、前記方法はさらに、
アラビア文字の線を含むテキスト画像を得るステップと、
アラビア文字の線をデジタル化して、各々がピクセル値に関連付けられているピクセルの2次元配列を形成するステップとを含み、ピクセル値は2進数で表わされ、前記方法はさらに、
アラビア文字の線を複数の線画像に分割するステップと、
複数の線画像のうちの1つにおける複数のセルを規定するステップとを含み、複数のセルの各々は、隣接するピクセルの群を含み、前記方法はさらに、
複数の線画像のうちの1つにある複数のセルの各々におけるピクセルのピクセル値を並べて、2進数のセル番号を形成するステップと、
複数の線画像のうちの1つにある複数のセルから得られる2進数のセル番号に従ってテキスト特徴ベクトルを形成するステップと、
アラビア語テキストファイルに関連付けられた文体インデックスに従ってアラビア語コーパスにおけるアラビア語テキストファイルおよびグラウンドトルースを用いて隠れマルコフモデルをトレーニングするステップと、
テキスト特徴ベクトルを隠れマルコフモデルに供給してアラビア文字の線を認識するステップとを含む、方法。 - 2進数のセル番号を10進数のセル番号に変換するステップと、
複数の線画像のうちの1つにある複数のセルから得られる10進数のセル番号を並べて、10進数のセル番号のストリングを形成するステップと、
複数の線画像のうちの1つにある複数のセルから得られる10進数のセル番号のストリングに従ってテキスト特徴ベクトルを形成するステップとをさらに含む、請求項1に記載の方法。 - 文体は、アラビア語テキストにおいて句読点の有無を規定する、請求項1に記載の方法。
- 文体は、アラビア語テキストにおいて母音化の有無を規定する、請求項1に記載の方法。
- 文体は、アラビア語テキストファイルにおいて非アラビア語テキストの存在の有無を規定する、請求項1に記載の方法。
- アラビア語コーパスを構築するステップは、
アラビア語テキストファイルのうちの1つに関連付けられた文体に関する入力をユーザから受理するステップを含む、請求項1に記載の方法。 - アラビア語コーパスを構築するステップは、
コンピュータによってアラビア語テキストファイルのうちの1つに関連付けられる文体を自動的に判断するステップを含み、文体に対応して関連付けられた文体インデックスが、アラビア語テキストファイルのうちの1つに関連付けて自動的に記憶される、請求項1に記載の方法。 - ピクセルの2次元配列は、第1の方向において複数の行と、第2の方向において複数の列とを含み、アラビア文字の線は、実質的に第1の方向に沿って位置合わせされ、複数の線画像は、第1の方向に沿って順次位置合わせされる、請求項1に記載の方法。
- ピクセルの2次元配列は、N行のピクセルを含み、複数の線画像のうち少なくとも1つは、第1の方向においてM個の行によって規定される高さと、第2の方向においてN個の列によって規定される幅とを有し、MおよびNは整数である、請求項8に記載の方法。
- Nは、2〜約100の間の範囲にある、請求項9に記載の方法。
- ピクセルの2次元配列におけるピクセル値はシングルビットの2進数で表わされる、請求項1に記載の方法。
- ピクセルの2次元配列におけるピクセル値はマルチビットの2進数で表わされる、請求項1に記載の方法。
- アラビア語テキストを自動的に認識する方法であって、
アラビア語テキストファイルと、アラビア語テキストファイルの各々に対応するグラウンドトルースとを含むアラビア語コーパスを構築するステップを含み、アラビア語テキストファイルは、さまざまな文体で書かれたアラビア語テキストを含み、前記方法はさらに、
コンピュータによってアラビア語テキストファイルに関連付けて文体インデックスを記憶するステップとを含み、文体インデックスの各々は、アラビア語テキストファイルのうちの1つが文体のうちの1つで書かれていることを示し、前記方法はさらに、
アラビア文字の線を含むテキスト画像を得るステップと、
アラビア文字の線をデジタル化して、各々がピクセル値に関連付けられるピクセルの2次元配列を形成するステップと、
アラビア文字の線を複数の線画像に分割するステップと、
複数の線画像のうち少なくとも1つを縮小して、縮小された線画像を生成するステップと、
縮小された線画像の各列におけるピクセルのピクセル値を並べて、並べられた数字のストリングを形成するステップとを含み、並べられた数字のストリングはテキスト特徴ベクトルを形成し、前記方法はさらに、
アラビア語テキストファイルに関連付けられた文体インデックスに従ってアラビア語コーパスにおけるアラビア語テキストファイルおよびグラウンドトルースを用いて隠れマルコフモデルをトレーニングするステップと、
テキスト特徴ベクトルを隠れマルコフモデルに供給してアラビア文字の線を認識するステップとを含む、方法。 - ピクセルの2次元配列は、第1の方向において複数の行と、第2の方向において複数の列とを含み、アラビア文字の線は、実質的に第1の方向に沿って位置合わせされ、複数の線画像は、第1の方向に沿って順次位置合わせされる、請求項13に記載の方法。
- ピクセルの2次元配列は、N行のピクセルを含み、複数の線画像のうち少なくとも1つは、第1の方向においてM個の行によって規定される高さと、第2の方向においてN個の列によって規定される幅とを有し、MおよびNは整数である、請求項14に記載の方法。
- 文体は、アラビア語テキストにおける句読点の有無、アラビア語テキストにおける母音化の有無、およびアラビア語テキストファイルにおける非アラビア語テキストの存在の有無を規定する、請求項13に記載の方法。
- アラビア語コーパスを構築するステップは、アラビア語テキストファイルのうちの1つに関連付けられた文体に関する入力をユーザから受理するステップを含む、請求項13に記載の方法。
- アラビア語コーパスを構築するステップは、コンピュータによってアラビア語テキストファイルのうちの1つに関連付けられる文体を自動的に判断するステップを含み、文体に対応して関連付けられた文体インデックスが、自動的にアラビア語テキストファイルのうちの1つに関連付けて記憶される、請求項13に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/892,289 US8761500B2 (en) | 2009-04-27 | 2013-05-12 | System and methods for arabic text recognition and arabic corpus building |
US13/892,289 | 2013-05-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014219954A JP2014219954A (ja) | 2014-11-20 |
JP5986051B2 true JP5986051B2 (ja) | 2016-09-06 |
Family
ID=49170602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013187257A Expired - Fee Related JP5986051B2 (ja) | 2013-05-12 | 2013-09-10 | アラビア語テキストを自動的に認識するための方法 |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP2804131A3 (ja) |
JP (1) | JP5986051B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7724957B2 (en) * | 2006-07-31 | 2010-05-25 | Microsoft Corporation | Two tiered text recognition |
WO2008138356A2 (en) * | 2007-05-15 | 2008-11-20 | The Engineering Company For The Development Of Computer Systems ; (Rdi) | System and method for arabic omni font written optica character recognition |
US8150160B2 (en) * | 2009-03-26 | 2012-04-03 | King Fahd University Of Petroleum & Minerals | Automatic Arabic text image optical character recognition method |
US8111911B2 (en) * | 2009-04-27 | 2012-02-07 | King Abdulaziz City For Science And Technology | System and methods for arabic text recognition based on effective arabic text feature extraction |
US8218875B2 (en) * | 2010-06-12 | 2012-07-10 | Hussein Khalid Al-Omari | Method and system for preprocessing an image for optical character recognition |
-
2013
- 2013-09-10 JP JP2013187257A patent/JP5986051B2/ja not_active Expired - Fee Related
- 2013-09-13 EP EP13184319.5A patent/EP2804131A3/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
JP2014219954A (ja) | 2014-11-20 |
EP2804131A2 (en) | 2014-11-19 |
EP2804131A3 (en) | 2016-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8761500B2 (en) | System and methods for arabic text recognition and arabic corpus building | |
US10936862B2 (en) | System and method of character recognition using fully convolutional neural networks | |
US11715014B2 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
JP5647919B2 (ja) | 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム | |
CN107004140B (zh) | 文本识别方法和计算机程序产品 | |
CN110114776B (zh) | 使用全卷积神经网络的字符识别的系统和方法 | |
JP2005242579A (ja) | 文書処理装置、文書処理方法、および文書処理プログラム | |
JPH11120293A (ja) | 文字認識/修正方式 | |
Lakshmi et al. | A multi-font OCR system for printed Telugu text | |
JP5986051B2 (ja) | アラビア語テキストを自動的に認識するための方法 | |
JPH08320914A (ja) | 表認識方法および装置 | |
Sotoodeh et al. | A music symbols recognition method using pattern matching along with integrated projection and morphological operation techniques | |
Lakshmi et al. | A high accuracy OCR system for printed Telugu text | |
EP2735999A2 (en) | Systems and methods for arabic text recognition based on effective arabic text feature extraction | |
Al-Ma'adeed | Recognition of off-line handwritten Arabic words | |
O’Brien et al. | Optical character recognition | |
Sarkar | Word spotting in cursive handwritten documents using modified character shape codes | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JP5853488B2 (ja) | 情報処理装置およびプログラム | |
CN102142088B (zh) | 基于有效阿拉伯文特征提取的阿拉伯文识别方法及系统 | |
Shah et al. | Word-Level Devanagari Text Recognition | |
CN115862038A (zh) | 一种基于端到端神经网络的木板印刷满文识别方法 | |
Peng et al. | Design and development of an ancient Chinese document recognition system | |
Ediriweera | Improviing the accuracy of the output of sinhala ocr by using a dictionary | |
Thakur et al. | Offline Recognition of Image for content Based Retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160329 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160510 |
|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160719 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5986051 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |