JP5355625B2 - 光学式文字認識用に画像を前処理するための方法およびシステム - Google Patents
光学式文字認識用に画像を前処理するための方法およびシステム Download PDFInfo
- Publication number
- JP5355625B2 JP5355625B2 JP2011129862A JP2011129862A JP5355625B2 JP 5355625 B2 JP5355625 B2 JP 5355625B2 JP 2011129862 A JP2011129862 A JP 2011129862A JP 2011129862 A JP2011129862 A JP 2011129862A JP 5355625 B2 JP5355625 B2 JP 5355625B2
- Authority
- JP
- Japan
- Prior art keywords
- components
- height
- column
- word
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/293—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Description
本発明は一般に光学式文字認識(OCR:Optical Character Recognition)用に画像を前処理することに関し、画像はアラビア文字および/または非文字項目を含む。より具体的には、本発明は複数の欄を含む画像の前処理に関し、各欄はアラビア文字および/または非文字項目を含む。
スキャンされた文章を編集可能および検索可能な文章に自動的に変換するには、正確かつ安定した光学式文字認識(OCR)システムを使用する必要がある。英語の文章に対するOCRシステムは、さまざまな理由により、高いレベルの精度に達している。その主な理由の1つは、OCRシステムへの入力として、英語の文章を分離された文字に前処理する機能にある。英語の文章の各文字は、印刷された英語の文章が繋がっていない性質により、分離することができる。しかし、スキャンされた繋がっている文字はOCRシステムへの課題であり、ピッチが変化している場合にその精度を落とす。
本発明に従う実施例を詳細に説明する前に、実施例は主に光学式文字認識(OCR)用にアラビア文字および非文字項目を含む画像を前処理するための方法およびシステムに関する方法の工程および装置の構成要素の組合せに基づいていることに注意しなければならない。画像は複数の欄を含み、各欄はアラビア文字および/または非文字項目を含む。したがって、装置の構成要素および方法の工程は、図面において適する場合は従来の記号によって示され、ここでの記載が当業者にとって容易に明らかとなる詳細でもって開示を曖昧にしないよう、本発明の実施例の理解に関連する具体的詳細のみが示されている。
1302 メモリ
1304 プロセッサ
402 アラビア文字および/または非文字項目に関連付けられる複数の構成要素を定める
404 複数の構成要素に関連付けられる行高さおよび欄間を計算する
406 複数の構成要素のうちの1つ以上の構成要素をある欄に関連付ける
408 各欄について、第1の組の特性パラメータを計算する
410 第1の組の特性パラメータに基づいて各欄の複数の構成要素を合成して、1つ以上の副単語および1つ以上の単語のうちの少なくとも1つ以上を形成する
Claims (24)
- 光学式文字認識(OCR:Optical Character Recognition)用に画像を前処理する方法であ
って、画像は複数の欄を含み、複数の欄のうちの各欄は、アラビア文字および非文字項目の少なくとも一方を含み、前記方法は、
複数の構成要素の中のアラビア文字および非文字項目の少なくとも一方に関連付けられる複数の構成要素を定めることを備え、構成要素は一連の接続されたピクセルを含み、前記方法は、さらに、
前記複数の構成要素に関連付けられる行高さおよび欄間を計算することと、
行高さおよび欄間の少なくとも一方に基づき、前記複数の構成要素のうちの少なくとも1つの構成要素を、前記複数の欄のうちのある欄に関連付けることと、
前記複数の欄のうちの各欄について第1の組の特性パラメータを計算することと、
前記第1の組の特性パラメータに基づき、前記複数の欄のうちの各欄の中の複数の構成要素を合成して、少なくとも1つのアラビア副単語および少なくとも1つのアラビア単語の少なくとも一方を形成することとを備え、
前記第1の組の特性パラメータは、各欄に関連付けられる行高さ、各欄に関連付けられる語間、各欄に関連付けられる行間、各構成要素に対応するピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比の少なくとも1つであり、
前記各欄に関連付けられる行間を計算することは、
各欄に関連付けられる複数の構成要素の複数の横並び突出部のヒストグラムを作成することを含み、前記複数の横並び突出部のうちのある横並び突出部は、ラスタスキャンの各掃引に対応して複数の構成要素に関連付けられるピクセルの数を示し、さらに
2つの連続する最大横並び突出部間の平均距離を計算することと、
前記平均距離に基づき行間を計算することとを含む、方法。 - 前記画像は、濃淡画像およびカラー画像の少なくとも一方を2進画像に変換することによって得られる、請求項1に記載の方法。
- 前記画像は、ごま塩雑音をふるい落とすことによって得られる、請求項1に記載の方法。
- 前記画像は、変形ハフ変換を用いて歪みを修正することによって得られ、前記変形ハフ変換はアラビア文字に適合される、請求項1に記載の方法。
- 前記複数の構成要素を定めることは、
前記画像に対してラスタスキャンを行なうこと、
前記ラスタスキャンの少なくとも1回の掃引に対応する複数の構成要素のうちの少なくとも1つに関連付けられる複数のピクセルを特定すること、および
複数のピクセル間の相互接続に基づき前記複数のピクセルを統合して、少なくとも1組の接続されたピクセルを形成することを含む、請求項1に記載の方法。 - ピクセルは当該ピクセルの8個の隣接するピクセルの少なくとも1つと相互接続される、請求項5に記載の方法。
- 前記行高さを計算することは、
前記複数の構成要素の各々の高さに対応する高さのヒストグラムを作成すること、
高さのヒストグラムから頻出高さを特定すること、および
頻出高さに基づき行高さを計算することを含む、請求項1に記載の方法。 - 前記欄間は、行高さに基づき計算される、請求項7に記載の方法。
- 各欄に関連付けられる語間を計算することは、
各欄に関連付けられた複数の構成要素の連続する構成要素間の間隔のヒストグラムを作成することと、
ヒストグラムから頻出間隔を特定することとを含み、前記頻出間隔は行高さによって定められるしきい値範囲内にあり、さらに
前記頻出間隔に基づき語間を計算することを含む、請求項1に記載の方法。 - 前記連続する構成要素は、縦方向に重なる構成要素および所定の距離離れている構成要素の少なくとも一方を含み、前記縦方向に重なる構成要素は、縦軸に沿って少なくとも1つの座標を共有する、請求項9に記載の方法。
- 前記複数の構成要素を合成することは、
前記少なくとも1つの副単語および少なくとも1つ単語の少なくとも一方を形成するために、語間に基づき、各欄に関連付けられる連続する構成要素を結合することと、
前記第1の組の特性パラメータに基づき、アラビア文字に関連付けられる複数の構成要素から、非文字項目に関連付けられる複数の構成要素のうちの少なくとも1つの構成要素をふるい落とすこととを含む、請求項9に記載の方法。 - ある欄に関連付けられる少なくとも1つの座標に基づき、複数の欄を分類することをさらに備え、前記少なくとも1つの座標は、画像における欄の位置に関連付けられる、請求項11に記載の方法。
- 前記方法はさらに、各欄に関連付けられる、各副単語および各単語の少なくとも一方に関連付けられる第2の組の特性パラメータを計算することを備え、前記第2の組の特性パラメータは、各副単語および各単語の少なくとも一方に関連付けられる行高さ、各副単語および各単語の少なくとも一方に関連付けられる語間、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間の1つであり、さらに
第2の組の特性パラメータに基づき少なくとも2つの副単語をグループ化して、少なくとも1つの副単語および少なくとも1つの単語の一方を形成することを備える、請求項1に記載の方法。 - 前記方法は、前記少なくとも1つの副単語および前記少なくとも1つの単語を、各副単語および各単語の少なくとも一方に関連付けられる行高さ、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間の少なくとも一方に基づき、少なくとも1本の横行に分割することをさらに備える、請求項13に記載の方法。
- 光学式文字認識(OCR)用に画像を前処理するためのシステムであって、画像は複数の欄を含み、複数の欄の各欄は、アラビア文字および非文字項目の少なくとも一方を含み、前記システムは、
メモリと、
前記メモリに結合されるプロセッサとを備え、前記プロセッサは、
複数の欄の中のアラビア文字および非文字項目の少なくとも一方に関連付けられる複数の構成要素を定め、構成要素は一連の接続されたピクセルを含み、前記プロセッサは、さらに、
前記複数の構成要素に関連付けられる行高さおよび欄間を計算し、
行高さおよび欄間に基づき、複数の構成要素のうちの少なくとも1つの構成要素を、複数の欄のうちのある欄に関連付け、
前記複数の欄のうちの各欄について第1の組の特性パラメータを計算し、
第1の組の特性パラメータに基づき、複数の欄のうちの各欄の中の複数の構成要素を合成して、少なくとも1つのアラビア副単語および少なくとも1つのアラビア単語の少なくとも一方を形成することとを行ない、
前記第1の組の特性パラメータは、各欄に関連付けられる行高さ、各欄に関連付けられる語間、各欄に関連付けられる行間、各構成要素に対応するピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比の少なくとも1つであり、
各欄に関連付けられる行間を計算するために、前記プロセッサは、
各欄に関連付けられる前記複数の構成要素の中の複数の横並び突出部のヒストグラムを作成し、前記複数の横並び突出部のうちのある横並び突出部は、ラスタスキャンの各掃引に対応して、前記複数の構成要素に関連付けられるピクセルの数を示し、さらに、前記プロセッサは、
2つの連続する最大横並び突出部間の平均距離を計算し、
前記平均距離に基づき行間を計算する、システム。 - 前記プロセッサは、
濃淡画像およびカラー画像の少なくとも一方を2進画像に変換すること、
ごま塩雑音をふるい落とすこと、および
変形ハフ変換を用いて歪みを修正すること、のうちの少なくとも一つを行なう、請求項15に記載のシステム。 - 複数の構成要素を定めるために、前記プロセッサは、
画像に対してラスタスキャンを行ない、
ラスタスキャンの少なくとも1回の掃引に対応して前記複数の構成要素の少なくとも1つの構成要素に関連付けられる複数のピクセルを特定し、
複数のピクセル間の相互接続に基づき、前記複数のピクセルを統合して少なくとも1組の接続されたピクセルを形成する、請求項15に記載のシステム。 - 前記行高さを計算するために、前記プロセッサは、
前記複数の構成要素の各々の高さに対応する高さのヒストグラムを作成し、
前記高さのヒストグラムから頻出高さを特定し、
前記頻出高さに基づき行高さを計算する、請求項15に記載のシステム。 - 前記プロセッサは、行高さに基づき欄間を計算する、請求項18に記載のシステム
- 各欄に関連付けられる語間を計算するために、前記プロセッサは、
各欄に関連付けられる前記複数の構成要素のうちの連続する構成要素間の間隔のヒストグラムを生成し、
前記ヒストグラムから頻出間隔を特定し、前記頻出間隔は行高さによって定められるしきい値範囲内にあり、さらに、前記プロセッサは、
前記頻出間隔に基づき語間を計算する、請求項15に記載のシステム。 - 前記プロセッサは、
語間に基づき各欄に関連付けられる連続する構成要素を結合して、少なくとも副単語および少なくとも1つの単語の少なくとも一方を形成し、
前記第1の組の特性パラメータに基づき、アラビア文字に関連付けられる複数の構成要素から非文字項目に関連付けられる前記複数の構成要素のうちの少なくとも1つの構成要素をふるい落とす、請求項20に記載のシステム。 - 前記プロセッサは、ある欄に関連付けられる少なくとも1つの座標に基づき、複数の欄を分類し、前記少なくとも一つの座標は画像における欄の位置に関連付けられる、請求項21に記載のシステム。
- 前記プロセッサは、
各欄に関連付けられる、各副単語および各単語の少なくとも一方に関連付けられる第2の組の特性パラメータを計算し、第2の組の特性パラメータは、各副単語および各単語の少なくとも一方に関連付けられる行高さ、各副単語および各単語の少なくとも一方に関連付けられる語間、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間のうちの1つであり、さらに、前記プロセッサは、
第2の組の特性パラメータに基づき少なくとも2つの副単語をグループ化して、少なくとも1つの副単語および少なくとも1つの単語の一方を形成する、請求項15に記載のシステム。 - 前記プロセッサは、少なくとも1つの副単語および少なくとも1つの単語を、各副単語および各単語の少なくとも一方に関連付けられる行高さ、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間の少なくとも一方に基づき、少なくとも1つの横行に分割する、請求項23に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/814,448 | 2010-06-12 | ||
US12/814,448 US8218875B2 (en) | 2010-06-12 | 2010-06-12 | Method and system for preprocessing an image for optical character recognition |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012003756A JP2012003756A (ja) | 2012-01-05 |
JP2012003756A5 JP2012003756A5 (ja) | 2013-07-18 |
JP5355625B2 true JP5355625B2 (ja) | 2013-11-27 |
Family
ID=44654616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011129862A Expired - Fee Related JP5355625B2 (ja) | 2010-06-12 | 2011-06-10 | 光学式文字認識用に画像を前処理するための方法およびシステム |
Country Status (3)
Country | Link |
---|---|
US (2) | US8218875B2 (ja) |
EP (1) | EP2395453A3 (ja) |
JP (1) | JP5355625B2 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8218875B2 (en) | 2010-06-12 | 2012-07-10 | Hussein Khalid Al-Omari | Method and system for preprocessing an image for optical character recognition |
US8542926B2 (en) * | 2010-11-19 | 2013-09-24 | Microsoft Corporation | Script-agnostic text reflow for document images |
US9734132B1 (en) * | 2011-12-20 | 2017-08-15 | Amazon Technologies, Inc. | Alignment and reflow of displayed character images |
JP5994251B2 (ja) * | 2012-01-06 | 2016-09-21 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
EP2836962A4 (en) | 2012-04-12 | 2016-07-27 | Tata Consultancy Services Ltd | SYSTEM AND METHOD FOR DETECTION AND SEGMENTATION OF CHARACTERISTIC MATTERS FOR OPTICAL CHARACTER RECOGNITION (OCR) |
EP2662802A1 (en) * | 2012-05-09 | 2013-11-13 | King Abdulaziz City for Science & Technology (KACST) | Method and system for preprocessing an image for optical character recognition |
US9785240B2 (en) * | 2013-03-18 | 2017-10-10 | Fuji Xerox Co., Ltd. | Systems and methods for content-aware selection |
JP5986051B2 (ja) * | 2013-05-12 | 2016-09-06 | キング・アブドゥルアジズ・シティ・フォー・サイエンス・アンド・テクノロジー(ケイ・エイ・シィ・エス・ティ)King Abdulaziz City For Science And Technology (Kacst) | アラビア語テキストを自動的に認識するための方法 |
WO2014204339A1 (en) * | 2013-06-18 | 2014-12-24 | Abbyy Development Llc | Methods and systems that generate feature symbols with associated parameters in order to convert document images to electronic documents |
US9235755B2 (en) * | 2013-08-15 | 2016-01-12 | Konica Minolta Laboratory U.S.A., Inc. | Removal of underlines and table lines in document images while preserving intersecting character strokes |
US9292739B1 (en) * | 2013-12-12 | 2016-03-22 | A9.Com, Inc. | Automated recognition of text utilizing multiple images |
US9288362B2 (en) | 2014-02-03 | 2016-03-15 | King Fahd University Of Petroleum And Minerals | Technique for skew detection of printed arabic documents |
US9367766B2 (en) * | 2014-07-22 | 2016-06-14 | Adobe Systems Incorporated | Text line detection in images |
JP2016181111A (ja) * | 2015-03-24 | 2016-10-13 | 富士ゼロックス株式会社 | 画像処理装置、及び画像処理プログラム |
CN106156766B (zh) | 2015-03-25 | 2020-02-18 | 阿里巴巴集团控股有限公司 | 文本行分类器的生成方法及装置 |
US10430649B2 (en) | 2017-07-14 | 2019-10-01 | Adobe Inc. | Text region detection in digital images using image tag filtering |
US11366968B2 (en) * | 2019-07-29 | 2022-06-21 | Intuit Inc. | Region proposal networks for automated bounding box detection and text segmentation |
US11270153B2 (en) | 2020-02-19 | 2022-03-08 | Northrop Grumman Systems Corporation | System and method for whole word conversion of text in image |
JP2021189952A (ja) * | 2020-06-03 | 2021-12-13 | 株式会社リコー | 画像処理装置、方法およびプログラム |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5058182A (en) * | 1988-05-02 | 1991-10-15 | The Research Foundation Of State Univ. Of New York | Method and apparatus for handwritten character recognition |
US5224179A (en) * | 1988-12-20 | 1993-06-29 | At&T Bell Laboratories | Image skeletonization method |
US5680479A (en) * | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
JP3253356B2 (ja) * | 1992-07-06 | 2002-02-04 | 株式会社リコー | 文書画像の領域識別方法 |
US5987170A (en) * | 1992-09-28 | 1999-11-16 | Matsushita Electric Industrial Co., Ltd. | Character recognition machine utilizing language processing |
US5410611A (en) * | 1993-12-17 | 1995-04-25 | Xerox Corporation | Method for identifying word bounding boxes in text |
CA2166248C (en) * | 1995-12-28 | 2000-01-04 | Abdel Naser Al-Karmi | Optical character recognition of handwritten or cursive text |
JPH11232378A (ja) * | 1997-12-09 | 1999-08-27 | Canon Inc | デジタルカメラ、そのデジタルカメラを用いた文書処理システム、コンピュータ可読の記憶媒体、及び、プログラムコード送出装置 |
JP4323606B2 (ja) * | 1999-03-01 | 2009-09-02 | 理想科学工業株式会社 | 文書画像傾き検出装置 |
US7298903B2 (en) * | 2001-06-28 | 2007-11-20 | Microsoft Corporation | Method and system for separating text and drawings in digital ink |
US7062090B2 (en) * | 2002-06-28 | 2006-06-13 | Microsoft Corporation | Writing guide for a free-form document editor |
US20040096102A1 (en) * | 2002-11-18 | 2004-05-20 | Xerox Corporation | Methodology for scanned color document segmentation |
US7499588B2 (en) * | 2004-05-20 | 2009-03-03 | Microsoft Corporation | Low resolution OCR for camera acquired documents |
US8139828B2 (en) * | 2005-10-21 | 2012-03-20 | Carestream Health, Inc. | Method for enhanced visualization of medical images |
JP4757001B2 (ja) * | 2005-11-25 | 2011-08-24 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
US7668394B2 (en) * | 2005-12-21 | 2010-02-23 | Lexmark International, Inc. | Background intensity correction of a scan of a document |
US7724957B2 (en) * | 2006-07-31 | 2010-05-25 | Microsoft Corporation | Two tiered text recognition |
JP4988842B2 (ja) * | 2007-06-28 | 2012-08-01 | 富士通株式会社 | 表データ生成プログラム、表データ生成方法および表データ生成装置 |
WO2009081791A1 (ja) * | 2007-12-21 | 2009-07-02 | Nec Corporation | 情報処理システム、その方法及びプログラム |
US8027539B2 (en) * | 2008-01-11 | 2011-09-27 | Sharp Laboratories Of America, Inc. | Method and apparatus for determining an orientation of a document including Korean characters |
US8009928B1 (en) * | 2008-01-23 | 2011-08-30 | A9.Com, Inc. | Method and system for detecting and recognizing text in images |
US8150160B2 (en) * | 2009-03-26 | 2012-04-03 | King Fahd University Of Petroleum & Minerals | Automatic Arabic text image optical character recognition method |
TWI394098B (zh) * | 2009-06-03 | 2013-04-21 | Nat Univ Chung Cheng | Shredding Method Based on File Image Texture Feature |
US8086039B2 (en) * | 2010-02-05 | 2011-12-27 | Palo Alto Research Center Incorporated | Fine-grained visual document fingerprinting for accurate document comparison and retrieval |
US20110280481A1 (en) * | 2010-05-17 | 2011-11-17 | Microsoft Corporation | User correction of errors arising in a textual document undergoing optical character recognition (ocr) process |
US8218875B2 (en) | 2010-06-12 | 2012-07-10 | Hussein Khalid Al-Omari | Method and system for preprocessing an image for optical character recognition |
-
2010
- 2010-06-12 US US12/814,448 patent/US8218875B2/en not_active Expired - Fee Related
- 2010-12-28 EP EP10197110.9A patent/EP2395453A3/en not_active Withdrawn
-
2011
- 2011-06-10 JP JP2011129862A patent/JP5355625B2/ja not_active Expired - Fee Related
-
2012
- 2012-05-09 US US13/467,873 patent/US8548246B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20110305387A1 (en) | 2011-12-15 |
US8218875B2 (en) | 2012-07-10 |
JP2012003756A (ja) | 2012-01-05 |
US20120219220A1 (en) | 2012-08-30 |
EP2395453A3 (en) | 2013-08-28 |
US8548246B2 (en) | 2013-10-01 |
EP2395453A2 (en) | 2011-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5355625B2 (ja) | 光学式文字認識用に画像を前処理するための方法およびシステム | |
JP5355621B2 (ja) | 光学式文字認識用に画像を前処理するための方法およびシステム | |
Dongre et al. | Devnagari document segmentation using histogram approach | |
US8571270B2 (en) | Segmentation of a word bitmap into individual characters or glyphs during an OCR process | |
JPH0721319A (ja) | 自動アジア言語決定装置 | |
CN109598185B (zh) | 图像识别翻译方法、装置、设备及可读存储介质 | |
CN111832476A (zh) | 版面分析方法、阅读辅助设备、电路和介质 | |
US20030012438A1 (en) | Multiple size reductions for image segmentation | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN113486828A (zh) | 图像处理方法、装置、设备和存储介质 | |
Shehu et al. | Character recognition using correlation & hamming distance | |
KR101571681B1 (ko) | 동질 영역을 이용한 문서 구조의 분석 방법 | |
JP5857634B2 (ja) | 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム | |
Kshetry | Image preprocessing and modified adaptive thresholding for improving OCR | |
JP6082306B2 (ja) | 光学式文字認識用に画像を前処理するための方法およびシステム | |
JP3058489B2 (ja) | 文字列抽出方法 | |
Roy et al. | An approach towards segmentation of real time handwritten text | |
CN109558875A (zh) | 基于图像自动识别的方法、装置、终端及存储介质 | |
CN102542269B (zh) | 西文单词切分方法和装置 | |
Zaw et al. | Segmentation Method for Myanmar Character Recognition Using Block based Pixel Count and Aspect Ratio | |
Attia et al. | Histogram-based lines and words decomposition for arabic omni font-written OCR systems; enhancements and evaluation | |
Siddique et al. | An absolute Optical Character Recognition system for Bangla script Utilizing a captured image | |
Kuhl et al. | Model-based character recognition in low resolution | |
Deivalakshmi | A simple system for table extraction irrespective of boundary thickness and removal of detected spurious lines | |
CN117710985A (zh) | 光学字符识别方法、装置及智能终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130530 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130530 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20130530 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20130619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130625 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130827 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |