JP6082306B2 - 光学式文字認識用に画像を前処理するための方法およびシステム - Google Patents
光学式文字認識用に画像を前処理するための方法およびシステム Download PDFInfo
- Publication number
- JP6082306B2 JP6082306B2 JP2013084694A JP2013084694A JP6082306B2 JP 6082306 B2 JP6082306 B2 JP 6082306B2 JP 2013084694 A JP2013084694 A JP 2013084694A JP 2013084694 A JP2013084694 A JP 2013084694A JP 6082306 B2 JP6082306 B2 JP 6082306B2
- Authority
- JP
- Japan
- Prior art keywords
- components
- column
- word
- height
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/293—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Description
これは、米国特許出願連続番号第12/814,448号の継続出願であり、その全体を引用により援用する。
本発明は一般に光学式文字認識(OCR:Optical Character Recognition)用に画像を前処理することに関し、画像はアラビア文字および/または非文字項目を含む。より具体的には、本発明は複数の欄を含む画像の前処理に関し、各欄はアラビア文字および/または非文字項目を含む。
スキャンされた文書を編集可能および検索可能な文章に自動的に変換するには、正確かつ安定した光学式文字認識(OCR)システムを使用する必要がある。英文に対するOCRシステムは、さまざまな理由により、高いレベルの精度に達している。その主な理由の1つは、OCRシステムへの入力として、英文を分離された文字に前処理する機能にある。英文の各文字は、印刷された英字が繋がっていない性質により、分離することができる。しかし、スキャンされた繋がっている文字はOCRシステムへの課題であり、ピッチが変化している場合にその精度を落とす。
本発明に従う実施例を詳細に説明する前に、実施例は主に光学式文字認識(OCR)用に画像を前処理するための方法およびシステムに関する方法の工程および装置の構成要素の組合せに基づいていることに注意しなければならない。画像は複数の欄を含み、各欄はアラビア文字および/または非文字項目を含む。したがって、装置の構成要素および方法の工程は、図面において適する場合は従来の記号によって示され、ここでの記載が当業者にとって容易に明らかとなる詳細でもって開示を曖昧にしないよう、本発明の実施例の理解に関連する具体的詳細のみが示されている。
ものであると考えられ、それに応じて分離される。
要素の高さは除外される。これは、しきい値高さを設定し、頻出高さを特定するのに、しきい値高さより大きい高さを有する構成要素のみを考慮することによって行なわれる。頻出高さは、画像が複数の文字サイズを有する場合には、画像の主要文字サイズを表わす。
語および1つ以上の単語は、行高さおよび/または行間に基づき、プロセッサ1304に
よって分割されてもよい。
1302 メモリ
1304 プロセッサ
402 アラビア文字および/または非文字項目に関連付けられる複数の構成要素を定める
404 複数の構成要素に関連付けられる行高さおよび欄間を計算する
406 複数の構成要素のうちの1つ以上の構成要素をある欄に関連付ける
408 各欄について、第1の組の特性パラメータを計算する
410 第1の組の特性パラメータに基づいて各欄の複数の構成要素を合成して、1つ以上の副単語および1つ以上の単語のうちの少なくとも1つ以上を形成する
Claims (25)
- 光学式文字認識(OCR)用に画像を前処理する方法であって、画像は複数の欄を含み、複数の欄のうちの各欄は文字を含み、前記方法は、
文字に関連付けられる複数の構成要素を定めることを備え、構成要素は一連の接続されたピクセルを含み、前記方法は、さらに、
前記複数の構成要素に関連付けられる行高さおよび欄間を計算することと、
行高さおよび欄間の少なくとも一方に基づき、前記複数の構成要素のうちの少なくとも1つの構成要素を、前記複数の欄のうちのある欄に関連付けることと、
前記複数の欄のうちの各欄について第1の組の特性パラメータを計算することと、
前記第1の組の特性パラメータに基づき、前記複数の欄のうちの各欄の中の複数の構成要素を合成して、少なくとも1つの副単語および少なくとも1つの単語の少なくとも一方を形成することとを備え、前記複数の欄は、第1の領域と第2の領域とを含み、
前記方法は、
最も近い文字構成要素が第1の領域に入る構成要素を当該第1の領域に合成することと、
最も近い文字構成要素が第2の領域に入る構成要素を当該第2の領域に合成することとを備え、前記第2の領域の少なくとも部分は前記第1の領域の少なくとも部分と縦方向に重なり、
各欄に関連付けられる語間を計算することをさらに備え、前記語間を計算することは、
各欄に関連付けられた複数の構成要素の連続する構成要素間の間隔のヒストグラムを作成することと、ヒストグラムから頻出間隔を特定することとを含み、前記頻出間隔は行高さによって定められるしきい値範囲内にあり、さらに、前記頻出間隔に基づき語間を計算することを含み、
各欄に関連付けられる行間を計算することをさらに備え、前記行間を計算することは、
各欄に関連付けられる複数の構成要素の複数の水平射影のヒストグラムを作成することを含み、前記複数の水平射影のうちのある水平射影は、ラスタスキャンの各掃引に対応して複数の構成要素に関連付けられるピクセルの数を示し、さらに、2つの連続する最大水平射影間の平均距離を計算することと、前記平均距離に基づき行間を計算することとを含む、方法。 - 前記画像は、濃淡画像およびカラー画像の少なくとも一方を2進画像に変換することに
よって得られる、請求項1に記載の方法。 - 前記画像は、ごま塩雑音をふるい落とすことによって得られる、請求項1または請求項2に記載の方法。
- 前記画像は、変形ハフ変換を用いて歪みを修正することによって得られ、前記変形ハフ変換はアラビア文字に適合される、請求項1〜請求項3のいずれか1項に記載の方法。
- 前記複数の構成要素を定めることは、
前記画像に対してラスタスキャンを行なうこと、
前記ラスタスキャンの少なくとも1回の掃引に対応する複数の構成要素のうちの少なくとも1つに関連付けられる複数のピクセルを特定すること、および
複数のピクセル間の相互接続に基づき前記複数のピクセルを統合して、少なくとも1組の接続されたピクセルを形成することを含む、請求項1〜請求項4のいずれか1項に記載の方法。 - ピクセルは当該ピクセルの8個の隣接するピクセルの少なくとも1つと相互接続される、請求項5に記載の方法。
- 前記行高さを計算することは、
前記複数の構成要素の各々の高さに対応する高さのヒストグラムを作成すること、
高さのヒストグラムから頻出高さを特定すること、および
頻出高さに基づき行高さを計算することを含む、請求項1〜請求項6のいずれか1項に記載の方法。 - 前記欄間は、行高さに基づき計算される、請求項7に記載の方法。
- 各欄に関連付けられる前記語間を計算することは、
各欄に関連付けられた前記複数の構成要素の連続する構成要素間の間隔のヒストグラムを作成することと、
前記ヒストグラムから頻出間隔を特定することとを含み、前記頻出間隔は前記行高さによって定められるしきい値範囲内にあり、さらに
前記頻出間隔に基づき前記語間を計算することを含む、請求項1〜請求項8のいずれか1項に記載の方法。 - 前記連続する構成要素は、縦方向に重なる構成要素および所定の距離離れている構成要素の少なくとも一方を含み、前記縦方向に重なる構成要素は、縦軸に沿って少なくとも1つの座標を共有する、請求項9に記載の方法。
- 前記複数の構成要素を合成することは、
前記少なくとも1つの副単語および少なくとも1つの単語の少なくとも一方を形成するために、語間に基づき、各欄に関連付けられる連続する構成要素を結合することと、
前記第1の組の特性パラメータに基づき、アラビア文字に関連付けられる複数の構成要素から、非文字項目に関連付けられる複数の構成要素のうちの少なくとも1つの構成要素をふるい落とすこととを含む、請求項9に記載の方法。 - ある欄に関連付けられる少なくとも1つの座標に基づき、複数の欄を分類することをさらに備え、前記少なくとも1つの座標は、画像における欄の位置に関連付けられる、請求項11に記載の方法。
- 前記方法はさらに、各欄に関連付けられる、各副単語および各単語の少なくとも一方に関連付けられる第2の組の特性パラメータを計算することを備え、前記第2の組の特性パラメータは、各副単語および各単語の少なくとも一方に関連付けられる行高さ、各副単語
および各単語の少なくとも一方に関連付けられる語間、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間の1つであり、さらに
第2の組の特性パラメータに基づき少なくとも2つの副単語をグループ化して、少なくとも1つの副単語および少なくとも1つの単語の一方を形成することを備える、請求項1〜請求項12のいずれか1項に記載の方法。 - 前記方法は、前記少なくとも1つの副単語および前記少なくとも1つの単語を、各副単語および各単語の少なくとも一方に関連付けられる行高さ、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間の少なくとも一方に基づき、少なくとも1本の横行に分割することをさらに備える、請求項13に記載の方法。
- 光学式文字認識(OCR)用に画像を前処理するためのシステムであって、画像は複数の欄を含み、複数の欄の各欄は、アラビア文字および非文字項目の少なくとも一方を含み、前記システムは、
メモリと、
前記メモリに結合されるプロセッサとを備え、前記プロセッサは、
複数の欄の中のアラビア文字および非文字項目の少なくとも一方に関連付けられる複数の構成要素を定めるように構成され、構成要素は一連の接続されたピクセルを含み、前記プロセッサは、さらに、
前記複数の構成要素に関連付けられる行高さおよび欄間を計算することと、
行高さおよび欄間に基づき、複数の構成要素のうちの少なくとも1つの構成要素を、複数の欄のうちのある欄に関連付けることと、
前記複数の欄のうちの各欄について第1の組の特性パラメータを計算することと、
第1の組の特性パラメータに基づき、複数の欄のうちの各欄の中の複数の構成要素を合成して、少なくとも1つの副単語および少なくとも1つの単語の少なくとも一方を形成することとを行なうように構成され、前記複数の欄は、第1の領域と第2の領域とを含み、
前記プロセッサは、
最も近い構成要素が第1の領域に入る構成要素を当該第1の領域に合成することと、
最も近い構成要素が第2の領域に入る構成要素を当該第2の領域に合成することとを行なうように構成され、前記第2の領域の少なくとも部分は前記第1の領域の少なくとも部分と縦方向に重なり、
前記第1の組の特性パラメータは、各欄に関連付けられる行高さ、各欄に関連付けられる語間、各欄に関連付けられる行間、各構成要素に対応するピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、または各構成要素のアスペクト比の1つを含み、
各欄に関連付けられる行間を計算するために、前記プロセッサは、
各欄に関連付けられる前記複数の構成要素の中の複数の水平射影のヒストグラムを作成するように構成され、前記複数の水平射影のうちのある水平射影は、ラスタスキャンの各掃引に対応して、前記複数の構成要素に関連付けられるピクセルの数を示し、さらに前記プロセッサは、
2つの連続する最大水平射影間の平均距離を計算し、
前記平均距離に基づき行間を計算するよう構成されている、システム。 - 前記プロセッサは、
濃淡画像およびカラー画像の少なくとも一方を2進画像に変換すること、
ごま塩雑音をふるい落とすこと、および
変形ハフ変換を用いて歪みを修正すること、のうちの少なくとも一つを行なうようさらに構成されている、請求項15に記載のシステム。 - 複数の構成要素を定めるために、前記プロセッサは、
画像に対してラスタスキャンを行ない、
ラスタスキャンの少なくとも1回の掃引に対応して前記複数の構成要素の少なくとも1つの構成要素に関連付けられる複数のピクセルを特定し、
複数のピクセル間の相互接続に基づき、前記複数のピクセルを統合して少なくとも1組の接続されたピクセルを形成するようさらに構成されている、請求項15または請求項16に記載のシステム。 - 前記行高さを計算するために、前記プロセッサは、
前記複数の構成要素の各々の高さに対応する高さのヒストグラムを作成し、
前記高さのヒストグラムから頻出高さを特定し、
前記頻出高さに基づき行高さを計算するよう構成されている、請求項15〜請求項17のいずれか1項に記載のシステム。 - 前記プロセッサは、行高さに基づき欄間を計算するようさらに構成されている、請求項18に記載のシステム。
- 各欄に関連付けられる語間を計算するために、前記プロセッサは、
各欄に関連付けられる前記複数の構成要素のうちの連続する構成要素間の間隔のヒストグラムを作成し、
前記ヒストグラムから頻出間隔を特定するように構成され、前記頻出間隔は行高さによって定められるしきい値範囲内にあり、前記プロセッサは、
前記頻出間隔に基づき語間を計算するようさらに構成されている、請求項15〜請求項19のいずれか1項に記載のシステム。 - 前記プロセッサは、
語間に基づき各欄に関連付けられる連続する構成要素を結合して、少なくとも副単語および少なくとも1つの単語の少なくとも一方を形成し、
前記第1の組の特性パラメータに基づき、アラビア文字に関連付けられる複数の構成要素から非文字項目に関連付けられる前記複数の構成要素のうちの少なくとも1つの構成要素をふるい落とすようさらに構成されている、請求項20に記載のシステム。 - 前記プロセッサは、ある欄に関連付けられる少なくとも1つの座標に基づき、複数の欄を分類するようさらに構成されており、前記少なくとも一つの座標は画像における欄の位置に関連付けられる、請求項21に記載のシステム。
- 前記プロセッサは、
各欄に関連付けられる、各副単語および各単語の少なくとも一方に関連付けられる第2の組の特性パラメータを計算するようにさらに構成され、第2の組の特性パラメータは、各副単語および各単語の少なくとも一方に関連付けられる行高さ、各副単語および各単語の少なくとも一方に関連付けられる語間、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間のうちの1つであり、さらに前記プロセッサは、
第2の組の特性パラメータに基づき少なくとも2つの副単語をグループ化して、少なくとも1つの副単語および少なくとも1つの単語の一方を形成するようさらに構成されている、請求項15〜請求項22のいずれか1項に記載のシステム。 - 前記プロセッサは、少なくとも1つの副単語および少なくとも1つの単語を、各副単語および各単語の少なくとも一方に関連付けられる行高さ、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間の少なくとも一方に基づき、少なくとも1つの横行に分割するようさらに構成されている、請求項23に記載のシステム。
- コンピュータによって実行されるプログラムであって、請求項1〜請求項14のいずれか1項に記載の方法を前記コンピュータに実行させるための、プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/467,873 US8548246B2 (en) | 2010-06-12 | 2012-05-09 | Method and system for preprocessing an image for optical character recognition |
US13/467,873 | 2012-05-09 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2013235574A JP2013235574A (ja) | 2013-11-21 |
JP2013235574A5 JP2013235574A5 (ja) | 2016-06-30 |
JP6082306B2 true JP6082306B2 (ja) | 2017-02-15 |
Family
ID=48184014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013084694A Expired - Fee Related JP6082306B2 (ja) | 2012-05-09 | 2013-04-15 | 光学式文字認識用に画像を前処理するための方法およびシステム |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP2662802A1 (ja) |
JP (1) | JP6082306B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5848184A (en) * | 1993-03-15 | 1998-12-08 | Unisys Corporation | Document page analyzer and method |
US7724957B2 (en) * | 2006-07-31 | 2010-05-25 | Microsoft Corporation | Two tiered text recognition |
WO2008138356A2 (en) * | 2007-05-15 | 2008-11-20 | The Engineering Company For The Development Of Computer Systems ; (Rdi) | System and method for arabic omni font written optica character recognition |
US8150160B2 (en) * | 2009-03-26 | 2012-04-03 | King Fahd University Of Petroleum & Minerals | Automatic Arabic text image optical character recognition method |
US8111911B2 (en) * | 2009-04-27 | 2012-02-07 | King Abdulaziz City For Science And Technology | System and methods for arabic text recognition based on effective arabic text feature extraction |
US8218875B2 (en) * | 2010-06-12 | 2012-07-10 | Hussein Khalid Al-Omari | Method and system for preprocessing an image for optical character recognition |
-
2013
- 2013-04-09 EP EP13162939.6A patent/EP2662802A1/en not_active Withdrawn
- 2013-04-15 JP JP2013084694A patent/JP6082306B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP2662802A1 (en) | 2013-11-13 |
JP2013235574A (ja) | 2013-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5355625B2 (ja) | 光学式文字認識用に画像を前処理するための方法およびシステム | |
JP5355621B2 (ja) | 光学式文字認識用に画像を前処理するための方法およびシステム | |
KR101452562B1 (ko) | 비디오 이미지에서 텍스트를 검출하는 방법 | |
JP5492205B2 (ja) | 印刷媒体ページの記事へのセグメント化 | |
JP4821869B2 (ja) | 文字認識装置、画像読取装置、およびプログラム | |
JP4189506B2 (ja) | 画像処理のための装置、方法及び記録媒体 | |
JPH05233873A (ja) | 領域分割方法 | |
WO2011142977A2 (en) | Segmentation of a word bitmap into individual characters or glyphs during an ocr process | |
US6532302B2 (en) | Multiple size reductions for image segmentation | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN110516673B (zh) | 基于连通分量和回归式字切分的彝文古籍字符检测方法 | |
CN105260428A (zh) | 图片处理方法和装置 | |
US20100054587A1 (en) | Image processing apparatus and image processing method | |
CN102737240A (zh) | 分析数字文档图像的方法 | |
Shafait et al. | A simple and effective approach for border noise removal from document images | |
KR101571681B1 (ko) | 동질 영역을 이용한 문서 구조의 분석 방법 | |
CN107798355B (zh) | 一种基于文档图像版式自动分析与判断的方法 | |
JP6082306B2 (ja) | 光学式文字認識用に画像を前処理するための方法およびシステム | |
Kshetry | Image preprocessing and modified adaptive thresholding for improving OCR | |
Nor et al. | Image segmentation and text extraction: application to the extraction of textual information in scene images | |
JP4194309B2 (ja) | 文書方向推定方法および文書方向推定プログラム | |
CN107545261A (zh) | 文本检测的方法及装置 | |
Chitrakala et al. | An efficient character segmentation based on VNP algorithm | |
JP7370574B2 (ja) | コマ抽出方法及びプログラム | |
JPH09114923A (ja) | 領域分割装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160512 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160512 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170120 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6082306 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |