JP5355625B2 - 光学式文字認識用に画像を前処理するための方法およびシステム - Google Patents

光学式文字認識用に画像を前処理するための方法およびシステム Download PDF

Info

Publication number
JP5355625B2
JP5355625B2 JP2011129862A JP2011129862A JP5355625B2 JP 5355625 B2 JP5355625 B2 JP 5355625B2 JP 2011129862 A JP2011129862 A JP 2011129862A JP 2011129862 A JP2011129862 A JP 2011129862A JP 5355625 B2 JP5355625 B2 JP 5355625B2
Authority
JP
Japan
Prior art keywords
components
height
column
word
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011129862A
Other languages
English (en)
Other versions
JP2012003756A (ja
JP2012003756A5 (ja
Inventor
フセイン・ハリド・アル−オマリ
モハメド・スレイマン・ホルシード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
King Abdulaziz City for Science and Technology KACST
Original Assignee
King Abdulaziz City for Science and Technology KACST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by King Abdulaziz City for Science and Technology KACST filed Critical King Abdulaziz City for Science and Technology KACST
Publication of JP2012003756A publication Critical patent/JP2012003756A/ja
Publication of JP2012003756A5 publication Critical patent/JP2012003756A5/ja
Application granted granted Critical
Publication of JP5355625B2 publication Critical patent/JP5355625B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Description

発明の分野
本発明は一般に光学式文字認識(OCR:Optical Character Recognition)用に画像を前処理することに関し、画像はアラビア文字および/または非文字項目を含む。より具体的には、本発明は複数の欄を含む画像の前処理に関し、各欄はアラビア文字および/または非文字項目を含む。
発明の背景
スキャンされた文章を編集可能および検索可能な文章に自動的に変換するには、正確かつ安定した光学式文字認識(OCR)システムを使用する必要がある。英語の文章に対するOCRシステムは、さまざまな理由により、高いレベルの精度に達している。その主な理由の1つは、OCRシステムへの入力として、英語の文章を分離された文字に前処理する機能にある。英語の文章の各文字は、印刷された英語の文章が繋がっていない性質により、分離することができる。しかし、スキャンされた繋がっている文字はOCRシステムへの課題であり、ピッチが変化している場合にその精度を落とす。
アラビア語のスキャンされた文章は一連の繋がっている文字を含むので、文字に分割するのが難しい。アラビア文字での別の問題は、文字や後に続く母音の発音を示すために、多くの点やアクセント記号が文字の上下に入っていることである。これにより、英語向けに設計された前処理技術が正確にアラビア文字を処理することに用いられるのを妨げることとなる。
アラビア文字の別の特徴は、アラビア語の文章は母音を示すアクセント記号を付けてもまたは付けなくても書くことができる点にある。さらに、英語の文章は大文字または小文字の表示を有するが、多くのアラビア語の文字は、その位置が単語の初め、単語の間、もしくは単語の終わりにあるのか、または単独の単語としてあるのかに応じて、3つまたは4つの形を含む。したがって、アクセント記号および単語内での文字の位置により、アラビア文字にはさまざまな組合せが可能であるので、現在のOCR前処理システムでアラビア文字を前処理することは不的確となる。
さらに、アラビア文字および非文字項目の欄を複数有する画像では、各欄に関連付けられるアラビア文字はフォントのサイズ、スタイル、色などが変わり得る。フォントサイズが変わることにより、隣接する欄は行が揃わず、正確に分割できないかもしれない。
したがって、アラビア文字および/または非文字項目を含む複数の欄を有する画像を前処理するための方法およびシステムが必要である。
添付の図面であって、同じ参照符号は、それぞれの図面において同じまたは機能的に類似した要素を指し、以下の詳細な説明とともに明細書の中に組込まれてその一部をなす図面は、さまざまな実施例を示し、かつ本発明に従うさまざまな原理および利点を説明する役割を果たす。
本発明のさまざまな実施例に従い、アラビア文字および/または非文字項目を有する複数の欄を含む画像の一例を示す図である。 本発明の一実施例に従い、画像に関連付けられる歪みを修正する際の画像の一例を示す図である。 本発明の一実施例に従い、2進画像に変換された画像の一例を示す図である。 本発明の一実施例に従い、光学式文字認識のために画像を前処理する方法のフロー図である。 本発明の一実施例に従い、複数の構成要素を定める方法のフロー図である。 本発明の一実施例に従い、行の高さを計算する方法のフロー図である。 本発明の一実施例に従い、複数の欄のうちのある欄に関連付けられる1つ以上の構成要素を有する画像を示す図である。 本発明の一実施例に従い、語間を計算する方法のフロー図である。 本発明の一実施例に従い、行間を計算する方法のフロー図である。 本発明の一実施例に従い、1つ以上の副単語および/または1つ以上の単語を形成するために、複数の構成要素を合成する方法を示す図である。 本発明の一実施例に従い、非文字項目が取除かれた画像の一例を示す図である。 本発明の一実施例に従い、行高さおよび行間に応じて、1つ以上の単語および1つ以上の副単語を1つ以上の横行に分割する一例を示す図である。 本発明のさまざまな実施例に従い、アラビア文字および/または非文字項目を含む複数の欄を含む画像を前処理するためのシステムのブロック図である。
図面の要素は簡潔におよび明瞭にするために示されており、必ずしも尺度通りに描かれていないことは、当業者なら理解するであろう。たとえば、図面の一部の要素の寸法は、本発明の実施例をわかりやすくするために、他の要素に対して拡大されて示されているかもしれない。
発明の詳細な説明
本発明に従う実施例を詳細に説明する前に、実施例は主に光学式文字認識(OCR)用にアラビア文字および非文字項目を含む画像を前処理するための方法およびシステムに関する方法の工程および装置の構成要素の組合せに基づいていることに注意しなければならない。画像は複数の欄を含み、各欄はアラビア文字および/または非文字項目を含む。したがって、装置の構成要素および方法の工程は、図面において適する場合は従来の記号によって示され、ここでの記載が当業者にとって容易に明らかとなる詳細でもって開示を曖昧にしないよう、本発明の実施例の理解に関連する具体的詳細のみが示されている。
本明細書では、第1および第2、上および下などのような相関的用語は、あるエンティティまたは動作を別のエンティティまたは動作と区別するためにのみ用いられており、これらのエンティティまたは動作間において実際にこのような関係または順序を必ずしも必要としないまたは意味しない。「含む」、「有する」またはその他のこのような用語の変形は、限定されない含有を網羅するために意図されており、一連の要素を含むプロセス、方法、物品または装置は、これらの要素のみを含むのではなく、プロセス、方法、物品もしくは装置に明記されていない要素、または固有の他の要素をも含み得る。「…を含む」の用語が付いている要素は、それ以外の制限がなければ、その要素を含むプロセス、方法、物品または装置において付加的同一要素の存在を排除するものではない。
ここに記載される発明の実施例は、OCR用に画像を前処理する方法の機能の一部、大部分、またはすべてを実施するために、特定の非トランザクション−クライアント回路と併せて、1つ以上の従来のトランザクション−クライアントと、その1つ以上のトランザクション−クライアントを制御する固有の記憶されているプログラム命令とを含み得ることは理解されるであろう。画像は複数の欄を含み、各欄はアラビア文字および/または非文字項目を含む。非トランザクション−クライアント回路は、無線受信装置、無線送信装置、信号ドライバ、クロック回路、電源回路、およびユーザ入力装置を含むことができるが、これらに限定されない。したがって、これらの機能は、OCR用に、アラビア文字および非文字項目を含む画像を前処理する方法の工程として解釈することができる。代替的に、機能の一部またはすべては、プログラム命令が記憶されていない状態マシンによって、または1つ以上の特定用途向け集積回路(ASIC)において実施することができ、各機能または特定の機能の一部の組合せは、カスタム論理として実施される。これら2つのアプローチを組合せて用いることもできる。これらの機能の方法および手段がここに記載される。さらに、当業者なら、ここに開示されている概念および原理により、たとえば利用可能な時間、現行の技術および経済的な点を考慮して動機付けられる著しい努力および多くの設計的選択事項があったとしても、最小限の実験でもってこのようなソフトウェア命令、プログラムおよびICを容易に生成できると考えられる。
一般に、さまざまな実施例に従い、本発明は、OCR用に画像を前処理するための方法およびシステムを提供する。画像は複数の欄を含み、各欄はアラビア文字および/または非文字項目を含む。本方法は、複数の欄の中のアラビア文字および/または非文字項目に関連付けられる複数の構成要素を定めることを含む。ここで、構成要素は1組の繋がっているピクセルを含む。つぎに、複数の構成要素に関連付けられる行高さおよび欄間が計算される。その後、複数の構成要素のうちの1つ以上の構成要素は、行の高さおよび/または欄間に基づき、複数の欄のうちのある欄に関連付けられる。さらに、複数の欄のうちの各欄に関連付けられる第1の組の特性パラメータが計算される。各欄に関連付けられる複数の構成要素は、第1の組の特性パラメータに基づいて合成されて、1つ以上の副単語および/または1つ以上の単語を形成する。
図1は、本発明のさまざまな実施例に従い、複数の欄を含む画像の一例を示し、複数の欄の各欄はアラビア文字および/または非文字項目を含む。画像は濃淡画像またはカラー画像のいずれかであり得る。さらに、画像はごま塩雑音を含み、歪んでいるかもしれない。OCR用に画像を前処理する前に、画像に関連付けられるごま塩雑音および歪みは取除かれる。さらに、画像は濃淡画像またはカラー画像から2進画像に変換される。
画像に関連付けられる歪みは、画像に関連付けられる基線を定めて、基線の配列に基づき画像を正しい位置に置くことによって修正される。基線の配列は、変形ハフ変換によって定められ、横並び突出部は複数の方向で定められる。横並び突出部は、画像の前景に関連付けられるピクセルの数を示す。アラビア語の近似単語長さに対応する妥当なランレングスが考慮されて、最も高いピクセル密度を有する方向が決定される。最も高いピクセル密度の方向が、基線の配列と一致すると考えられる。その後、画像は基線の配列に基づき正しい位置に置かれる。図2は、画像に関連付けられる歪みを修正する際の画像の一例を示す。
歪みを修正する際、画像に関連付けられるごま塩雑音が取除かれる。ごま塩雑音は、任意に起こる白および黒ピクセルを表わし、暗い背景上の白い点として、および明るい背景上の黒い点を含み得る。一実施例において、ごま塩雑音はメディアンフィルタおよび/または多数フィルタを用いることによって除去することができる。当業者にとって、ごま塩雑音は当該技術分野におけるノイズ除去技術を用いることによっても除去できることは明らかであろう。
その後、画像は濃淡画像またはカラー画像から2進画像に変換される。たとえば画像が濃淡画像の場合、0から255の各ピクセル値を0のピクセル値または1のピクセル値に変換することにより、画像は2進画像に変換される。ある実施例において、ピクセル値0は背景値を表わし、ピクセル値1は前景値を表わす。代替的に、ピクセル値0は前景値を表わし、ピクセル値1は背景値を表わしてもよい。ピクセル値0は白ピクセルに関連付けられ、ピクセル値1は黒ピクセルに関連付けられる。
ある画素のピクセル値を変換する前に、濃淡画像にしきい値が定められ、しきい値より上のピクセル値はピクセル値1に変換され、しきい値より下のピクセル値はピクセル値0に変換される。一実施例において、しきい値は濃淡画像のピクセル値のヒストグラムを作成することによって計算される。ヒストグラムは、各ピクセル値の頻度を表わす。このヒストグラムを作成する際、連続するピクセル値の頻度を加算して、その連続するピクセル値を、連続するピクセル値の結合された頻度を有する単一のピクセル値に置き換えることにより、平滑化されたヒストグラムを生成することができる。考慮される連続するピクセル値の数は、予め定めることができる。後で、平滑化されたヒストグラムの2つの最も顕著なピークが選択され、この2つの顕著なピーク間の最小の谷が定められる。最も低い谷の中で最も低い頻度を有するピクセル値が、しきい値として選択される。図3は例示的に2進に変換された画像を示す。
別の例であって、画像がカラー画像の場合、カラー画像はまず濃淡画像に変換され、次に上記のように2進画像に変換される。一実施例において、カラー画像を濃淡画像に変換するために、全国テレビジョン方式委員会(NTSC)のデフォルト値を用いることができる。
画像を2進画像に変換する際、ピクセル値0およびピクセル値1の発生数が数えられる。より低いカウントの2進値は前景値であると考えられ、より高いカウントを有する2進値は背景値であると考えられる。
図4を参照すると、本発明の一実施例に従い、光学式文字認識用に画像を前処理する方法のフロー図が示される。画像は複数の欄を含み、各欄はアラビア文字および/または非文字項目を含む。前記のように、画像の2進画像への変換、ごま塩雑音の除去、および画像に関連付けられる歪みの修正のいずれか1つ以上を行なうことにより、画像が得られる。画像を前処理するために、画像の中のアラビア文字および/または非文字項目に関連付けられる複数の構成要素がステップ402で決定される。ここで、構成要素は1組の繋がっているピクセルを含む。構成要素は、文字が他の文字に繋がらない場合、アラビア文字の1文字を表わす。したがって、複数の文字が他の文字に繋がる場合、繋がっている文字は1つの構成要素であると考えられる。複数の構成要素を決定する方法は、図5と併せてさらに説明される。
複数の構成要素を決定する際、複数の構成要素に関連付けられる行高さおよび欄間がステップ404で計算される。複数の構成要素に関連付けられる行の高さは、複数の構成要素の各構成要素の高さに対応する高さのヒストグラムを作成することによって計算される。行高さおよび/または欄間は、画像の複数の構成要素のすべての構成要素の平均値に基づき計算される。たとえば、行高さは、複数の構成要素のすべての構成要素に対して平均化された頻出高さである。行高さを計算する方法は、図6と併せてさらに詳しく説明される。欄間は、行高さの関数として動的に計算される。ステップ406において、複数の構成要素のうちの1つ以上の構成要素は、図7で例示的に示されるように、行高さおよび/または欄間に基づき、複数の欄のうちのある欄に関連付けられる。すなわち、複数の構成要素は、図7の702、704および706で例示的に示されるように、複数の構成要素に関連付けられる行高さおよび欄間に基づき、複数の欄に分離される。たとえば、2つの横方向に連続する構成要素間の間隔が、欄間よりも小さければ、その構成要素は同じ欄のものであると考えられ、それに応じて分離される。
複数の構成要素がある欄に関連付けられると、ステップ408において、第1の組の特性パラメータが各欄について計算される。ある実施例において、第1の組の特性パラメータは、各欄に関連付けられる行高さ、各欄に関連付けられる語間、各欄に関連付けられる行間、各構成要素のピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比を含む。行高さ、語間、および行間を計算する方法は、それぞれ図6、図8、および図9と併せて説明される。
その後、ステップ410において、各欄に関連付けられた複数の構成要素は、第1の組の特性パラメータに基づき合成されて、1つ以上の副単語および/または1つ以上の単語を形成する。複数の構成要素を合成する方法は、図10と併せてさらに説明される。
図5は、本発明の一実施例に従い、複数の構成要素を定める方法のフロー図を示す。ステップ502において、ラスタスキャンが画像に対して行なわれる。ラスタスキャンでは複数の掃引を行ない、複数の構成要素に対応する各ピクセル列に対して1回掃引される。ラスタスキャンの1回以上の掃引の実行により、画像の前景に関連付けられる1つ以上のピクセルがステップ504において特定される。画像の前景は、複数の構成要素に対応する。その後、ステップ506において、複数のピクセル間の相互接続に基づき、その複数のピクセルは統合されて、1つ以上の組の接続ピクセルを形成する。一実施例において、複数のピクセルは、8個の隣接ピクセルと1つ以上繋がっている場合に相互接続していると考えられる。こうして、アラビア文字の連続する文字は、連続する文字に関連付けられる1つ以上のピクセルが互いに相互接続されている場合に、単一の構成要素を形成する。
たとえば、ラスタスキャンの現行の掃引で特定されたピクセルは、当該ピクセルが前回の掃引で特定されたピクセルと繋がる場合には、そのピクセルと統合される。現行の掃引で特定されたピクセルが、前回の掃引で特定された複数のピクセルと繋がる場合、当該ピクセルはその複数のピクセルと統合される。別の例では、現行の掃引で特定された複数のピクセルが繋がっている場合、その複数のピクセルは統合される。同様に、ラスタスキャンの後続の掃引で特定される1つ以上のピクセルは、その1つ以上のピクセルが互いに繋がる場合にも統合される。統合されたピクセルは、1組の繋がっているピクセルを形成し、複数の構成要素のうちのある構成要素に対応付けられる。
接続するピクセルの組を決定する際に、各構成要素のピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比のいずれか1つ以上は、各構成要素に関連付けられる接続ピクセルをトラッキングすることにより計算される。
図6を参照すると、本発明の一実施例に従い、行の高さを計算する方法のフロー図が示される。本方法はステップ602において、複数の構成要素の各々の高さに対応する高さのヒストグラムを作成することを含む。ヒストグラムは、複数の構成要素の各々の高さの頻出を表わす。ヒストグラムを作成する際、連続する高さ値を加算して、その連続する高さ値を、連続する高さ値の結合された頻度を有する単一の高さ値と置き換えることにより、平滑化されたヒストグラムを生成することができる。考慮される連続する高さ値の数は予め定められてもよい。たとえば、連続する高さ値の数が3個であると定められたのなら、高さが20ピクセルの頻度は、高さが19ピクセルの頻度プラス高さが20ピクセルの頻度プラス高さが21ピクセルの頻度となる。
平滑化されたヒストグラムが得られると、頻出高さがステップ604で特定される。頻出高さを特定するために、アラビア文字に対応するアクセント記号や句読点の小さな構成要素の高さは除外される。これは、しきい値高さを設定し、頻出高さを特定するのに、しきい値高さより大きい高さを有する構成要素のみを考慮することによって行なわれる。頻出高さは、画像が複数の文字サイズを有する場合には、画像の主要文字サイズを表わす。
頻出高さを特定する際、行高さはステップ606において頻出高さに基づき計算される。行高さは、頻出高さおよび乗率の積として計算される。乗率は頻出高さに依存する。行高さは、1つ以上の単語および/または1つ以上の副単語を、アラビア文字の1つ以上の横行に分割するのに用いることができる。さらに、行高さは、図8と併せて説明したように、語間を計算するために用いられる。
図8は、本発明の一実施例に従い、語間を計算する方法のフロー図を示す。本方法は、ステップ802において、複数の構成要素のうちの連続する構成要素間の間隔のヒストグラムを作成することを含む。一実施例において、縦方向に重なり、かつ他の構成要素によって分けられていない2つの構成要素はすべて連続する構成要素であると考えられる。2つの構成要素は、縦軸に沿って1つ以上の共通の座標を共有する場合、縦方向に重なる。すなわち、連続する構成要素は、アラビア文字1行に属する。代替的に、2つの構成要素が縦方向に重ならない場合、2つの構成要素は予め定められた距離で分けられている場合に、連続する構成要素であると考えられる。
連続する構成要素間の間隔のヒストグラムを作成する際、平滑化されたヒストグラムは、連続する間隔値を加算することにより生成できる。連続する間隔値は、連続する間隔値の結合させられた頻度を有する単一の間隔値と置き換えられる。たとえば、10ピクセルの間隔値の頻度は、9ピクセルの間隔値の頻度と、10ピクセルの間隔値の頻度と、11ピクセルの間隔値の頻度との合計と置き換えられる。
ステップ804において、平滑化されたヒストグラムから頻出間隔が特定される。頻出間隔は、行高さによって定められるしきい値範囲内から特定される。たとえば、5分の1の行高さと半分の行高さとの間にある頻出間隔値を対象とすることができる。ステップ806において、語間は頻出間隔に基づき計算される。語間は、アラビア文字の2つの連続するワードの間の間隔である。
図9は、本発明の一実施例に従い、行間を計算する方法のフロー図を示す。ステップ902において、前景に対応する複数の構成要素の複数の横並び突出部のヒストグラムが作成される。横並び突出部は、ラスタスキャンの掃引に対応する複数の構成要素に関連付けられるピクセルの数を示す。たとえば、ラスタスキャンの掃引が、複数の構成要素に関連付けられる15個のピクセルを特定すると、その掃引に対するピクセル列の横並び突出部は15である。
その後、ステップ904において、2つの連続する最大横並び突出部間の平均距離が計算される。最大横並び突出部は、最も高い密度の領域を表わす。その後、ステップ906において、行間は、平均距離に基づき計算される。
第1の組の特性パラメータを計算する際、複数の構成要素は合成されて、図10と併せて説明されるように、1つ以上の副単語および/または1つ以上の単語を形成する。
図10は、本発明の一実施例に従い、1つ以上の副単語および/または1つ以上の単語を形成するために、複数の構成要素を合成する方法を示す。ステップ1002において、連続する構成要素間の間隔が、語間の係数未満である場合に結合される。語間に加えて、連続する構成要素の座標も、連続する構成要素が結合される場合に定めることができる。連続する構成要素の語間および/または座標に基づいて連続する構成要素を結合することは、アラビア文字のある単語または副単語に対応する異なる構成要素の結合を引起す。
たとえば、アクセント記号に関連付けられる構成要素は、構成要素の語間および位置に基づき、属する単語と結合される。一つの単語は1つ以上の構成要素を含み得る。構成要素の位置は、構成要素の座標によって定められる。ある構成要素に関連付けられる第1の組の特性パラメータが、アラビア文字の句読点またはアクセント記号と類似しており、かつアラビア語の文字に対応する構成要素に対して適切に隣接している場合、その構成要素は文字とともにグループ化されて単語または副単語を形成する。さもなければ、構成要素はノイズであると考えられ、除去される。
アラビア文字に関連付けられる構成要素を結合することに加えて、非文字項目に関連付けられる構成要素も、語間に基づき結合される。非文字項目に関連付けられる構成要素は結合されて、1つ以上のより大きい構成要素を形成する。
ステップ1004において、非文字項目に関連付けられる構成要素は、第1の組の特性パラメータに基づき、アラビア文字に関連付けられる構成要素からふるい落とされる。たとえば、大きい高さ、大きい幅、および低い密度を有する構成要素は取除かれる。これらの構成要素は、ある欄の周りまたは他の非文字項目の周りの枠またはボーダーに対応し得る。同様に、大きい高さ、小さい幅、および高い密度を有する構成要素は縦線として認識され、除去される。横線は小さい高さ、大きい幅、および高い密度を有するものとして認識される。
同様に、他の非文字項目も1つ以上のフィルタに基づき除去される。この1つ以上のフィルタは、画像の共通に起こる構成要素の長さ、構成要素の幅、構成要素のアスペクト比、構成要素の密度、および構成要素の合計数を用いて、非文字項目をアラビア文字からふるい落とす。2つ以上の欄にわたる非文字項目も、非文字項目に関連付けられる構成要素の寸法を、アラビア文字に関連付けられる構成要素の最もよく起こる寸法と比較することによって除去される。図11は、非文字項目が除去された画像を例示的に示す。
非文字項目をアラビア文字からふるい落とした後、1つ以上の単語および1つ以上の副単語の第2の組の特性パラメータが計算される。第2の組の特性パラメータは、各副単語および各単語の少なくとも一方に関連付けられる行高さ、各副単語および各単語の少なくとも一方に関連付けられる語間、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間を含む。第2の組の特性パラメータは、1つ以上の副単語および/または1つ以上の単語を形成するために、複数の構成要素を結合するプロセスの精度をさらに上げるために、計算される。第2の組の特性パラメータに基づき、1つ以上の副単語をグループ化して、1つ以上の副単語および/または1つ以上の単語を形成する。
その後、縦方向に重なり、かつ複数の欄のうちのある欄に関連付けられる1つ以上の副単語および1つ以上の単語は、分割されてアラビア文字の横行を形成する。一実施例において、1つ以上の副単語および1つ以上の単語は、行高さおよび/または行間に基づいても分割されてもよい。たとえば、互いに重なる縦方向の構成要素を1つ以上有するので2本の横行が一緒に分割されると、その2本の横行は、行高さおよび/または行間に基づき分けられる。図12は行高さおよび行間に依存して、1つ以上の単語および1つ以上の副単語を1つ以上の横行に分割する例を示す。
こうして、OCR用に画像を前処理する方法が開示される。画像は複数の欄を含み、各欄はアラビア文字および/または非文字項目を有する。この方法は、アラビア文字および非文字項目に関連付けられる複数の構成要素を定めることを含む。複数の構成要素のうちのある構成要素は、アラビア語の1つ以上の文字または1つ以上の非文字項目を表わす。複数の文字が相互接続されるのなら、構成要素は2つ以上の文字を表わす。
複数の構成要素を決定する際、複数の構成要素に関連付けられる行高さおよび欄間が計算される。行高さおよび欄間は、すべての欄にわたるすべての構成要素の平均値を表わす。複数の構成要素は、平均行高さおよび平均欄間に基づき、1つ以上の欄に分離される。後で、各欄の複数の構成要素に関連付けられる第1の組の特性パラメータが計算される。各欄に関連付けられる複数の構成要素は、後で第1の組の特性パラメータに基づき合成されて、1つ以上の副単語および/または1つ以上の単語を形成する。
ここに開示されている方法は、繋がっている文字を含み、かつ複数の欄を含むアラビア文字を正確に前処理して分割することを可能にする。本方法は、構成要素がノイズであるのかアラビア文字の一部であるのかを判断する場合に、アラビア文字に関連付けられるアクセント記号および句読点を考慮する。さらに、本方法は画像が複数の欄を含むか否かを特定し、それらを分離する。
図13は本発明の一実施例に従い、光学式文字認識(OCR)のために、アラビア文字および/または非文字項目を含む画像を前処理するためのシステム1300のブロック図を示す。画像は複数の欄を含み、各欄はアラビア文字および/または非文字項目を含む。画像は濃淡画像およびカラー画像のどちらかであり得る。さらに、画像はごま塩雑音を含み、歪んでいるかもしれない。図13に示されるように、システム1300は、メモリ1302と、メモリ1302に結合されるプロセッサ1304とを含む。OCR用に画像を前処理する前に、プロセッサ1304は、図1と併せて説明したように、変形ハフ変換を用いて画像に関連付けられる歪みを除去する。その後、プロセッサ1304はごま塩雑音を除去し、濃淡画像またはカラー画像を2進画像に変換する。一実施例において、ごま塩雑音は、メディアンフィルタおよび/または多数フィルタを用いて除去され得る。ここでは、画像を前処理するために、プロセッサ1304はアラビア文字および/または非文字項目に関連付けられる複数の構成要素を定める。構成要素は接続されたピクセルの組を含む。構成要素は、文字が他の文字と繋がらない場合、アラビア語文字の1つの文字を表わす。したがって、複数の文字が他の文字と繋がる場合、繋がっている文字は1つの構成要素であると考えられる。
一実施例において、複数の構成要素を定めるために、プロセッサ1304は画像に対してラスタスキャンを行なう。ラスタスキャンでは複数の掃引を行ない、複数の構成要素に対応する各ピクセル列に対して1回掃引される。ラスタスキャンの1回以上の掃引の実行により、画像の前景に関連付けられる1つ以上のピクセルが特定される。画像の前景は、複数の構成要素に対応する。その後、プロセッサ1304は、複数のピクセル間の相互接続に基づき、複数のピクセルを統合して、1つ以上の組の接続ピクセルを形成する。統合されたピクセルは1組の接続ピクセルを形成し、複数の構成要素のうちのある構成要素に関連付けられる。
こうしてプロセッサ1304によって定められた複数の構成要素は、メモリ1402に記憶することができ、プロセッサ1304によって用いられて、複数の構成要素に関連付けられる行高さおよび欄間が計算される。行高さおよび欄間を用いて、複数の構成要素のうちの1つ以上の構成要素を、複数の欄のある欄に関連付ける。すなわち、複数の構成要素が行高さおよび/または欄間を満たすのなら、複数の構成要素はプロセッサ1304によって複数の欄に分離される。たとえば、2つの縦にまたは横に連続する構成要素間の間隔が欄間よりも小さければ、それらの構成要素間は同じ欄のもであると考えられて、分離される。その後、複数の構成要素に関連付けられる第1の組の特性パラメータが計算される。ある実施例において、第1の組の特性パラメータは、各欄に関連付けられる行高さ、各欄に関連付けられる語間、各欄に関連付けられる行間、各構成要素のピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比を含む。その後、プロセッサ1304は第1の組の特性パラメータに基づき、複数の構成要素を合成する。合成された構成要素は、1つ以上の副単語および/または1つ以上の単語を形成する。
一実施例において、プロセッサ1304は、複数の構成要素の各々の高さに対応する高さのヒストグラムを作成することによって行高さを計算する。ヒストグラムから頻出高さがプロセッサ1304によって特定される。その後、プロセッサ1304は頻出高さおよび乗率の積として、行高さを計算する。乗率は頻出高さに依存する。行高さを用いて、1つ以上の単語および/または1つ以上の副単語を、アラビア文字の1つ以上の横行に分割することができる。さらに、プロセッサ1304は行高さを用いて語間を計算する。
次に、プロセッサ1304は、複数の構成要素の連続する構成要素間の間隔のヒストグラムを作成することにより、語間を計算する。プロセッサ1304は、ヒストグラムから頻出間隔を特定する。頻出間隔はしきい値範囲内から特定され、そのしきい値範囲は行高さに基づいている。その後、語間はプロセッサ1304によって頻出間隔に基づき計算される。語間は、アラビア文字の2つの連続するワードの間の間隔である。
プロセッサ1304は、複数の構成要素の複数の横並び突出部のヒストグラムを作成することによって、行間を計算するよう構成されている。横並び突出部は、ラスタスキャンの各掃引に対応する複数の構成要素に関連付けられるピクセルの数を示す。次に、2つの連続する横並び突出部間の平均距離は、プロセッサ1304によって計算される。その後、プロセッサ1304は平均距離に基づき、行間を計算する。
さらに、プロセッサ1304は、各構成要素のピクセル数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比を定める。
前述のように、プロセッサ1304は、第1の組の特性パラメータに基づき、各欄に関連付けられる複数の構成要素を合成する。これを行なうため、プロセッサ1304は、構成要素間の間隔が、その欄に関連付けられる語間の係数よりも小さい場合に、連続する構成要素を結合する。各欄に関連付けられる語間に加えて、連続構成要素が結合されるのなら、連続する構成要素の座標も定めることができる。さらに、プロセッサ1304は、図10と併せて説明されたように、第1の組の特性パラメータに基づき、アラビア文字に関連付けられる構成要素から、非文字項目に関連付けられる構成要素をふるい落とす。非文字項目をふるい落とすことは、1つ以上の副単語および/または1つ以上の単語をもたらす。
プロセッサ1304は、1つ以上の副単語および/または1つ以上の単語に関連付けられる第2の組の特性パラメータを計算するよう構成されている。第2の組の特性パラメータは、各副単語および/または各単語に関連付けられる行高さ、各副単語および/または各単語に関連付けられる語間、ならびに各副単語および/または各単語に関連付けられる行間を含む。次に、2つ以上の副単語は、第2の組の特性パラメータに基づきプロセッサ1304によってグループ化されて、1つ以上の副単語および/または1つ以上の単語を形成する。すなわち、2つ以上の副単語は第2の組の特性パラメータに基づきグループ化されて、完全な単語またはより大きい副単語を形成する。
1つ以上の副単語および1つ以上の単語を形成する際、プロセッサ1304は、縦方向に重なりかつ複数の欄のうちのある欄に関連付けられる1つ以上の副単語および1つ以上の単語を分割して、アラビア文字の横行を形成する。一実施例において、1つ以上の副単語および1つ以上の単語は、行高さおよび/または行間に基づき、プロセッサ1304によって分割されてもよい。
本発明の多様な実施例は、OCR用に画像を前処理するための方法およびシステムを提供する。画像は複数の欄を含み、各欄はアラビア文字および/または非文字項目を含む。本発明は、アラビア文字を、OCRシステムによって正確に処理することができる分割された行の副単語および単語に分割する。本方法は、構成要素がノイズであるのかアラビア文字の一部であるのかを判断する場合に、アラビア文字に関連付けられるアクセント記号および句読点を考慮に入れる。
当業者は、ここに記載される利点および他の利点は一例であって、本発明のさまざまな実施例の利点すべてを含むことは意図されていないと認識するであろう。
以上で、本発明の具体的実施例が説明された。しかし、当業者なら、さまざまな変形および変更が、添付の請求項に記載されている本発明の範囲から逸脱することなく行なうことができると理解するであろう。したがって、明細書本文および図面は限定するのではなく例示するものであり、変形はすべて本発明の範囲内に含まれることが意図される。利益、利点、問題の解決、および利益、利点または解決を引起すまたは顕著にする要素は、クレームのいずれかまたはすべてにおける重大な、必要な、または必須の特徴もしくは要素であると考えるべきではない。本発明は、本願の係属中になされた補正を含む添付の請求項およびこれら請求項の均等物すべてによってのみ規定される。
1300 システム
1302 メモリ
1304 プロセッサ
402 アラビア文字および/または非文字項目に関連付けられる複数の構成要素を定める
404 複数の構成要素に関連付けられる行高さおよび欄間を計算する
406 複数の構成要素のうちの1つ以上の構成要素をある欄に関連付ける
408 各欄について、第1の組の特性パラメータを計算する
410 第1の組の特性パラメータに基づいて各欄の複数の構成要素を合成して、1つ以上の副単語および1つ以上の単語のうちの少なくとも1つ以上を形成する

Claims (24)

  1. 光学式文字認識(OCR:Optical Character Recognition)用に画像を前処理する方法であ
    って、画像は複数の欄を含み、複数の欄のうちの各欄は、アラビア文字および非文字項目の少なくとも一方を含み、前記方法は、
    複数の構成要素の中のアラビア文字および非文字項目の少なくとも一方に関連付けられる複数の構成要素を定めることを備え、構成要素は一連の接続されたピクセルを含み、前記方法は、さらに、
    前記複数の構成要素に関連付けられる行高さおよび欄間を計算することと、
    行高さおよび欄間の少なくとも一方に基づき、前記複数の構成要素のうちの少なくとも1つの構成要素を、前記複数の欄のうちのある欄に関連付けることと、
    前記複数の欄のうちの各欄について第1の組の特性パラメータを計算することと、
    前記第1の組の特性パラメータに基づき、前記複数の欄のうちの各欄の中の複数の構成要素を合成して、少なくとも1つのアラビア副単語および少なくとも1つのアラビア単語の少なくとも一方を形成することとを備え、
    前記第1の組の特性パラメータは、各欄に関連付けられる行高さ、各欄に関連付けられる語間、各欄に関連付けられる行間、各構成要素に対応するピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比の少なくとも1つであり、
    前記各欄に関連付けられる行間を計算することは、
    各欄に関連付けられる複数の構成要素の複数の横並び突出部のヒストグラムを作成することを含み、前記複数の横並び突出部のうちのある横並び突出部は、ラスタスキャンの各掃引に対応して複数の構成要素に関連付けられるピクセルの数を示し、さらに
    2つの連続する最大横並び突出部間の平均距離を計算することと、
    前記平均距離に基づき行間を計算することとを含む、方法。
  2. 前記画像は、濃淡画像およびカラー画像の少なくとも一方を2進画像に変換することによって得られる、請求項1に記載の方法。
  3. 前記画像は、ごま塩雑音をふるい落とすことによって得られる、請求項1に記載の方法。
  4. 前記画像は、変形ハフ変換を用いて歪みを修正することによって得られ、前記変形ハフ変換はアラビア文字に適合される、請求項1に記載の方法。
  5. 前記複数の構成要素を定めることは、
    前記画像に対してラスタスキャンを行なうこと、
    前記ラスタスキャンの少なくとも1回の掃引に対応する複数の構成要素のうちの少なくとも1つに関連付けられる複数のピクセルを特定すること、および
    複数のピクセル間の相互接続に基づき前記複数のピクセルを統合して、少なくとも1組の接続されたピクセルを形成することを含む、請求項1に記載の方法。
  6. ピクセルは当該ピクセルの8個の隣接するピクセルの少なくとも1つと相互接続される、請求項5に記載の方法。
  7. 前記行高さを計算することは、
    前記複数の構成要素の各々の高さに対応する高さのヒストグラムを作成すること、
    高さのヒストグラムから頻出高さを特定すること、および
    頻出高さに基づき行高さを計算することを含む、請求項1に記載の方法。
  8. 前記欄間は、行高さに基づき計算される、請求項7に記載の方法。
  9. 各欄に関連付けられる語間を計算することは、
    各欄に関連付けられた複数の構成要素の連続する構成要素間の間隔のヒストグラムを作成することと、
    ヒストグラムから頻出間隔を特定することとを含み、前記頻出間隔は行高さによって定められるしきい値範囲内にあり、さらに
    前記頻出間隔に基づき語間を計算することを含む、請求項1に記載の方法。
  10. 前記連続する構成要素は、縦方向に重なる構成要素および所定の距離離れている構成要素の少なくとも一方を含み、前記縦方向に重なる構成要素は、縦軸に沿って少なくとも1つの座標を共有する、請求項9に記載の方法。
  11. 前記複数の構成要素を合成することは、
    前記少なくとも1つの副単語および少なくとも1つ単語の少なくとも一方を形成するために、語間に基づき、各欄に関連付けられる連続する構成要素を結合することと、
    前記第1の組の特性パラメータに基づき、アラビア文字に関連付けられる複数の構成要素から、非文字項目に関連付けられる複数の構成要素のうちの少なくとも1つの構成要素をふるい落とすこととを含む、請求項9に記載の方法。
  12. ある欄に関連付けられる少なくとも1つの座標に基づき、複数の欄を分類することをさらに備え、前記少なくとも1つの座標は、画像における欄の位置に関連付けられる、請求項11に記載の方法。
  13. 前記方法はさらに、各欄に関連付けられる、各副単語および各単語の少なくとも一方に関連付けられる第2の組の特性パラメータを計算することを備え、前記第2の組の特性パラメータは、各副単語および各単語の少なくとも一方に関連付けられる行高さ、各副単語および各単語の少なくとも一方に関連付けられる語間、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間の1つであり、さらに
    第2の組の特性パラメータに基づき少なくとも2つの副単語をグループ化して、少なくとも1つの副単語および少なくとも1つの単語の一方を形成することを備える、請求項1に記載の方法。
  14. 前記方法は、前記少なくとも1つの副単語および前記少なくとも1つの単語を、各副単語および各単語の少なくとも一方に関連付けられる行高さ、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間の少なくとも一方に基づき、少なくとも1本の横行に分割することをさらに備える、請求項13に記載の方法。
  15. 光学式文字認識(OCR)用に画像を前処理するためのシステムであって、画像は複数の欄を含み、複数の欄の各欄は、アラビア文字および非文字項目の少なくとも一方を含み、前記システムは、
    メモリと、
    前記メモリに結合されるプロセッサとを備え、前記プロセッサは、
    複数の欄の中のアラビア文字および非文字項目の少なくとも一方に関連付けられる複数の構成要素を定、構成要素は一連の接続されたピクセルを含み、前記プロセッサは、さらに、
    前記複数の構成要素に関連付けられる行高さおよび欄間を計算
    行高さおよび欄間に基づき、複数の構成要素のうちの少なくとも1つの構成要素を、複数の欄のうちのある欄に関連付
    前記複数の欄のうちの各欄について第1の組の特性パラメータを計算
    第1の組の特性パラメータに基づき、複数の欄のうちの各欄の中の複数の構成要素を合成して、少なくとも1つのアラビア副単語および少なくとも1つのアラビア単語の少なくとも一方を形成することとを行な
    前記第1の組の特性パラメータは、各欄に関連付けられる行高さ、各欄に関連付けられる語間、各欄に関連付けられる行間、各構成要素に対応するピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比の少なくとも1つであり、
    各欄に関連付けられる行間を計算するために、前記プロセッサは、
    各欄に関連付けられる前記複数の構成要素の中の複数の横並び突出部のヒストグラムを作成し、前記複数の横並び突出部のうちのある横並び突出部は、ラスタスキャンの各掃引に対応して、前記複数の構成要素に関連付けられるピクセルの数を示し、さらに、前記プロセッサは、
    2つの連続する最大横並び突出部間の平均距離を計算し、
    前記平均距離に基づき行間を計算す、システム。
  16. 前記プロセッサは、
    濃淡画像およびカラー画像の少なくとも一方を2進画像に変換すること、
    ごま塩雑音をふるい落とすこと、および
    変形ハフ変換を用いて歪みを修正すること、のうちの少なくとも一つを行な、請求項15に記載のシステム。
  17. 複数の構成要素を定めるために、前記プロセッサは、
    画像に対してラスタスキャンを行ない、
    ラスタスキャンの少なくとも1回の掃引に対応して前記複数の構成要素の少なくとも1つの構成要素に関連付けられる複数のピクセルを特定し、
    複数のピクセル間の相互接続に基づき、前記複数のピクセルを統合して少なくとも1組の接続されたピクセルを形成す、請求項15に記載のシステム。
  18. 前記行高さを計算するために、前記プロセッサは、
    前記複数の構成要素の各々の高さに対応する高さのヒストグラムを作成し、
    前記高さのヒストグラムから頻出高さを特定し、
    前記頻出高さに基づき行高さを計算す、請求項15に記載のシステム。
  19. 前記プロセッサは、行高さに基づき欄間を計算す、請求項18に記載のシステム
  20. 各欄に関連付けられる語間を計算するために、前記プロセッサは、
    各欄に関連付けられる前記複数の構成要素のうちの連続する構成要素間の間隔のヒストグラムを生成し、
    前記ヒストグラムから頻出間隔を特定し、前記頻出間隔は行高さによって定められるしきい値範囲内にあり、さらに、前記プロセッサは、
    前記頻出間隔に基づき語間を計算す、請求項15に記載のシステム。
  21. 前記プロセッサは、
    語間に基づき各欄に関連付けられる連続する構成要素を結合して、少なくとも副単語および少なくとも1つの単語の少なくとも一方を形成し、
    前記第1の組の特性パラメータに基づき、アラビア文字に関連付けられる複数の構成要素から非文字項目に関連付けられる前記複数の構成要素のうちの少なくとも1つの構成要素をふるい落と、請求項20に記載のシステム。
  22. 前記プロセッサは、ある欄に関連付けられる少なくとも1つの座標に基づき、複数の欄を分類、前記少なくとも一つの座標は画像における欄の位置に関連付けられる、請求項21に記載のシステム。
  23. 前記プロセッサは、
    各欄に関連付けられる、各副単語および各単語の少なくとも一方に関連付けられる第2の組の特性パラメータを計算し、第2の組の特性パラメータは、各副単語および各単語の少なくとも一方に関連付けられる行高さ、各副単語および各単語の少なくとも一方に関連付けられる語間、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間のうちの1つであり、さらに、前記プロセッサは、
    第2の組の特性パラメータに基づき少なくとも2つの副単語をグループ化して、少なくとも1つの副単語および少なくとも1つの単語の一方を形成す、請求項15に記載のシステム。
  24. 前記プロセッサは、少なくとも1つの副単語および少なくとも1つの単語を、各副単語および各単語の少なくとも一方に関連付けられる行高さ、ならびに各副単語および各単語の少なくとも一方に関連付けられる行間の少なくとも一方に基づき、少なくとも1つの横行に分割す、請求項23に記載のシステム。
JP2011129862A 2010-06-12 2011-06-10 光学式文字認識用に画像を前処理するための方法およびシステム Expired - Fee Related JP5355625B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/814,448 2010-06-12
US12/814,448 US8218875B2 (en) 2010-06-12 2010-06-12 Method and system for preprocessing an image for optical character recognition

Publications (3)

Publication Number Publication Date
JP2012003756A JP2012003756A (ja) 2012-01-05
JP2012003756A5 JP2012003756A5 (ja) 2013-07-18
JP5355625B2 true JP5355625B2 (ja) 2013-11-27

Family

ID=44654616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011129862A Expired - Fee Related JP5355625B2 (ja) 2010-06-12 2011-06-10 光学式文字認識用に画像を前処理するための方法およびシステム

Country Status (3)

Country Link
US (2) US8218875B2 (ja)
EP (1) EP2395453A3 (ja)
JP (1) JP5355625B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8218875B2 (en) 2010-06-12 2012-07-10 Hussein Khalid Al-Omari Method and system for preprocessing an image for optical character recognition
US8542926B2 (en) * 2010-11-19 2013-09-24 Microsoft Corporation Script-agnostic text reflow for document images
US9734132B1 (en) * 2011-12-20 2017-08-15 Amazon Technologies, Inc. Alignment and reflow of displayed character images
JP5994251B2 (ja) * 2012-01-06 2016-09-21 富士ゼロックス株式会社 画像処理装置及びプログラム
EP2836962A4 (en) 2012-04-12 2016-07-27 Tata Consultancy Services Ltd SYSTEM AND METHOD FOR DETECTION AND SEGMENTATION OF CHARACTERISTIC MATTERS FOR OPTICAL CHARACTER RECOGNITION (OCR)
EP2662802A1 (en) * 2012-05-09 2013-11-13 King Abdulaziz City for Science & Technology (KACST) Method and system for preprocessing an image for optical character recognition
US9785240B2 (en) * 2013-03-18 2017-10-10 Fuji Xerox Co., Ltd. Systems and methods for content-aware selection
JP5986051B2 (ja) * 2013-05-12 2016-09-06 キング・アブドゥルアジズ・シティ・フォー・サイエンス・アンド・テクノロジー(ケイ・エイ・シィ・エス・ティ)King Abdulaziz City For Science And Technology (Kacst) アラビア語テキストを自動的に認識するための方法
WO2014204339A1 (en) * 2013-06-18 2014-12-24 Abbyy Development Llc Methods and systems that generate feature symbols with associated parameters in order to convert document images to electronic documents
US9235755B2 (en) * 2013-08-15 2016-01-12 Konica Minolta Laboratory U.S.A., Inc. Removal of underlines and table lines in document images while preserving intersecting character strokes
US9292739B1 (en) * 2013-12-12 2016-03-22 A9.Com, Inc. Automated recognition of text utilizing multiple images
US9288362B2 (en) 2014-02-03 2016-03-15 King Fahd University Of Petroleum And Minerals Technique for skew detection of printed arabic documents
US9367766B2 (en) * 2014-07-22 2016-06-14 Adobe Systems Incorporated Text line detection in images
JP2016181111A (ja) * 2015-03-24 2016-10-13 富士ゼロックス株式会社 画像処理装置、及び画像処理プログラム
CN106156766B (zh) 2015-03-25 2020-02-18 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
US10430649B2 (en) 2017-07-14 2019-10-01 Adobe Inc. Text region detection in digital images using image tag filtering
US11366968B2 (en) * 2019-07-29 2022-06-21 Intuit Inc. Region proposal networks for automated bounding box detection and text segmentation
US11270153B2 (en) 2020-02-19 2022-03-08 Northrop Grumman Systems Corporation System and method for whole word conversion of text in image
JP2021189952A (ja) * 2020-06-03 2021-12-13 株式会社リコー 画像処理装置、方法およびプログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5058182A (en) * 1988-05-02 1991-10-15 The Research Foundation Of State Univ. Of New York Method and apparatus for handwritten character recognition
US5224179A (en) * 1988-12-20 1993-06-29 At&T Bell Laboratories Image skeletonization method
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JP3253356B2 (ja) * 1992-07-06 2002-02-04 株式会社リコー 文書画像の領域識別方法
US5987170A (en) * 1992-09-28 1999-11-16 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
US5410611A (en) * 1993-12-17 1995-04-25 Xerox Corporation Method for identifying word bounding boxes in text
CA2166248C (en) * 1995-12-28 2000-01-04 Abdel Naser Al-Karmi Optical character recognition of handwritten or cursive text
JPH11232378A (ja) * 1997-12-09 1999-08-27 Canon Inc デジタルカメラ、そのデジタルカメラを用いた文書処理システム、コンピュータ可読の記憶媒体、及び、プログラムコード送出装置
JP4323606B2 (ja) * 1999-03-01 2009-09-02 理想科学工業株式会社 文書画像傾き検出装置
US7298903B2 (en) * 2001-06-28 2007-11-20 Microsoft Corporation Method and system for separating text and drawings in digital ink
US7062090B2 (en) * 2002-06-28 2006-06-13 Microsoft Corporation Writing guide for a free-form document editor
US20040096102A1 (en) * 2002-11-18 2004-05-20 Xerox Corporation Methodology for scanned color document segmentation
US7499588B2 (en) * 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
US8139828B2 (en) * 2005-10-21 2012-03-20 Carestream Health, Inc. Method for enhanced visualization of medical images
JP4757001B2 (ja) * 2005-11-25 2011-08-24 キヤノン株式会社 画像処理装置、画像処理方法
US7668394B2 (en) * 2005-12-21 2010-02-23 Lexmark International, Inc. Background intensity correction of a scan of a document
US7724957B2 (en) * 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition
JP4988842B2 (ja) * 2007-06-28 2012-08-01 富士通株式会社 表データ生成プログラム、表データ生成方法および表データ生成装置
WO2009081791A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 情報処理システム、その方法及びプログラム
US8027539B2 (en) * 2008-01-11 2011-09-27 Sharp Laboratories Of America, Inc. Method and apparatus for determining an orientation of a document including Korean characters
US8009928B1 (en) * 2008-01-23 2011-08-30 A9.Com, Inc. Method and system for detecting and recognizing text in images
US8150160B2 (en) * 2009-03-26 2012-04-03 King Fahd University Of Petroleum & Minerals Automatic Arabic text image optical character recognition method
TWI394098B (zh) * 2009-06-03 2013-04-21 Nat Univ Chung Cheng Shredding Method Based on File Image Texture Feature
US8086039B2 (en) * 2010-02-05 2011-12-27 Palo Alto Research Center Incorporated Fine-grained visual document fingerprinting for accurate document comparison and retrieval
US20110280481A1 (en) * 2010-05-17 2011-11-17 Microsoft Corporation User correction of errors arising in a textual document undergoing optical character recognition (ocr) process
US8218875B2 (en) 2010-06-12 2012-07-10 Hussein Khalid Al-Omari Method and system for preprocessing an image for optical character recognition

Also Published As

Publication number Publication date
US20110305387A1 (en) 2011-12-15
US8218875B2 (en) 2012-07-10
JP2012003756A (ja) 2012-01-05
US20120219220A1 (en) 2012-08-30
EP2395453A3 (en) 2013-08-28
US8548246B2 (en) 2013-10-01
EP2395453A2 (en) 2011-12-14

Similar Documents

Publication Publication Date Title
JP5355625B2 (ja) 光学式文字認識用に画像を前処理するための方法およびシステム
JP5355621B2 (ja) 光学式文字認識用に画像を前処理するための方法およびシステム
Dongre et al. Devnagari document segmentation using histogram approach
US8571270B2 (en) Segmentation of a word bitmap into individual characters or glyphs during an OCR process
JPH0721319A (ja) 自動アジア言語決定装置
CN109598185B (zh) 图像识别翻译方法、装置、设备及可读存储介质
CN111832476A (zh) 版面分析方法、阅读辅助设备、电路和介质
US20030012438A1 (en) Multiple size reductions for image segmentation
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN113486828A (zh) 图像处理方法、装置、设备和存储介质
Shehu et al. Character recognition using correlation & hamming distance
KR101571681B1 (ko) 동질 영역을 이용한 문서 구조의 분석 방법
JP5857634B2 (ja) 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム
Kshetry Image preprocessing and modified adaptive thresholding for improving OCR
JP6082306B2 (ja) 光学式文字認識用に画像を前処理するための方法およびシステム
JP3058489B2 (ja) 文字列抽出方法
Roy et al. An approach towards segmentation of real time handwritten text
CN109558875A (zh) 基于图像自动识别的方法、装置、终端及存储介质
CN102542269B (zh) 西文单词切分方法和装置
Zaw et al. Segmentation Method for Myanmar Character Recognition Using Block based Pixel Count and Aspect Ratio
Attia et al. Histogram-based lines and words decomposition for arabic omni font-written OCR systems; enhancements and evaluation
Siddique et al. An absolute Optical Character Recognition system for Bangla script Utilizing a captured image
Kuhl et al. Model-based character recognition in low resolution
Deivalakshmi A simple system for table extraction irrespective of boundary thickness and removal of detected spurious lines
CN117710985A (zh) 光学字符识别方法、装置及智能终端

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130530

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130530

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130530

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130827

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees