JP4164489B2 - 文書画像強調方法、装置及びそのための記憶媒体 - Google Patents

文書画像強調方法、装置及びそのための記憶媒体 Download PDF

Info

Publication number
JP4164489B2
JP4164489B2 JP2004342872A JP2004342872A JP4164489B2 JP 4164489 B2 JP4164489 B2 JP 4164489B2 JP 2004342872 A JP2004342872 A JP 2004342872A JP 2004342872 A JP2004342872 A JP 2004342872A JP 4164489 B2 JP4164489 B2 JP 4164489B2
Authority
JP
Japan
Prior art keywords
image
row
line
connected component
component density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004342872A
Other languages
English (en)
Other versions
JP2005174323A (ja
Inventor
オウ フー
シアン リー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2005174323A publication Critical patent/JP2005174323A/ja
Application granted granted Critical
Publication of JP4164489B2 publication Critical patent/JP4164489B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20032Median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Description

本発明は、文書画像を強調する方法、装置及びそのための記憶媒体関する。
OCRは手書き文字又は読み取り文字の認識における周知の技法である。図1に示すように、文書画像102の文字認識を実現するために、2値文書画像102全体から全ての文字を含む最小の領域を分離するためのブロック分割のステップ104が実行される。言い換えれば、ブロック分割のステップ104は、文書画像102のマージンを除去するために実行される。その結果得られる、一般に矩形領域であるブロック画像は、行画像の形態で各文字行が抽出される行分割のステップ108により更に処理される。次に、各行画像は文字分割のステップ112により処理され、認識されるべき各々の文字に対応する文字画像が抽出される。最後のステップは、各々の文字画像に基づく単独文字認識のステップ116であり、認識結果118は、例えば、テキスト処理アプリケーションなどへ出力される。
読み取られた文書画像を認識するとき、画質が高い場合には、現在のOCR製品の認識結果は満足できるものである。しかし、文書画像の画質が完全ではないか、非常に低い場合には、認識率は急激に低下する。
例えば、従来のOCRエンジンはカラー画像又はグレイスケール画像をそれほど十分に認識できない。これは、OCRが2値画像認識に基づいているためである。2値画像の形態のカラー画像原稿又はグレイスケール画像原稿を読み取り、格納し、認識するという目的のために、ハーフトーン画像技法が開発されている。ハーフトーン画像においては、1つの「画素」は様々に異なる色又はグレイをシミュレートできるように小さな2値画像から構成されている。いわゆる「画素」は実際には2値画素の配列を含み、原稿におけるあるカラーレベル又はグレイレベルを有する小さな領域に対応している。そのため、通常の2値文書画像又は原稿と比較すると、ハーフトーン文書画像の画質ははるかに低くなってしまう。
すなわち、従来のOCRエンジンはハーフトーン画像を確実に認識できないために、カラー画像又はグレイスケール画像を確実に認識できない。その具体的な理由は次の通りである。
原稿がある1つのカラーレベル又はグレイレベルを有する背景を有している場合、認識されるべきハーフトーン文書画像には、図2に示すようにそのカラーレベル又はグレイレベルによって発生される多数の背景雑音が存在する。
文字に関しては、原稿中の文字が黒色でない場合、ハーフトーン文書画像における文字のストロークでは、対応する画素が全て黒色になるとは限らず、いくつかの白色の画素が現れる。そこで、ストロークは、様々に異なる条件に応じて、破断されたように見えるか(図3を参照)、中が抜けたように見えるか(図4を参照)又はジグザグの輪郭線(図5を参照)を示すようになる。
それらの破断されたストローク、中抜けのストローク又はジグザグのストロークが、抽出された文字画像の特徴を著しくひずませることは自明である。従来のOCRアルゴリズムは先に説明したようなハーフトーン文書画像の様々な欠陥を識別できず、また、それに対応する復元を実行することもできないため、認識率は非常に低い。
更に、雑音はブロック分割、行分割、文字分割及び単独文字認識にも大きな影響を及ぼす。雑音抑制が実行されると、破断ストローク、中抜けストローク及びジグザグストロークの現象ははるかに深刻な問題となる。そのような条件の下では、従来のOCRアルゴリズムは正しい行分割を実行することさえできない。これは、従来のOCRアルゴリズムがはるかに雑音の少ない正常な文書画像を指向しており、従って、従来のOCRアルゴリズムで実行される雑音抑制が非常に虚弱なものであるためである。正常な文書画像の場合であっても、強い雑音抑制が実行されると、ストロークはその影響を受け、認識率は低下する。
加えて、白黒ではない画像から得られるような文書画像を強調することを必要とする、複写装置などの他の用途もある。
従って、本発明の目的は、ハーフトーン文書画像を強調し、それを正常な文書画像の状態に「復元」することが可能である新たな技法を提供することである。
本発明の別の目的は、特に文書画像がハーフトーン画像である場合に文書画像の認識率を改善することである。
第1の目的を達成するために、本発明の基本概念は、画像中に存在する様々に異なる欠陥を識別し、それらの欠陥を対応するアルゴリズムによって「除去」することである。言い換えれば、基本概念は文書画像を異なる種類に分類し、それらを対応するアルゴリズムによって強調することである。
多くの場合、同じ行にある文字は同じ大きさと字体を有し、その画像は通常は同じ特性を有する。そこで、同じ行にある全ての文字が同じ特性を有すると仮定した。この仮定に基づいて、個別の文字画像の特性ではなく、行画像の特性を判定でき、文字画像ごとに個別に復元するのではなく、行画像全体に対して対応する復元を実行することができる。
特に、本発明の1つの面として、行画像における連結構成要素の数を行画像の文字の数で除算することにより、前記行画像における黒色8連結構成要素密度と白色8連結構成要素密度とを獲得する連結構成要素密度獲得工程と、
前記黒色8連結構成要素密度と白色8連結構成要素密度とに基づいて、前記行画像を正常行画像、破断ストローク行画像及び中抜けストローク行画像のいずれかの種類に分類する行画像分類工程と、
前記行画像に対して、前記行画像分類工程で分類された種類に応じた強調処理を実行することにより、強調行画像を獲得する強調工程とを備え、
前記行画像分類工程では、
白色8連結構成要素密度<=閾値T1であり且つ黒色8連結構成要素密度>=閾値T2であれば、前記行画像は前記破断ストローク行画像であると分類し、
白色8連結構成要素密度>閾値T1であれば、前記行画像は前記中抜けストローク行画像であると分類し、
白色8連結構成要素密度<=閾値T1であり且つ黒色8連結構成要素密度<閾値T2であれば、前記行画像は前記正常行画像であると分類するものであり、
更に、閾値T1は2〜4であり、閾値T2は3〜5であることを特徴とする文書画像強調方法が提供される。
本発明を利用すると、ハーフトーン画像を含めて、文書画像が強調され、その認識率を改善することができる。
本発明の他の目的、特徴及び利点は以下の好ましい実施例の詳細な説明から更に明白になるであろう。本明細書に組み込まれ、その一部を構成している添付の図面は本発明の実施例を例示しており、以下の説明と共に本発明の原理を説明するのに有用である。
なお本出願は、参考として本明細書に取り入れられている2003年11月28日出願の中国特許出願第200310118684.7号を基礎として優先権を主張している。
次に、添付の図面を参照して本発明の好ましい実施例を説明する。
<コンピュータシステムの例>
本発明の方法は、例えば、パーソナルコンピュータ(PC)、ノートブック又は郵便物分類機器などの何らかのオートメーション機器に埋め込まれたシングルチップマイクロコンピュータ(SCM)などの、どのような情報処理機器においても実現されることができるであろう。本発明の方法をソフトウェア、ハードウェア又はファームウェア又はそれらの組み合わせによって実現することは当業者には容易であろう。特に、本発明のいずれかの工程又は工程の組み合わせを実現するために、I/O装置、メモリ装置、CPUなどのマイクロプロセッサなどを使用することが必要であるのが当業者には自明であることに注意すべきである。以下の本発明の方法の説明は必ずしもそのような装置を挙げていないが、実際にはそれらの装置が使用される。
先に述べた情報処理機器として、図6に示されるブロック線図は、本発明の方法及び装置を実現できるコンピュータシステムの一例を示す。尚、図6に示されるコンピュータシステムは単に説明を目的としており、本発明の範囲を限定することは意図されていないことに注意すべきである。
ハードウェアの観点から見ると、コンピュータ201はCPU206、ハードディスク(HD)205、RAM207、ROM208及びI/O装置212を具備する。I/O装置はキーボード、タッチパッド、トラックボール及びマウスなどの入力手段、プリンタ及びモニタなどの出力手段、並びにフレキシブルディスクドライブ、光ディスクドライブ及び通信ポートなどの入出力手段を含むであろう。
ソフトウェアの観点から見ると、コンピュータは実質的にはオペレーションシステム(OS)209、I/Oドライバ211及び様々なアプリケーションを具備する。オペレーティングシステムとして、Windows(登録商標)シリーズ又はLinux(登録商標)系OSなどの何らかの市販のOSが使用されれば良い。I/Oドライバは先に挙げたI/O装置をそれぞれ駆動するために使用される。アプリケーションはテキスト処理アプリケーション210、画像処理アプリケーションなどのどのような種類のアプリケーションであっても良く、本発明において使用できるか又は本発明を使用することが可能である既存のアプリケーション、並びに本発明に合わせてプログラムされ、それら既存のアプリケーションを呼び出すか又は既存のアプリケーションにより呼び出されるべきであるアプリケーション(OCRアプリケーション202など)を含む。
従って、本発明においては、方法はOS、アプリケーション及びコンピュータのハードウェアのI/Oドライバにより実現される。
更に、コンピュータ201は、認識されるべき画像を獲得するためにスキャナ204などの画像源に接続される。本発明を使用してOCRにより獲得された結果は何らかのアプリケーション装置203へ出力され、アプリケーション装置はその結果に基づいて適切な動作を実行する。アプリケーション装置は郵便物分類機器などの何らかの自動制御システムであれば良い。また、アプリケーション装置はコンピュータ201内部で実現され、画像を更に処理する別のアプリケーション(ハードウェアと組み合わされる)として実現されても良い。例えば、認識されたテキストを編集するための、Microsoft Word(MicrosoftはMicrosoft Corporationが所有している商標である。)などのテキスト処理アプリケーションであっても良い。
<文書画像強調方法>
(好ましい実施例)
図7Aは、本発明による文書画像強調方法の好ましい一実施例を示す。この方法は、OCRアプリケーションなどの他のアプリケーション又はスキャナなどから獲得されるブロック画像702で始まる。言うまでもなく、ブロック画像702はいずれかの場所に格納されており、処理されるべき時点で呼び出される必要がある。また、画像が処理されるとき、原画像及び中間処理結果が破壊されず、原画像又は何らかの中間結果を必要とする後の処理工程で使用されることが可能であるように、原画像及び中間処理結果が格納されなければならないことに注意すべきであり、そのことは当業者には自明である。しかし、明瞭簡潔にするため、上記の目的のための複写又は格納のような工程は以下の説明及び図面では省略されている。
第1のステップは、ブロック画像702に対して実行されるブロック雑音抑制704である。このステップの目的は、次の行分割のステップ706においてブロック画像702を正しく行画像に分割できるようにブロック画像の画質を向上させることである。このステップでは、従来の画像認識(OCR)方法又は装置の行分割ステップで又はその前に使用されていた雑音フィルタを含めて、様々に異なるテンプレートを使用する中央値フィルタ又は平均値フィルタなどのどのような雑音フィルタが採用されても良い。ハーフトーン画像の背景雑音の特性を考慮して、3×3テンプレートを使用する中央値フィルタが好ましい。
次に、雑音抑制ブロック画像に基づいて、行分割706が実行され、行画像の位置情報708が生成される。この位置情報708に基づいて、後続するステップは原ブロック画像を行ごとに処理する。言い換えれば、「行画像」が処理されるというとき、それは実際にはブロック画像の中の、処理される対応する位置情報により定義される1つの領域である。
行分割706の後、各行画像に対して強調動作が実行される。当業者には知られている通り、複数のオブジェクトが同様に処理されるべき場合、アルゴリズムは逐次方式(すなわち、ルーピングを介する)又は並列方式のいずれであっても良く、あるいはハイブリッド方式であっても良いことに注意すべきである。すなわち、いくつかのステップが異なるオブジェクトに対してルーピングされている間に、他のステップは異なるオブジェクトに対して並列して実行される。従って、以下の説明においては、1つの行に対する処理のみを詳細に説明する。
まず、後続するステップで使用されるいくつかの特性を獲得するために、行画像及び対応する行間画像を事前解析する。しかし、この事前解析ステップは後続するステップに配分されても良いことが当業者には自明である点に注意すべきである。すなわち、行画像及び行間画像の必要な特性は事前に計算されるのではなく、それらを必要とする後の関連ステップで計算されても良い。
(行画像の事前解析)
事前解析は4つの面を含む。
A.行画像の中の文字の数(以下、文字数という)を計算する。
文字数は連結された構成要素の密度(連結構成要素密度)を生成するための後の分類(ラベル付け)ステップ又は再分類(再ラベル付け)ステップで使用される。文字数は次の公式を使用して計算されれば良い。
水平行の場合:文字数=K×行幅/行高さ。
垂直行の場合:文字数=K×行高さ/行幅。
Kは言語の分類を反映する係数である。例えば、中国語又は日本語などの象形文字の場合、Kの値は1になるであろう。英語などのアルファベット文字の場合には、Kの値は1より大きくなるであろう。
B.連結構成要素を分類し、連結構成要素密度を計算する。
本発明では、行画像において黒色8連結構成要素、黒色4連結構成要素、白色8連結構成要素及び白色4連結構成要素を分類するので、行画像において黒色8連結構成要素密度(以下、B8という)、黒色4連結構成要素密度(以下、B4という)、白色8連結構成要素密度(以下、W8という)及び白色4連結構成要素密度(以下、W4という)が獲得される。各連結構成要素密度は次の公式を使用して計算される。
連結構成要素密度=連結構成要素の数/文字数。
尚、以下に説明する後の行雑音抑制ステップ712に備えて、発明者は様々な実施例を提案しているが、そのうちのいくつかは先に説明したようないくつかの連結構成要素密度を使用しないことに注意すべきである。そのような場合には、このステップで使用されない連結構成要素密度を計算する必要はなく、対応する連結構成要素が分類される必要もないことは自明である。行雑音抑制ステップ712が連結構成要素密度を使用しないのであれば、このステップを削除しても良い。
連結構成要素の概念は次のように説明される。例えば、黒色8連結構成要素は8連結度の連結構成要素である。「黒色」は、連結構成要素として黒色画素をカウントすることを意味している。すなわち、「黒色8連結構成要素」は8連結度の黒色画素から成るブロックである。
「画素連結度」という表記は2つ以上の画素の間の関係を記述している。連結されるべき2つの画素について、それらの画素は画素輝度及び空間的隣接度に関するいくつかの条件を満たしていなければならない。
まず、2つの画素が連結されていると考えるためには、それらの画素値が共に同じ値の集合Vに由来していなければならない。グレイスケール画像の場合、Vは何らかの範囲のグレイレベルになるであろう。例えば、V={22,23,...,40}。2値画像の場合には、単純にV={1}である。
連結度の隣接度基準を公式化するために、まず、近傍画素の表記を導入する。座標(x,y)を有する画素pについて、
N4(p)={(x+1,y),(x−1,y),(x,y+1),(x,y−1)}
はその4近傍画素と呼ばれる。その8近傍画素は次のように定義される。
N8(p)=N4(p)∪{(x+1,y+1),(x+1,y−1),(x−1,y+1),(x−1,y−1)}。
このことから、4連結度及び8連結度の定義を推論することができる。共に集合Vに由来する値を有する2つの画素p及びqは、qが集合N4(p)に属していれば4連結であり、qがN8(p)に属していれば8連結である。
C.行画像における黒色画素の数をカウントし、行画像の黒色画素密度(以下、黒色画素密度という)を計算する。
黒色画素密度=行画像における黒色画素の数/(行幅×行高さ)。
この場合、行幅及び行高さは画素単位で測定される。
尚、以下に説明するような後の行雑音抑制ステップ712及び分類ステップ718の後の行強調ステップについて、発明者は様々な実施例を提案しているが、そのうちのいくつかは黒色画素密度を使用しない。そのような場合、このステップが不要であることは自明である。
D.行間雑音の数をカウントし、行間雑音密度を計算する。
2つの隣接する行画像の間の領域を行間画像という。多くの場合、行画像と行間画像の雑音分布は類似している。従って、行間画像における雑音密度は行画像の雑音の強さを反映する。
行間画像における雑音の数(行間雑音の数)をカウントし、行間雑音の密度(行間雑音密度)を計算するとき、各行間画像の領域全体を考慮しても良いし、あるいはその領域の一部のみを考慮しても良い。更に、関連する行画像に隣接する1つの行間画像のみを考慮に入れても良く、その1つの行間画像は関連行画像の上にあっても良いし、あるいはその下方にあっても良い。しかし、関連行画像の上下の2つの行間画像を考慮に入れても良い。
好ましい一実施例では、行間雑音密度は、関連行画像の上下にある行間画像からそれぞれ選択された2つの領域にある雑音の数をそれら2つの領域の画素単位の面積で除算した値に等しい。
別の好ましい一実施例においては、2つの領域は関連行画像に隣接しており、それぞれ、行画像の幅と等しい幅及び行画像の高さの1/10と同等の高さを有する。垂直行の場合にも、同様に、2つの領域はそれぞれ関連行画像の右側と左側にある。
事前解析の後、行画像の強調を開始しても良い。第1の強調ステップは、行画像の雑音が抑制され、雑音抑制行画像714が生成される行雑音抑制ステップ712である。
行雑音抑制ステップ712、並びに以下に説明する正常行画像強調ステップ720、破断ストローク行画像強調ステップ722及び中抜けストローク行画像強調ステップ724では、単独画素の除去、中央値フィルタ、平滑化、弱い膨張及び強い膨張を含めた様々な画像強調技法が採用される。
単独画素を除去する動作は、行画像における離散した単独黒色画素を除去するもので、これは当業者には知られている一般的なアルゴリズムである。中央値フィルタも周知の技法である。
平滑化の動作は文字画像の縁部を平滑化する。平滑化効果を有するどのようなアルゴリズムを採用しても良い。その例として、様々な大きさ、様々な形状を有するテンプレートを使用する中央値フィルタ又は平均値フィルタを挙げることができるであろう。本発明の効果を更に改善するために、発明者は3×3テンプレートを使用する中央値フィルタに基づいて改善された平滑化アルゴリズムを提案する。
膨張も従来の技術で良く知られた一般的なアルゴリズムであり、その効果は2×2テンプレート、2×3テンプレート、3×2テンプレート又は3×3テンプレートなどのテンプレートの大きさと形状に応じて強くなるか又は弱くなる。本発明では、最適の効果を得るために、弱い膨張として2×2テンプレートを使用する膨張アルゴリズムが使用され、強い膨張として3×3テンプレートを使用する膨張アルゴリズムが使用される。
更に良好な雑音抑制効果を得るために、行画像の特性又は行間画像の特性に応じて上述の雑音フィルタリング技法を互いに組み合わせても良い。
本発明においては、雑音を抑制している間、行間雑音密度と黒色画素密度と連結構成要素密度との少なくともいずれかに応じて適正な雑音抑制方法が採用される。特に、発明者はこの行雑音抑制工程の3つの実施例を提供し、それら3つの方法のうちの1つが選択されれば良い。
A.まず、行画像中の単独画素を除去する。次に、行間雑音密度>=N1であれば、行画像を平滑化する。この場合、閾値N1は0.5〜1.5であり、好ましくは1である。
B.行間雑音密度が0より大きく、N1以下である場合、単独画素を除去する。行間雑音密度>N1である場合には、中央値フィルタを使用して行画像を処理する。この場合、N1は3〜7であり、好ましくは5である。この解決方法は、行間雑音密度=0であれば、行雑音抑制は不要であることを示唆している。これは、例えば、完全な2値画像(すなわち、非ハーフトーン画像)などの正常文書画像の場合に相当する。
C.この工程の好ましい一実施例では、雑音抑制は表1に示される条件に従って実行される。すなわち、左側の条件に適合すれば、右側の対応する動作が実行されるのである。例えば、黒色画素密度<=N1であり且つB8<=N4である場合、動作は実行されず、行画像は結果として直接出力される。表1の最後の行は、表1に示されていない条件の下では行画像中の単独画素が除去されることを意味している。
尚、表1並びに条件とそれに対応する動作を示す表2以降の表において、異なる行は異なる条件及びそれに対応する動作を表していることに注意する。「条件」の列は適合されるべき条件を表し、「動作」の列は実行されるべき対応する動作を表す。同じ条件行にあるとき、それぞれのセルにある全ての条件が満たされなければならない。例えば、表1においては、「黒色画素密度>N1」及び「行間雑音の数>0」及び「(行間雑音密度>=N4又はB8<=N6)及び(黒色画素密度>=N7又はB8<=N8)」であるときにのみ、「平滑化」動作は実行される。
Figure 0004164489
この場合、閾値N1からN8は表2に示される値であれば良い。
Figure 0004164489
背景技術の欄で説明したように、マクロな視覚的見かけに応じて、文書画像(又は行画像、あるいは文字画像)は破断ストローク、中抜けストローク、ジグザグストローク及び雑音の4つの種類に分類される。現実のハーフトーン文書画像では、これら4つの特性及びその組み合わせは極めて標準的である。
上述の工程は、行画像がどの種類であろうと、行画像の雑音を抑制している。後続する工程は破断ストローク行画像、中抜けストローク行画像及びジグザグストローク行画像を強調することに集中する。発明者は実験を通して、ジグザグストローク行画像が正常行画像に最も近いことに気づいた。従って、「正常行画像」という用語はジグザグストローク行画像を含むものとして使用される。
従来の技術では、ハーフトーン文書画像の欠陥が全て雑音であるとは限らず、人間の目が前述の3種類の画像を非常に容易に識別できるにもかかわらず、従来の機械(又はアルゴリズム)はそれらの種類を識別できないために(従って、文書画像をそれら3つの種類に分類することを試みる技法はなく、言うまでもなく、文書画像を異なる方法で処理することを試みる技法も存在しないために)、ハーフトーン文書画像を強調又は認識することは困難である。
発明者は何度にもわたる実験を通して、異なる種類の画像を特徴付けるために連結構成要素密度を使用できることに気づいた。(また、本発明の開示における全ての閾値が実験を経て獲得されたことに注意すべきである。)
従って、雑音抑制行画像を分類するに際しては、雑音抑制行画像714における連結構成要素を分類し、対応する連結構成要素密度を獲得することが必要である。それが分類ステップ716である。このステップは「行画像の事前解析」の部分で説明した分類動作に類似しているため、ここでは詳細な説明を省く。以下に説明するように、正常行画像強調ステップ720、破断ストローク行画像強調ステップ722及び中抜けストローク行画像強調ステップ724も分類ステップ716の分類結果を使用できる。このステップでは、B4、B8、W4及びW8が得られる。しかし、この分類ステップ716を後続するステップに配分しても良いことは当業者には自明であるという点に注意すべきである。すなわち、B4、B8、W4及びW8の値はあらかじめ計算されるのではなく、それらの値を必要とする後の関連するステップで計算されても良い。
更に、以下に説明するような後続する分類ステップ718及びその後の行強調ステップに関して、発明者は様々な実施例を提案しているが、そのうちのいくつかは先に説明したような連結構成要素密度を使用しないことにも注意すべきである。そのような場合には、このステップでそれらの連結構成要素密度を計算する必要はなく、対応する連結構成要素を分類する必要もないことは自明である。
分類ステップ716の分類結果に基づいて、分類ステップ718では、行画像が先に説明したような3つの種類に分類される。
分類ステップの第1の実施例では、表3に示される基準を使用する。例えば、W8<=T1及びB8>=T2であれば、行画像は破断ストローク行画像である。
Figure 0004164489
この場合、閾値T1は2〜4、好ましくは3であり、閾値T2は3〜5、好ましくは4である。
上記の表3において、W8及びB8の値は分類基準として使用される。W4及びB4の値を分類基準として使用しても差し支えないことは自明である。実際には、分類基準としてW4、B4、W8及びB8のどのような組み合わせを使用しても良く、対応する閾値は実験を経て得られる。
分類ステップ716は3種類の結果を生成する。行画像が正常行画像であれば、正常行画像強調ステップ720が続き、破断ストローク行画像であれば、破断ストローク行画像強調ステップ722が続き、中抜けストローク行画像であれば、中抜けストローク行画像強調ステップ724が続く。それら3つのステップについて以下に説明する。
(正常行画像の強調)
正常行画像の場合、幾分かのジグザグストロークが混じっているので、正常行画像強調ステップ720の目的は存在する可能性があるジグザグストロークを平滑化することである。
本発明においては、正常行画像は、連結構成要素密度と文字高さと正常行画像とのうち少なくともいずれかがそれまでに平滑化されたことがあるか否かに応じて正常行画像を平滑化することにより強調される。特に、発明者は以下に説明するステップの3つの実施例を好適と考えるが、本開示を読むことにより他の実施例も考えられる。
A.まず、行画像を平滑化する。次に、DPI<=300であれば、中央値フィルタによって行画像を処理する。中央値フィルタは3×3テンプレートを使用する。
DPI(ドット数/インチ)は走査画像の分解能であり、処理されるべき画像から読み取られれば良い。一般に、正常行画像のDPIが高いほど、含まれるジグザグは少ないので、認識率に与える影響は少なくなる。従って、高いDPIを有する正常行画像を平滑化する必要はない。
B.DPI>300又はW4>=N1であれば、行画像を平滑化する。この場合、閾値N1は2〜4であり、好ましくは3である。
C.DPI>300であり且つ行画像が行雑音抑制ステップ712で既に平滑化されていた場合、又はDPI<=300であるが、W4>=N1かつ文字高さ>=N2である場合には、行画像を平滑化する。この場合、閾値N1は1.5〜2.5、好ましくは2であり、閾値N2は25〜40、好ましくは30である。
ここで、文字高さは単に関連する水平行画像の高さ、又は関連する垂直行画像の幅である。
(破断ストローク行画像の強調)
破断ストローク行画像の場合、破断ストローク行画像強調ステップ722の目的は破断ストロークを連結することである。破断ストローク行画像を強調することの中核は行画像を膨張させることである。必要に応じて、平滑化動作が採用されても良い。特に、発明者は以下に説明するステップの3つの実施例を好適と考えるが、本開示を読むことにより他の実施例も考えられる。
A.まず、行画像に対して強い膨張を実行し、次に、3×3テンプレートを使用する中央値フィルタによって、得られた画像を処理する。
B.W4<N1であれば、行画像に対して弱い膨張を実行する。W4>=N1であれば、まず、行画像を平滑化し、次に得られた行画像を再び分類し、新たなB8の値を獲得し、B8>N2であれば、得られた平滑化行画像に対して強い膨張を実行する。この場合、閾値N1は3〜7、好ましくは5であり、閾値N2は2〜6、好ましくは4である。
尚、この破断ストローク行画像強調ステップ722の実施例においては、分類ステップ716に類似する再分類動作があるため、その詳細な説明が省略されていることに注意する。
C.破断ストローク行画像強調ステップ722の好ましい一実施例では、表4に示されるような動作を実行する。すなわち、W4<N1である場合、強調を完了するために文字高さの値に応じて強い膨張又は弱い膨張が実行される。
W4>=1であるとき、表4に示される条件に応じて、行画像を平滑化するか否かが判定される。このステップで行画像が平滑化される場合、得られた平滑化行画像を再び分類し、新たなB8を獲得する。その後、W4>=1である行画像に関して、B8>=N5であるか否かが判定される。B8>=N5であれば、行画像がこのステップ又は行雑音抑制ステップ712で既に平滑化されているか否かに関わらず、行画像に対して強い膨張が実行される。
ここでも、破断ストローク行画像強調ステップ722のこの実施例では、分類ステップ716に類似する再分類動作があるため、その詳細な説明が省略されていることに注意する。
Figure 0004164489
閾値N1〜N5の値は表5に示されている。
Figure 0004164489
(中抜けストローク行画像の強調)
中抜けストローク行画像の場合、中抜けストローク行画像強調ステップ724の目的はストローク中の抜けた領域を充填することである。本発明においては、中抜けストローク行画像は、行画像を平滑化し、次に得られた行画像を膨張させることにより強調される。特に、発明者は次に説明するステップの3つの実施例を好適と考えるが、本開示を読むことにより他の実施例も考えられる。
A.まず、3×3テンプレートを使用できる中央値フィルタによって行画像を処理する。次に、W4>N1であれば、得られた行画像に対して強い膨張が実行される。この場合、閾値N1は40〜80であり、好ましくは60である。この場合、W4の値は分類ステップ716で得られた値であるが、中央値フィルタによる処理の後に再び分類されても良い。再分類が実行される場合、閾値の範囲と好ましい値は様々に異なり、当業者により発明性を要する労力なしに実験を経て獲得されるであろう。
B.まず、行画像を平滑化する。次に、W4>N1であれば、得られた行画像に対して強い膨張を実行する。この場合、閾値N1は40〜80、好ましくは60である。同様に、W4の値は分類ステップ716で得られた値であるが、中央値フィルタによる処理の後に再び分類されても良い。再分類が実行される場合、閾値の範囲と好ましい値は様々に異なり、当業者により発明性を要する労力なしに実験を経て得られるであろう。
C.行画像が行雑音抑制ステップで平滑化されており且つB8>=N9である場合、行画像に対して強い膨張が実行される。行画像が行雑音抑制ステップで平滑化されていない場合には、行画像を第1の処理ステップ、再分類ステップ及び第2の処理ステップにより処理する。
第1の処理ステップは表6に示される動作から成る。
Figure 0004164489
再分類ステップは分類ステップ716に類似しているので、ここではその詳細な説明を省略する。第1の処理ステップで得られた行画像を再び分類することにより、W4、W8及びB4、B8の新たな値が獲得される。
第2の処理ステップは次の動作から成る。B8>=N5かつW4>=N8であれば、第1の処理ステップから得られた行画像に対して強い膨張を実行する。B8<N5かつW8>N6かつW4>N7であれば、第1の処理ステップから得られた行画像に対して弱い膨張を実行する。この場合、閾値N1〜N9は表7に示される値であれば良い。
Figure 0004164489
正常行画像強調ステップ720、破断ストローク行画像強調ステップ722又は中抜けストローク行画像強調ステップ724の後、強調行画像が得られる。全ての強調行画像は、ブロック雑音抑制ステップ704で得られた行間画像と共に強調ブロック画像を構成する。
以上、本発明による文書画像強調方法の好ましい実施例の工程を詳細に説明した。ほぼ工程ごとに、その工程の2つ以上の実施例を提示した。様々に異なる工程の様々に異なる実施例をどのように組み合わせても良く、従って、本発明による方法の好ましい実施例が実際には複数の変形例を含むことは自明である。
(好ましい実施例の変形例)
以上説明した好ましい実施例は、原文書画像から分割されたブロック画像を強調することを目的としている。しかし、本発明は、複写装置などの走査手段から入力される原文書画像を直接に強調することが可能であるように、図7Aに示すようなブロック分割ステップ104を含んでいても良い。
図8A及び図8Bから図11A及び図11Bは本発明の効果を示す。図8A、図9A、図10A及び図11Aは、それぞれ、背景雑音、破断ストローク、中抜けストローク及びジグザグストロークを有する画像サンプルを示す。図8B、図9B、図10B及び図11Bは対応する強調画像を示す。画像の視覚的見かけが大幅に改善されていることが見て取れるであろう。従って、本発明は一般的な目的に使用できるのみならず、複写装置でも使用できるであろう。
<文字認識方法>
本発明は、本発明による文書画像強調方法を使用する文字認識方法を更に提供する。図7Cは、本発明による文字認識方法の一実施例を示す。図7A及び図7Bに示されるステップに加えて、方法は文字分割ステップ112及び単独文字認識ステップ116を含み、これら2つのステップは周知の技法である。本発明を適用すると、文書画像、特にハーフトーン文書画像の認識率を大幅に改善できるであろう。発明者は、本発明による強調方法を使用した場合と、使用しない場合とについていくつかのサンプルを認識することによって本発明をエミュレートした。その結果を図12及び図13に示す。
評価に使用されたハーフトーン文書画像は「Canon ImageRunner 2800」を使用して雑誌、印刷物、本及び小型新聞から複製され、発明者が定義した特性によって画像が分類される。ハーフトーン文書画像のファイルフォーマットは「TIFF」であり、DPIは300、400及び600を含む。総文字数は71244であり、そのうち、背景雑音を含む文字は23339文字、破断ストロークは13961文字、中抜けストロークは17689文字、ジグザグストロークは16255文字である。
図12に示されるように、本発明による強調を使用した後、総合認識率は大幅に改善される。図13は、強調を使用した場合及び使用しない場合の異なる種類の文字の認識をそれぞれ示す。
本発明は文書画像強調装置及び文字認識装置を更に提供し、それらの装置について以下に詳細に説明する。先に説明した方法と同様に、本発明の文書画像強調装置及び文字認識装置を構成する構成要素は、いずれも、先に説明したような情報処理機器の1つの構成要素又は構成要素の組み合わせであっても良いし、あるいは先に説明したような情報処理機器に設置された又は組み込まれたソフトウェア及びハードウェア及びファームウェアの組み合わせであっても良い。本発明による装置の構成要素を実現することは当業者には容易であろう。また、各々の構成要素の機能がI/O装置、メモリ装置、CPUなどのマイクロプロセッサ等の使用を含むであろうということは当業者には自明である。以下の本発明の装置の説明は必ずしもそれらの装置を挙げていないが、実際にはそれらの装置が使用される。例えば、原画像処理結果及び全ての中間処理結果は、プロセスが完了するまで、一時的又は永久的にいずれかの場所に格納されることが確実である。情報処理機器の特定の一例として、先にコンピュータシステムについて説明したので、ここではその説明を省略する。
<文書画像強調装置>
(好ましい実施例)
図14は、文書画像強調装置1400の好ましい一実施例を示し、装置の構成要素について以下に説明する。
記憶手段1406は強調されるべき原ブロック画像、中間処理画像及び最終画像、並びに以下に説明するような行画像又は行間画像の特性などの他の中間結果を格納するように構成されている。
第1の雑音フィルタ1404は、原ブロック画像における雑音を抑制して、雑音抑制ブロック画像を生成するように構成されている。第1の雑音フィルタ1404は、先に文書画像強調方法と関連して説明したフィルタのうちのいずれであっても良い。特に、中央値フィルタ又は平均値フィルタであっても良い。3×3テンプレートを使用する中央値フィルタが好ましい。
行分割手段1408は雑音抑制ブロック画像を分割するように構成され、行画像の位置情報を生成する。行分割手段は周知の技法に属する。
事前解析器1410は、原ブロック画像における行画像及び行間画像を解析して、行画像及び行間画像の特性を生成するように構成されている。先に説明したように、それらの特性は各画像の文字数、行間雑音の数、行間雑音密度、各行画像の黒色画素密度及び連結構成要素密度(W4、W8、B4又はB8を含むであろう)を含む。これに対応して、図15に示されるように、事前解析器1410は先に説明したように各行画像の文字数を計算するように構成された文字カウンタ1502と、各行画像における連結要素を分類し、連結構成要素の数及び文字カウンタ1502から得られる文字数に基づいて対応する連結構成要素密度を計算するように構成された分類器1504と、先に説明したように行間画像における雑音の数をカウントし、先に説明したように行間雑音密度を計算するように構成された行間雑音カウンタ1506と、各行画像における黒色画素の密度を計算するように構成された黒色画素密度計算器1508とを含む。この場合、事前解析器1410の分類器1504を省略し、事前解析器1410が以下に説明するような分類手段1412を使用しても良い。
第2の雑音フィルタ1416は、先に述べたような特性に基づいて原ブロック画像の行画像における雑音を抑制して、雑音抑制行画像を生成するように構成されている。雑音抑制動作の特定の方式は「文書画像強調方法」の部分で既に説明されている。
分類手段1412は画像における連結構成要素を分類し、画像の様々に異なる連結構成要素の密度を生成するように構成されており、第2の雑音フィルタから得られる雑音抑制行画像を分類すると共に、必要に応じて正常行画像強調器1420、中抜けストローク行画像強調器1422及び破断ストローク行画像強調器1424で生成される他の中間行画像を分類するために使用される。分類手段1412は先に述べた事前解析器1410の分類器1504とほぼ同じであるので、それらを1つに統合しても差し支えない。
分類手段1418は、分類手段1412から得られる連結構成要素密度に従って、雑音抑制行画像を正常行画像、破断ストローク行画像及び中抜けストローク行画像を含む3つの種類に分類するように構成されている。特定の分類方式は既に説明されている。
正常行強調器1420は、上記の特性に基づいて、正常行画像を平滑化することにより正常行画像を強調するように構成されている。中抜けストローク行画像強調器1422は、上記の特性に基づいて、中抜けストローク行画像のストロークにおける抜け領域を充填することにより中抜けストローク行画像を強調するように構成されている。破断ストローク行画像強調器1424は、上記の特性に基づいて、破断ストローク行画像における破断ストロークを連結することにより破断ストローク行画像を強調するように構成されている。これらの強調器の特定の動作は既に「文書画像強調方法」の部分で説明されている。
正常行画像強調器1420、中抜けストローク行画像強調器1422及び破断ストローク行画像強調器1424の動作が分類手段1412で生成される連結構成要素密度の使用を必要とすることは起こりうる。また、先に説明したように、強調器は、行画像を更に強調するために、その中間結果を分類手段により再び分類させ、再分類結果を使用しても良い。
文書画像強調装置は、上述の構成要素の動作を制御するように構成され、各行画像が処理されることを保証するコントローラを更に含む。
(好ましい実施例の変形例)
以上説明した好ましい実施例は、原文書画像から分割されたブロック画像を強調することを目的としている。しかし、本発明による装置は、複写装置などの走査手段から入力される原文書画像を直接に強調することが可能であるようにブロック分割手段(図示せず)を更に含んでいても良い。
<文字認識装置>
本発明は、原文書画像を分割して、ブロック画像を獲得するように構成されたブロック分割手段1602と、先に説明した文書画像強調装置1400と、強調ブロック画像における行画像を単独文字画像に分割するように構成された文字分割手段1604と、各単独文字画像を認識するように構成された単独文字認識手段1606とを具備する文字認識装置1600(図16)を更に提供する。ブロック分割手段1602、文字分割手段1604及び単独文字認識手段1606は全て従来の技術である。
<記憶媒体>
本発明の目的は、前記画像源及びそれに続く処理装置と通信する、先に説明したような情報処理機器で1つのプログラム又は1組のプログラムを実行することによっても実現できるであろう。それらの情報処理機器、画像源及びそれに続く処理装置は全て周知の汎用機器である。従って、本発明の目的は、単に、前述の文書画像強調方法又は文字認識方法を実現できるプログラムコードを提供することにより実現できるであろう。すなわち、前述の文書画像強調方法又は文字認識方法を実現するためのプログラムコードを格納する記憶媒体は本発明を構成する。
いずれかのプログラム言語を使用して前述の文書画像強調方法又は文字認識方法をプログラムすることは当業者には容易であったと考えられる。従って、プログラムコードの詳細な説明を省略する。
また、記憶媒体は当業者に知られているどのような種類のものであっても良く、あるいは将来開発されても良いので、ここで様々な記憶媒体を列挙する必要はない。
本発明をここで開示した特定の工程及び構造に関連して説明したが、本発明は記載された詳細に限定されず、本出願は本発明の趣旨の範囲から逸脱しない全ての変更、改変及び変形を含むことが意図されている。例えば、先に説明した文書画像強調装置及び文字認識装置に関して、様々に異なる構成要素は別個に実現されても良いが、それらのいくつかは統合されても良い。例えば、文書画像を格納するメモリを含む様々なメモリは物理的には1つのメモリであっても良い。また、いずれか1つの構成要素の機能を2つ以上の構成要素に配分することも可能である。更に、本発明の文書画像強調方法及び装置は文字認識のみならず、複写装置などの様々な目的で画像強調に適用されることが可能である。更に、本発明において使用される評価結果及び閾値は中国語の文書画像に本発明を適用することにより得られていた。この開示を読んだ後であれば、当業者は任意の言語の文書画像に容易に本発明を適用するであろう。その場合、閾値は通常の実験を経てわずかに修正される。従って、本発明の保護範囲があらゆる言語の文書画像の強調及び認識を包含していることは疑いない。
従来の技術によるOCR方法のフローチャート。 多数の雑音を有するハーフトーン画像の一例を示す図。 破断ストロークを含むハーフトーン画像の一例を示す図。 中抜けストロークを含むハーフトーン画像の一例を示す図。 ジグザグストロークを含むハーフトーン画像の一例を示す図。 本発明を実現できる情報処理システムのブロック線図。 本発明による文書画像強調方法の好ましい一実施例のフローチャート。 図7Aに示される実施例の変形例を示す図。 本発明による文字認識方法の好ましい一実施例のフローチャート。 本発明により処理される前及びその後の多数の雑音を有する文書画像サンプルを示す図。 本発明により処理される前及びその後の多数の雑音を有する文書画像サンプルを示す図。 本発明により処理される前及びその後の破断ストロークを含む文書画像サンプルを示す図。 本発明により処理される前及びその後の破断ストロークを含む文書画像サンプルを示す図。 本発明により処理される前及びその後の中抜けストロークを含む文書画像サンプルを示す図。 本発明により処理される前及びその後の中抜けストロークを含む文書画像サンプルを示す図。 本発明により処理される前及びその後のジグザグストロークを含む文書画像サンプルを示す図。 本発明により処理される前及びその後のジグザグストロークを含む文書画像サンプルを示す図。 本発明を使用するOCRエンジンの性能を示すヒストグラム。 本発明を使用するOCRエンジンの性能を示す別のヒストグラム。 本発明による文書画像強調装置の好ましい一実施例のブロック線図。 図14に示される事前解析器のブロック線図。 本発明による文字認識装置のブロック線図。
符号の説明
1400…文書画像強調装置、1402…コントローラ、1404…第1の雑音フィルタ、1406…記憶手段、1408…行分割手段、1410…事前解析器、1412…分類手段、1416…第2の雑音フィルタ、1418…分類手段、1420…正常行画像強調器、1422…中抜けストローク行画像強調器、1424…破断ストローク行画像強調器、1502…文字カウンタ、1504…分類器、1506…行間雑音カウンタ、1508…黒色画素密度計算器、1600…文字認識装置、1602…ブロック分割手段、1604…文字分割手段、1606…単独文字認識手段

Claims (17)

  1. 画像における連結構成要素の数を行画像の文字の数で除算することにより、前記行画像における黒色8連結構成要素密度と白色8連結構成要素密度とを獲得する連結構成要素密度獲得工程と、
    前記黒色8連結構成要素密度と白色8連結構成要素密度とに基づいて、前記行画像を正常行画像、破断ストローク行画像及び中抜けストローク行画像のいずれかの種類に分類する行画像分類工程と、
    前記画像に対して、前記行画像分類工程で分類された種類に応じた強調処理を実行することにより、強調行画像を獲得する強調工程と
    を備え、
    前記行画像分類工程では、
    白色8連結構成要素密度<=閾値T1であり且つ黒色8連結構成要素密度>=閾値T2であれば、前記行画像は前記破断ストローク行画像であると分類し、
    白色8連結構成要素密度>閾値T1であれば、前記行画像は前記中抜けストローク行画像であると分類し、
    白色8連結構成要素密度<=閾値T1であり且つ黒色8連結構成要素密度<閾値T2であれば、前記行画像は前記正常行画像であると分類するものであり、
    更に、閾値T1は2〜4であり、閾値T2は3〜5であることを特徴とする文書画像強調方法。
  2. 原ブロック画像における雑音を抑制することにより、雑音抑制ブロック画像を得るブロック画像雑音抑制工程と、
    前記雑音抑制ブロック画像を分割し、行画像の位置情報を獲得する工程と、
    前記原ブロック画像における行画像及び行間画像を解析し、行画像及び行間画像の特性を獲得する工程と、
    前記特性に基づいて原ブロック画像における行画像の雑音を抑制することにより、雑音抑制行画像を得る行画像雑音抑制工程と、を更に備え、
    前記連結構成要素密度獲得工程と前記行画像分類工程と前記強調工程とで処理対象になる行画像は、前記行画像雑音抑制工程で雑音が抑制された雑音抑制行画像であることを特徴とする請求項1に記載の文書画像強調方法。
  3. 前記特性は、
    1つの行画像における連結構成要素の数をその行画像の文字の数で除算することにより求めた、黒色8連結構成要素密度、黒色4連結構成要素密度、白色8連結構成要素密度及び白色4連結構成要素密度のうちの少なくとも1つを含む連結構成要素密度と、
    1つの行画像における黒色画素の数をその行画像の画素における面積で除算することにより求めた黒色画素密度と、
    つの行画像の上下の行間画像から選択された所定の領域における行間雑音の数と、
    前記行間雑音の数を前記領域の面積で除算した値に等しい行間雑音密度と、
    関連する行画像の高さに等しい文字高さと、
    原ブロック画像から読み取られるDPIと
    のうちの少なくとも1つを含むことを特徴とする請求項記載の文書画像強調方法。
  4. 前記行画像雑音抑制工程は、行間雑音密度と黒色画素密度と連結構成要素密度との少なくともいずれかに従って行画像の雑音を抑制することを含むことを特徴とする請求項記載の文書画像強調方法。
  5. 前記閾値T1は3であり、前記閾値T2は4であることを特徴とする請求項5記載の文書画像強調方法。
  6. 前記強調工程は、
    前記正常行画像を平滑化することにより強調する正常行画像強調工程と、
    前記中抜けストローク行画像を、ストロークの抜け領域を充填することにより強調する中抜けストローク画像強調工程と、
    前記破断ストローク行画像を、その破断ストロークを連結することにより強調する破断ストローク画像強調工程と
    を有することを特徴とする請求項1乃至5のいずれか1項に記載の文書画像強調方法。
  7. 前記正常行画像強調工程は、正常行画像を連結構成要素密度と文字高さとその正常行画像との少なくともいずれかがその時点までに平滑化されたことがあるか否かに従って平滑化することを含むことを特徴とする請求項記載の文書画像強調方法。
  8. 前記破断ストローク行画像強調工程は、
    破断ストローク行画像に対して強い膨張を実行する工程と、
    その結果得られた行画像を中央値フィルタによって処理する工程とを含むことを特徴とする請求項記載の文書画像強調方法。
  9. 前記破断ストローク行画像強調工程は、連結構成要素密度又は文字高さ又はその両方に応じて、行画像に対して強い膨張を実行する強膨張実行工程又は行画像に対して弱い膨張を実行する弱膨張実行工程を含むことを特徴とする請求項記載の文書画像強調方法。
  10. 前記強膨張実行工程は、平滑化する平滑化工程と、平滑化行画像の連結構成要素密度に応じて行画像に対して強い膨張を実行する工程とを更に含むことを特徴とする請求項記載の文書画像強調方法。
  11. 前記平滑化工程は、連結構成要素密度及び行画像がその時点までに平滑化されたことがあるか否かに応じて行画像を平滑化することを含むことを特徴とする請求項10記載の文書画像強調方法。
  12. 前記中抜けストローク行画像強調工程は、行画像を平滑化する行画像平滑化工程と、その結果得られた行画像を膨張させる行画像膨張工程とを含むことを特徴とする請求項記載の文書画像強調方法。
  13. 前記行画像膨張工程は、連結構成要素密度に応じて行画像に対して膨張を実行すべきか否かを判定する工程又は連結構成要素密度に応じて行画像に対して強い膨張を実行すべきか又は弱い膨張を実行すべきかを判定する工程又はその両方を含むことを特徴とする請求項12記載の文書画像強調方法。
  14. 前記行画像平滑化工程は、連結構成要素密度及び行画像がその時点までに平滑化されたことがあるか否かに応じて行画像を平滑化すべきか否かを判定する工程又は連結構成要素密度に従って平滑化方法を判定する工程又はその両方を含むことを特徴とする請求項12記載の文書画像強調方法。
  15. 更に、
    前記強調行画像を単独文字画像に分割する工程と、
    前記分割された単独文字画像を文字認識する工程と
    を備えることを特徴とする請求項1に記載の文書画像強調方法。
  16. 画像における連結構成要素の数を行画像の文字の数で除算することにより、前記行画像における黒色8連結構成要素密度と白色8連結構成要素密度とを獲得する連結構成要素密度獲得手段と、
    前記黒色8連結構成要素密度と白色8連結構成要素密度とに基づいて、前記行画像を正常行画像、破断ストローク行画像及び中抜けストローク行画像のいずれかの種類に分類する画像分類手段と、
    前記行画像に対して、前記行画像分類工程で分類された種類に応じた強調処理を実行することにより、強調行画像を獲得する強調手段と、を備え、
    前記行画像分類手段では、
    白色8連結構成要素密度<=閾値T1であり且つ黒色8連結構成要素密度>=閾値T2であれば、前記行画像は前記破断ストローク行画像であると分類し、
    白色8連結構成要素密度>閾値T1であれば、前記行画像は前記中抜けストローク行画像であると分類し、
    白色8連結構成要素密度<=閾値T1であり且つ黒色8連結構成要素密度<閾値T2であれば、前記行画像は前記正常行画像であると分類するものであり、
    更に、閾値T1は2〜4であり、閾値T2は3〜5であることを特徴とする文書画像強調装置。
  17. 請求項1乃至15のいずれか1項に記載の方法をコンピュータに実行させるためのプログラムコードを格納したコンピュータ読み取り可能な記憶媒体。
JP2004342872A 2003-11-28 2004-11-26 文書画像強調方法、装置及びそのための記憶媒体 Expired - Fee Related JP4164489B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2003101186847A CN1310182C (zh) 2003-11-28 2003-11-28 用于增强文档图像和字符识别的方法和装置

Publications (2)

Publication Number Publication Date
JP2005174323A JP2005174323A (ja) 2005-06-30
JP4164489B2 true JP4164489B2 (ja) 2008-10-15

Family

ID=34744502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004342872A Expired - Fee Related JP4164489B2 (ja) 2003-11-28 2004-11-26 文書画像強調方法、装置及びそのための記憶媒体

Country Status (3)

Country Link
US (1) US7505632B2 (ja)
JP (1) JP4164489B2 (ja)
CN (1) CN1310182C (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606445B2 (en) * 2005-11-30 2009-10-20 General Electric Company Methods and systems for ultrasound inspection
US8280157B2 (en) * 2007-02-27 2012-10-02 Sharp Laboratories Of America, Inc. Methods and systems for refining text detection in a digital image
US8548267B1 (en) * 2007-09-28 2013-10-01 Amazon Technologies, Inc. Processing a digital image of content using content aware despeckling
US8838489B2 (en) 2007-12-27 2014-09-16 Amazon Technologies, Inc. On-demand generating E-book content with advertising
JP5208540B2 (ja) * 2008-02-27 2013-06-12 株式会社Pfu 画像ファイル振分方法、画像ファイル振分装置、および、プログラム
CN101593278B (zh) * 2008-05-27 2013-01-16 佳能株式会社 文档图像的语言判别方法和系统
US8306327B2 (en) * 2008-12-30 2012-11-06 International Business Machines Corporation Adaptive partial character recognition
CN101872475B (zh) * 2009-04-22 2012-03-28 中国科学院自动化研究所 一种扫描文档图像自动配准方法
JP2012114606A (ja) * 2010-11-24 2012-06-14 Hitachi Consumer Electronics Co Ltd 制御装置及び制御方法
JP2013029904A (ja) * 2011-07-27 2013-02-07 Sony Corp 画像処理装置および画像処理方法
JP5547226B2 (ja) * 2012-03-16 2014-07-09 株式会社東芝 画像処理装置、及び画像処理方法
US9251568B1 (en) * 2014-08-29 2016-02-02 Konica Minolta Laboratory U.S.A., Inc. Pseudo-skeleton based image enhancement for document image reproduction
CN109378279B (zh) * 2018-11-12 2020-12-18 武汉新芯集成电路制造有限公司 晶圆检测方法及晶圆检测系统
CN110298350B (zh) * 2019-06-18 2024-01-23 新疆大学 一种高效的印刷体维吾尔文单词分割算法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5142689A (en) * 1982-09-27 1992-08-25 Siemens Nixdort Informationssysteme Ag Process for the preparation of the connection of one of several data processor devices to a centrally synchronized multiple line system
US4891750A (en) * 1986-10-29 1990-01-02 Pitney Bowes Inc. Optical character recognition by forming and detecting matrices of geo features
US5121440A (en) * 1990-08-30 1992-06-09 Monolithic Resources Corporation Analog video character recognition system
US5438628A (en) * 1993-04-19 1995-08-01 Xerox Corporation Method for matching text images and documents using character shape codes
EP0677817B1 (en) * 1994-04-15 2000-11-08 Canon Kabushiki Kaisha Page segmentation and character recognition system
US5848186A (en) * 1995-08-11 1998-12-08 Canon Kabushiki Kaisha Feature extraction system for identifying text within a table image
WO1997013217A1 (fr) * 1995-10-05 1997-04-10 Fujitsu Denso Ltd. Procede d'enregistrement des empreintes digitales et appareil pour classer ces empreintes
US6400845B1 (en) * 1999-04-23 2002-06-04 Computer Services, Inc. System and method for data extraction from digital images
JP4392907B2 (ja) * 1999-07-30 2010-01-06 株式会社東芝 文字切出し方法
EP1661062A4 (en) * 2003-09-05 2009-04-08 Gannon Technologies Group SYSTEMS AND METHODS FOR BIOMETRIC IDENTIFICATION THROUGH THE USE OF HANDWIRE IDENTIFICATION

Also Published As

Publication number Publication date
US20050180660A1 (en) 2005-08-18
CN1622120A (zh) 2005-06-01
JP2005174323A (ja) 2005-06-30
US7505632B2 (en) 2009-03-17
CN1310182C (zh) 2007-04-11

Similar Documents

Publication Publication Date Title
JP4423298B2 (ja) デジタル画像におけるテキスト状エッジの強調
JP5624004B2 (ja) ハーフトーンパターンで印刷されたグレーまたは淡色テキストを含む、スキャンされた文書画像を2値化するための方法
JP3768052B2 (ja) カラー画像処理方法、カラー画像処理装置、及びそのための記録媒体
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
JP4164489B2 (ja) 文書画像強調方法、装置及びそのための記憶媒体
JP4719386B2 (ja) カラー原稿の解釈
JP5455038B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2003132358A (ja) 画像処理方法、装置およびシステム
JP2008148298A (ja) 画像における異なった内容の領域を識別する方法、画像における異なった内容の領域を識別する装置、および画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
US8611658B2 (en) Image processing apparatus and image processing method
JP2007172132A (ja) レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
JP3995185B2 (ja) 枠認識装置及び記録媒体
EP1017011A2 (en) Block selection of table features
US6532302B2 (en) Multiple size reductions for image segmentation
JP6743092B2 (ja) 画像処理装置、画像処理の制御方法、及びプログラム
JP2000132690A (ja) ト―クン化によるイメ―ジ分割を用いたイメ―ジ処理方法および装置
US8229214B2 (en) Image processing apparatus and image processing method
JP3296874B2 (ja) 入力イメージが空白であるかどうかを決定する方法
US5768414A (en) Separation of touching characters in optical character recognition
JP4049560B2 (ja) 網点除去方法及びシステム
JPH11213090A (ja) 文字図形と背景領域の識別方法およびその装置およびその方法を記録した記録媒体
Ozawa et al. A character image enhancement method from characters with various background images
JP4446332B2 (ja) セグメンテーション・ベースのハーフトーニング
US20220021787A1 (en) Apparatus, method, and storage medium for removing shading dots

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080714

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080728

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120801

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120801

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130801

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees