JP4208918B2 - 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体 - Google Patents

文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体 Download PDF

Info

Publication number
JP4208918B2
JP4208918B2 JP2006348393A JP2006348393A JP4208918B2 JP 4208918 B2 JP4208918 B2 JP 4208918B2 JP 2006348393 A JP2006348393 A JP 2006348393A JP 2006348393 A JP2006348393 A JP 2006348393A JP 4208918 B2 JP4208918 B2 JP 4208918B2
Authority
JP
Japan
Prior art keywords
pixels
connected component
text
edge
binarization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006348393A
Other languages
English (en)
Other versions
JP2007184916A (ja
Inventor
ヤンキン・ワン
ユウ ヤーピン
ドゥ シャンフェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2007184916A publication Critical patent/JP2007184916A/ja
Application granted granted Critical
Publication of JP4208918B2 publication Critical patent/JP4208918B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

本発明は、一般に画像処理に関する。特に、本発明は、文書画像からテキストを抽出する装置、文書画像からテキストを抽出する方法、コンピュータプログラム及びその記憶媒体に関する。
テキスト抽出は、光学文字認識(OCR)、テキストによるビデオ検索、文書画像圧縮等の多くのアプリケーションに対して非常に重要なステップである。現在の殆どの技術は、単純な背景を有する画像からテキストを抽出することを目的としている。近年、複雑な画像からテキストを抽出する技術は、複雑な文書の解析、工学図面解析等の益々多くの分野において必要とされている。しかし、複雑な背景を有する文書画像からテキストを抽出することは非常に困難な問題である。多くの方法が研究者たちにより提案されてきたが、それらの方法の殆どが単純な画像又はそれ程複雑でない画像に対してのみ効果的である。
現在のテキスト抽出方法は、カラークラスタリングに基づく方法及びエッジ解析に基づく方法の2つのグループに分類される。
カラークラスタリングに基づく方法は、テキストが単一の前景色を有すると仮定する。しかし、これは、特に小さな文字の場合には必ずしも当てはまるとは限らない。例えば、テキスト文字は異なる色で印刷されることもあり、画像は不均一な照度条件の下で取り込まれることもある。また、小さなテキストの場合、遷移領域が線幅と比較して広すぎるため、前景色は必ずしも一様であるとは限らない。従って、画像全体に対して適切なグローバルな2値化閾値を取得することは困難であり、一様でない色を持つ淡色の背景を全て削除することは不可能である。
一方、エッジ解析に基づく方法は、テキストが背景に対して大きなコントラストを有すると仮定する。しかし、複雑な背景を有する画像において、テキストでないオブジェクトが、背景に対して大きなコントラストを有する可能性があり、これは、エッジ検出処理後にテキストのエッジとテキストでないエッジとが相互に接触する原因となる。このことは、エッジ解析に対して問題又は不安定な結果をもたらすことが多い。
例えば、特許文献1は、画像処理方法、その装置及び画像処理機能を格納する記録媒体を開示する。
図10に、特許文献1により開示される画像処理方法のフローチャートを示す。
背景画像においてもノイズ妨害認識のない2値画像を取得するために、閾値処理される元の画像の密度画像が、ステップS101において入力され、ステップS102において格納される。その後、ステップS103において、ある特定の画素が認識され、その画素が文字のエッジであるか否か、又は罫線であるか否かが判断される。ステップS104において、エッジと判断された画素の2値画像における画素値が判定され格納される。ステップS105において、それら動作が元の画像の全ての画素に対して繰り返され、ステップS106において、エッジ以外の画素の全ての連結成分が見つけ出される。ステップS107において、ある特定の連結成分の周辺に接触させられ、かつ既に判定された画素値を有する画素が認識され、黒画素及び白画素の数がそれぞれカウントされる。ステップS108において、黒画素及び白画素の数は相互に比較され、黒画素数の方が大きい場合、ステップS110において、連結成分全体は黒画素として登録される。黒画素数の方が大きくない場合、ステップS109において、連結成分全体は白画素として登録される。ステップS111において、この動作は全ての連結成分に対して繰り返され、2値画像は、ステップS112において生成され、ステップS113において出力される。
特開2000−20714号公報
上述の方法によると、背景に現れる連結成分により形成される長い線が認識され、2値化エッジマップから除去される。しかし、2値化された後のエッジマップにおいて、結合したテキスト行が長い連結成分を形成する場合がある。この場合、結合したテキスト行からテキストを分離することは容易ではなく、結合したテキスト行全体が背景と考えられ、かつ上述の方法に従って無視される可能性がある。ところが、テキスト行は、要求対象であり、単純に除去されるべきではないものである。従って、複雑な背景を有する走査済文書画像が上述の従来技術に従って2値化され、かつ処理される場合、有用なテキストが失われる可能性がある。
よって、本発明の目的は、上述の従来技術における欠点を克服するように、文書画像からテキストを抽出する装置、文書画像からテキストを抽出する方法、コンピュータプログラム及びその記憶媒体を提供することである。
上記目的を達成するために、本発明の一態様によれば、勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理手段と、前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出手段とを有する装置であって、前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されるまで、前記2値化に用いる閾値を大きくしていくことを特徴とする装置が提供される。
上記目的を達成するために、本発明の一態様によれば、文書画像から勾配画像を得る得手段と、前記勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像におけるネガティブエッジ連結成分及びポジティブエッジ連結成分を検索する検索手段と、前記検索されたネガティブエッジ連結成分及びポジティブエッジ連結成分の中から所定の値より長い連結成分を前記2値化により得られる画像から除去する除去手段と、前記除去手段で前記長い連結成分の除去された前記2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理手段と、前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出手段とを有する装置であって、前記処理手段で前記各連結成分の画素数が前記所定画素数より小さくないと判定されると、前記勾配画像に対して前記閾値を大きくした閾値を用いて2値化し、再度、前記処理手段で当該2値化により得られる画像における各連結成分の画素数が前記所定画素数より小さいかを判定する処理を行うことを特徴とする装置が提供される。
上記目的を達成するために、本発明の別の態様によれば、処理手段と、抽出手段とを有する装置にて実行される方法であって、前記処理手段が、勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理工程と、前記抽出手段が、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出工程とを有し、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されるまで、前記2値化に用いる閾値を大きくしていくことを特徴とする方法が提供される。
上記目的を達成するために、本発明の別の態様によれば、得手段と、検索手段と、除去手段と、処理手段と、抽出手段とを有する装置にて実行される方法であって、前記得手段が、文書画像から勾配画像を得る得工程と、前記検索手段が、前記勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像におけるネガティブエッジ連結成分及びポジティブエッジ連結成分を検索する検索工程と、前記除去手段が、前記検索されたネガティブエッジ連結成分及びポジティブエッジ連結成分の中から所定の値より長い連結成分を前記2値化により得られる画像から除去する除去工程と、前記処理手段が、前記除去工程で前記長い連結成分の除去された前記2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理工程と、前記抽出手段が、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出工程とを有し、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さくないと判定されると、前記勾配画像に対して前記閾値を大きくした閾値を用いて2値化し、再度、前記処理工程で当該2値化により得られる画像における各連結成分の画素数が前記所定画素数より小さいかを判定する処理を行うことを特徴とする方法が提供される。
複雑な背景を有する文書画像からテキストを抽出する方法をコンピュータに実行させるためのコンピュータプログラムが提供される。
更に、複雑な背景を有する文書画像からテキストを抽出する方法をコンピュータに実行させるためのコンピュータプログラムを記憶したコンピュータにより読み取り可能な記憶媒体が提供される。
本発明の他の目的、特徴及び利点は、添付の図面と関連付けることにより以下の説明から明らかとなるだろう。図中、同一の図中符号は、同一の要素又は同様の要素を示す。
添付の図面は、本明細書の一部と連携し、かつ一部を構成し、本発明の実施形態を図示し、その記述により本発明の説明に資するものである。
以下の詳細な説明において、本発明を理解するために多くの特定の詳細を示す。しかし、本発明は、それら特定の詳細に限定されるべきでないことは、当業者には理解されるだろう。
[コンピュータシステムの例]
本発明の方法は、任意の画像処理機器、例えばパーソナルコンピュータ(PC)、ノートブック、又はカメラ、ビデオカメラ、スキャナに組み込まれたシングルチップマイクロコンピュータ(SCM)等において実現されてもよい。当業者は、ソフトウェア、ハードウェア、及び/又はファームウェアによって本発明の方法を容易に実現するだろう。尚、方法の任意のステップ又はステップの任意の組み合わせ、或いは構成要素の任意の組み合わせを実現するために、I/O機器、メモリ素子、CPUなどのマイクロプロセッサなどを使用する必要があることは、当業者には明らかである。以下の説明及び本発明の方法において、そのような機器が実際に使用される場合でも、それらについて必ずしも説明するとは限らない。
上述の画像処理機器として、図1のブロック図に、本発明と共に使用されてもよい典型的なコンピュータシステムの一例を示す。尚、図1はコンピュータシステムの種々の構成要素を示すが、構成要素を相互に接続する特定のアーキテクチャー又は方法を表すことを意図しておらず、それらの詳細は本発明に密接に関係するわけではない。また、より少ない構成要素又はより多くの構成要素を有するネットワークコンピュータ及び他のデータ処理システムが、本発明と共に使用されてもよいことは理解されるだろう。
図1に示すように、データ処理システムの形態であるコンピュータシステムは、マイクロプロセッサ102、ROM104、揮発性RAM105及び不揮発性メモリ106に結合されるバス101を含む。インテルのペンティアム(登録商標)マイクロプロセッサであってもよいマイクロプロセッサ102は、図1の例に示すように、キャッシュメモリ103に結合される。バス101はこれらの種々の構成要素を相互接続し、またそれら構成要素103、104、105及び106をディスプレイ制御部/表示機器107及び入出力(I/O)機器等の周辺機器と相互接続する。入出力機器は、従来技術において周知のマウス、キーボード、モデム、ネットワークインタフェース、プリンタ及び他の機器であってもよい。通常、入出力機器109は、入出力制御部108を介してシステムに結合される。揮発性RAM105は、一般にダイナミックRAM(DRAM)として実現され、リフレッシュするため又はメモリにデータを維持するために継続的に電力を必要とする。不揮発性メモリ106は、一般に磁気ハードドライブ、光磁気ドライブ、光ドライブ、DVD RAM又は他の種類のメモリシステムであり、電源がシステムから取り外された後でもデータを維持する。通常は、不揮発性メモリはランダムアクセスメモリであるが、これは必須ではない。図1は、不揮発性メモリがデータ処理システムの残りの構成要素に直接結合されるローカルデバイスであることを示す。しかし、本発明は、モデム又はイーサネット(登録商標)インタフェースなどのネットワークインタフェースを介してデータ処理システムに結合されるネットワーク記憶機器などのシステムから遠隔の不揮発性メモリを利用してもよいことが理解されるだろう。バス101は、従来技術の周知の種々のブリッジ、制御部及び/又はアダプタを介して互いに接続される1つ以上のバスを含んでもよい。一実施形態において、I/O制御部108はUSB周辺機器を制御するUSB(Universal Serial Bus)アダプタを含む。
[複雑な背景を有する文書画像からのテキスト抽出方法及び装置]
本発明に係る複雑な背景を有する文書画像からテキストを抽出する方法及び装置において、エッジ情報はテキストを抽出するために使用され、背景エッジの妨害を克服するために、次の新規な動作を行う。1)エッジの分類に基づいてエッジマップにおける背景オブジェクトで形成された長い連結成分又は(長い背景エッジ連結成分と呼ばれる)非常に近接するテキストを除去する。2)エッジ連結成分サイズのフィードバックを使用してエッジマップを再計算する。3)エッジ連結成分分類に基づいてテキストマップをマーク付けする。
ここで、連結成分は連結エッジをカバーする領域であり、エッジ分類はエッジ画素をポジティブエッジ又はネガティブエッジに分類することを意図し、これについては以下に更に詳細に説明する。エッジマップとは、オブジェクトのエッジ画素のみを含む画像であり、エッジ連結成分サイズのフィードとは、エッジ連結成分のサイズを一種のフィードバックとして見ることができることを意味する。そして、そのフィードバックを使用してエッジマップを再計算するべきか否かを判定することができる。
本発明に従って複雑な背景を有する文書画像からテキストを抽出する方法は、一般に、以下のステップから成る。(1)エッジマップを計算するステップ。(2)エッジを「ポジティブエッジ」と「ネガティブエッジ」の2種類に分類し、同じ種類のエッジで形成された連結成分(CC)を検索し、同じ種類のエッジで形成された連結成分が十分に長い場合、そのエッジを除去するステップ。(3)(エッジ連結成分と呼ばれる)双方の種類のエッジで形成された連結成分を検索し、双方の種類のエッジで形成された連結成分のサイズが長すぎる場合、そのバウンディングボックスのエッジマップを再計算し、連結成分を再検索するステップ。(4)連結成分を「通常テキスト」、「反転テキスト」及び「背景」の3種類に分類し、マークマップを生成するステップ。「通常テキスト」の連結成分の前景画素は「通常テキスト」としてマーク付けされ、「反転テキスト」の連結成分の前景画素は「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされる。(5)マークマップ上で、(テキスト連結成分と呼ばれる)同一のマークを有する画素で形成された連結成分を検索し、その連結成分からテキスト行を形成するステップ。
以下において、本発明に係る複雑な背景を有する文書画像からテキストを抽出する方法及び複雑な背景を有する文書画像からテキストを抽出する装置の実施形態について、添付の図面を参照して説明する。図2は、本発明に係る複雑な背景を有する文書画像からテキストを抽出する方法を示すフローチャートである。
図2に示すように、画像を入力した後、ステップ1において、エッジマップが元の画像にソーベル演算子を実行することにより計算され、そして、勾配画像が2値化される。
そして、ステップ2において、エッジ分類に基づく長い背景エッジ連結成分は除去される。
このステップにおいて、連結成分解析がエッジマップ上で行われる。複雑な背景を有する画像から計算されたエッジマップの場合、連結成分解析処理を大きく妨害する2種類の連結成分、即ち長い線のエッジで形成された連結成分及び互いに非常に近接するテキストエッジで形成された接触連結成分が存在する。
上述の2種類の連結成分は、テキストエッジで形成された連結成分の付近に現れる可能性があり、テキストエッジで形成された連結成分と接触する可能性もある。これにより、連結成分解析は妨害される。従って、連結成分解析の前にそれら連結成分を除去する方法を見つけることが望まれる。この目的のため、エッジ分類方法が本発明において使用される。
本発明の方法によれば、エッジは、勾配方向によってネガティブエッジ及びポジティブエッジに分類される。P0が現在のエッジ画素のグレーレベルであり、Pneighborが8つの隣接するエッジ画素のグレーレベルであると仮定する。現在のエッジ画素の種類は、以下の式により判定される。
式:エッジの種類=
ネガティブエッジ:|P0-max(Pneighbor)|<|P0-min(Pneighbor)|の場合、
ポジティブエッジ:|P0-max(Pneighbor)|≧|P0-min(Pneighbor)|の場合、 (1)
エッジの分類後、ネガティブエッジ連結成分及びポジティブエッジ連結成分は、個別に検索される。それら連結成分のいずれかが100等の所定の閾値より長い場合、その連結成分は、背景連結成分であると考えられ、エッジマップから除去される。この動作の後、長い線に属するエッジは除去される。更に、近接するテキストの接触しているエッジが除去され、残りのエッジが分離される。図3に、エッジの分類及び長い背景エッジ連結成分を除去した結果の一例を示す。
長い線の妨害だけでなく、近接するテキストの妨害も本発明の方法に従って除去されることが、図3に示される結果から分かる。
長い線のエッジ連結成分を除去することは容易に実現され、上述した特許公開2000−20714号公報にて開示されるような多くの種類の方法が存在する。しかし、エッジマップにおいて、近接するテキスト行が長い連結成分を形成する場合がある。テキスト行は望ましい対象が目的とするものであり、単純に除去されるべきではない。分類後、テキスト付近には2種類のエッジ連結成分が存在する。図3に示すように、一方は外側エッジ連結成分であり、他方は内側エッジ連結成分である。外側エッジ連結成分は長いが、内側エッジ連結成分は比較的短いことが分かる。外側の長い連結成分がエッジマップから除去される場合、残りの内側エッジ連結成分はテキストの輪郭を形成し、更なるエッジ解析に使用される。
上述のステップ2で説明したように、背景オブジェクトで形成された長い連結成分及び非常に近接するテキストが、エッジの分類に基づいてエッジマップから除去される。その後、エッジマップは、ステップ3において連結成分のサイズのフィードバックを使用して再計算される。
長い背景エッジ連結成分が除去された後、2種類のエッジで形成された連結成分は再検索される(ここでは、「ネガティブ」及び「ポジティブ」を区別する必要はない)。
エッジに基づくテキスト抽出方法が60画素より小さいサイズを有するテキストに適用されると仮定される。そのため、60画素より大きい連結成分は破棄される(連結成分のサイズは、連結成分のバウンディングボックスのより短い境界線により決定されることが多い)。しかし、複雑な背景を有する画像において、テキストのエッジ及び背景のエッジは互いに接触し、それらは60画素より大きいサイズを有する連結成分を形成する場合がある。従って、この状況に対処する必要がある。大きな連結成分の各々のバウンディングボックスにおいてエッジ閾値を調整することにより、相対的に低いコントラストを有するエッジ画素は削除される(それらエッジは背景オブジェクトに属するだろう)。そのフローチャート及び一例がそれぞれ図4及び図5に示される。
図4に、本発明に係る、連結成分のサイズのフィードバックを使用してローカルエッジマップを再計算するフローチャートを示す。
最初に、ネガティブエッジ及びポジティブエッジを区別せずに、2種類のエッジで形成された連結成分は、ステップS41において入力エッジマップ上で再検索される。
ステップS42において、連結成分の画素数は60画素などの所定の閾値と比較され、連結成分に近接するエッジマップが再計算されるべきかを決定する。連結成分の画素数が60画素より小さい場合、処理は終了し、図2のステップ4に進む。
一方、ステップS42において、連結成分の画素数が所定の閾値より小さくないことが決定される場合、連結成分が背景に属する可能性があり、かつ廃棄されるべきであることを意味し、ステップS43に進む。
ステップS43において、ローカルエッジマップを再計算し、かつ複雑な背景の妨害を除去するように、閾値は20などの所定の値だけ増加される。
ステップS44において、対応する勾配ブロックは新しい閾値を使用して再び2値化され、各文字は複雑な背景から分離される。
その後、ステップS45において、全ての連結成分の画素数が60画素より小さいか否かが判断される。画素数が60画素より小さい場合、図2のステップ4に進む。
全ての連結成分の画素数が60画素より小さくない場合、ステップS46に進み、画素数が60画素より大きい別の連結成分を検索する。ステップS46に戻り、画素数が60画素より大きいそのような連結成分を処理し続ける。
本発明に係る、連結成分のフィードバックを使用してエッジマップを再計算することによりテキストに近接する背景の妨害を除去する一例及びその結果を図5に示す。図5の例において、大きな連結成分のバウンディングボックスの黒色矩形のエッジは再計算され、淡色を有する矩形は小さな連結成分のバウンディングボックスであり、かつエッジマップを再計算する必要はない。
上述のステップ3に関して、従来技術の適切な閾値処理方法を使用できるが、画像全体に対して適切な閾値を取得することは困難である。エッジ連結成分のサイズのフィードバックを使用して複数の領域を含む連結成分に注目する。それら領域において、所望のテキストは、グローバル情報の代わりにローカル情報を使用することにより取得される。
更に、背景及びテキストは、ローカル領域において異なるコントラストを有することが多い。不適切なエッジ閾値によりエッジは接触する。上述のステップに従ってエッジ閾値を調整し、かつエッジマップを再計算することにより、背景オブジェクトのエッジ及び所望のテキストのエッジは容易に分離される。分離されると、エッジの解析による背景オブジェクトの除去は閾値処理方法より容易になる。更に、再計算されたエッジマップを使用することにより、テキストが通常テキストであるか又は反転テキストであるかを容易に決定でき、これにより、更なるテキスト行のマージに対して利点が得られる。
このステップの後、背景オブジェクトに属する殆どのエッジ画素が除去され、テキストに属するエッジ画素は確保される。このように、各文字は背景から容易に分離される。これは、テキストの位置を正確に特定することを大いに助長する。
図2に戻ると、ステップ3において、ローカルエッジマップがエッジ連結成分のサイズのフィードバックを使用して再計算された後、ステップ4に進む。
ステップ4において、テキストマップは、エッジ連結成分の分類に基づいてマーク付けされる。このステップにおいて、先のステップで得られたエッジ連結成分は、「通常テキスト」、「反転テキスト」及び「背景」の3種類に分類される。「通常テキスト」の連結成分の前景画素が「通常テキスト」としてマーク付けされ、「反転テキスト」の連結成分の前景画素が「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされるマークマップが生成される。
マークマップには、「通常テキスト」、「反転テキスト」及び「背景」の3種類の画素が存在する。マークマップは、テキストでない成分を破棄すること及び同様のプロパティ(即ち、「通常テキスト」又は「反転テキスト」)を有する文字をテキスト行にマージすることを助長する。更に、マークマップは、次のステップ5で得られるテキスト行をより適切に2値化することを助長する。
ステップ5において、テキスト連結成分は、検索され、かつ行にマージされる。マークマップにおいて、同一のマークを有する画素で形成された連結成分(テキスト連結成分と呼ぶ)が検索され、テキスト行を形成する。テキスト連結成分から行を形成する理由が主に2つある。第1の理由は、いくつかのテキストが欠落しており、かつ多くのノイズが存在する可能性があるため、マーク付けされたテキストマップが最後の2値画像として使用されないからである。テキスト連結成分から行を形成することにより、欠落しているテキストを見つけ、かつノイズを除去することが容易になる。もう一方の理由は、連結成分がテキストであるか否かをその特徴のみを使用して判断することが困難であるため、テキストエッジ連結成分をフィルタリングする先の動作が確実ではないからである。しかし、テキスト行の場合、テキスト行を分類するための更に有効な特徴が見つけられるため、非常に容易となる。
従来技術において、テキスト行形成方法が多く存在する。本発明は、以下のステップを含むそれら方法のうち1つの方法を採用する。
ステップ51:テキスト画像のエッジマップにおいて、同一のマークを有する連結成分を見つける。
ステップ52:交差する連結成分をマージする。
ステップ53:テキストでない連結成分を破棄する。
ステップ54:近接する連結成分を使用することにより行のシード(seed)を形成し、他の連結成分を行にマージする。
ステップ55:遠隔の連結成分を使用することにより行のシードを形成し、ステップ54により残された連結成分を行にマージする。
ステップ56:同一の連結成分を使用することにより行のシードを形成し、ステップ55により残された連結成分を行にマージする。
ステップ57:マージされた各行に対して、実際のテキスト行か否かを判断する。
上述の処理の後、明確なテキストは、複雑な背景を有する画像から抽出される。図6及び図7に、本発明によるテキスト抽出方法を使用することによるテキスト抽出の結果を示す。
本発明によるテキスト抽出方法は、主に複雑な背景を有する画像におけるテキストを抽出するための方法である。そのテキスト抽出方法は、OCR(光学文字認識)、テキストによるビデオ検索及び文書画像圧縮などにおける前処理等において主に使用される。
典型的な応用例が図8に示される。図8において、本発明によるエッジに基づくテキスト抽出方法は、まずカラー文書画像を処理するのに使用される。2値化テキスト行は光学文字認識方法を使用して処理され、認識された文字が出力される。
次に、本発明に係る複雑な背景を有する文書画像からテキストを抽出する装置について、添付の図面を参照して説明する。図9は、本発明の一実施形態に従って、複雑な背景を有する文書画像からテキストを抽出する装置を示すブロック図である。
図9に示すように、本発明の一実施形態に従う複雑な背景を有する文書画像からテキストを抽出する装置は、次の構成を有する。即ち、エッジマップ計算ユニット901、長い背景連結成分除去ユニット902、エッジマップ再計算ユニット903、テキストマップマークユニット904及びテキスト連結成分検索/マージユニット905を有する。
エッジマップ計算ユニット901は、入力文書画像のエッジマップを計算し、計算されたエッジマップを長い背景連結成分除去ユニット902に出力する。
長い背景連結成分除去ユニット902は、エッジマップ計算ユニット901により計算されたエッジマップのエッジを「ポジティブエッジ」及び「ネガティブエッジ」の2種類に分類し、同じ種類のエッジで形成された連結成分(CC)を検索する。同じ種類のエッジで形成された連結成分が十分に長い場合、長い背景連結成分除去ユニット902はそのエッジを除去する。
エッジマップ再計算ユニット903は、長い背景連結成分除去ユニット902により除去される同じ種類のエッジで形成された長い連結成分を含むエッジマップにおいて、2種類のエッジで形成された連結成分(エッジ連結成分と呼ぶ)を検索する。2種類のエッジで形成された連結成分のサイズが大きすぎる場合、エッジマップ再計算ユニット903は、バウンディングボックスにおいてエッジマップを再計算し、連結成分を再検索する。
エッジマップ再計算ユニット903によりエッジマップを再計算した後、テキストマップマークユニット904は連結成分を「通常テキスト」、「反転テキスト」及び「背景」の3種類に分類し、マークマップを生成する。テキストマップマークユニット904により生成されたマークマップにおいて、「通常テキスト」の連結成分の前景画素は「通常テキスト」としてマーク付けされる。「反転テキスト」の連結成分の前景画素は「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされる。
テキスト連結成分検索/マージユニット905は、テキストマップマークユニット904により生成されたマークマップにおいて、同一のマークを有する画素で形成された連結成分(テキスト連結成分と呼ぶ)を検索し、連結成分からテキスト行を形成する。
本発明に係る複雑な背景を有する文書画像からテキストを抽出する装置の上述したユニット901〜905において実行される全ての詳細な処理は、図2を参照して説明したステップ1〜5とそれぞれ同一であるため、ここでは省略する。ユニット901〜905はエッジマップ計算ユニット901、長い背景連結成分除去ユニット902、エッジマップ再計算ユニット903、テキストマップマークユニット904及びテキスト連結成分検索/マージユニット905である。
更に、本発明の一実施形態に従う装置は、テキストが本発明による上記方法及び装置を使用して抽出された後、文書画像を入力する入力ユニット及び2値化テキスト行を出力する出力ユニットを含むべきであることは、当業者には理解されるべきである。
本発明の一実施形態に従う複雑な背景を有する文書画像からテキストを抽出する装置は、次の手段を有するものとして更に実現されることを当業者は理解すべきである。即ち、第1のコントラスト閾値より高いコントラストを有するエッジを前記画像から抽出する第1のエッジ抽出手段。前記抽出したエッジから連結エッジを検索する検索手段。前記検索した連結エッジの画素数が所定のサイズより大きい場合、第2のコントラスト閾値より高いコントラストを有するエッジを抽出する第2のエッジ抽出手段。ここで、前記第2のコントラスト閾値は前記第1のコントラスト閾値より高い。
本発明の好適な実施形態において、第2のエッジ抽出手段は、前記検索した連結エッジの画素数が前記所定のサイズ以下である場合、前記検索した連結エッジがテキストエッジであると判定する。
更に、第2のエッジ抽出手段は、前記連結エッジの画素数が所定のサイズより大きい場合、第2のコントラスト閾値より高いコントラストを有するエッジを前記連結エッジからのみ抽出できる。
本発明の別の好適な実施形態において、第2のエッジ抽出手段は、前記連結エッジをカバーする領域の画素数が所定のサイズより大きい場合、第2のコントラスト閾値より高いコントラストを有するエッジを前記領域から抽出する。このような場合、複雑な背景を有する文書画像からテキストを抽出する装置は、次の各手段を有する。即ち、前記第2のエッジ抽出手段において抽出された前記エッジから連結エッジを検索する第2の連結エッジ検索手段。前記検索した連結エッジの画素数が所定のサイズより大きい場合、第3のコントラスト閾値より高いコントラストを有するエッジを抽出する第3のエッジ抽出手段。ここで、前記第3のコントラスト閾値は前記第2のコントラスト閾値より高い。
本発明に従って複雑な背景を有する文書画像からテキストを抽出する装置は、P0が現在のエッジ画素のグレーレベルであり、PneighborがN個の隣接するエッジ画素のグレーレベルである場合、
式:エッジの種類=
ネガティブエッジ:|P0-max(Pneighbor)|<|P0-min(Pneighbor)|の場合
ポジティブエッジ:|P0-max(Pneighbor)|≧|P0-min(Pneighbor)|の場合
上記式に基づいてエッジを「ポジティブエッジ」及び「ネガティブエッジ」の2種類に分類するエッジ分類手段。同じ種類のエッジで形成された連結エッジをカバーする領域の画素数が所定の閾値より大きい場合、背景として前記連結エッジをカバーする前記領域を除去するエッジ除去手段とを更に有する。
本発明の更に別の実施形態において、複雑な背景を有する文書画像からテキストを抽出する装置は、抽出したエッジからテキストをマーク付けするテキストマップマーク付け手段を更に有する。連結エッジをカバーする領域の前景画素は「通常テキスト」としてマーク付けされ、反転連結エッジをカバーする領域の前景画素は「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされる。複雑な背景を有する文書画像からテキストを抽出する装置は、同一のマークを有する画素で形成されたテキスト領域を検索し、かつテキスト行を形成する手段を更に有する。
本発明の別の好適な実施形態による、複雑な背景を有する文書画像からテキストを抽出する別の装置は、次のそれぞれの手段を有する。即ち、コントラスト閾値を調整する調整手段。前記調整されたコントラスト閾値に基づいてテキスト領域を判定するテキスト領域判定手段。前記調整手段は、前記コントラスト閾値より高いコントラストを有するエッジを目標領域から抽出し、前記抽出したエッジから連結エッジを検索し、前記検索した連結エッジをカバーする領域が新しい目標領域であるべきかを判定する目標領域判定手段を有する。前記調整手段は、前記判定された新しい目標領域が所定のサイズより大きい場合に前記コントラスト閾値を拡大し、前記判定された新しい目標領域が予め決めれたサイズ以下である場合に前記コントラスト閾値の調整を終了する。前記テキスト領域判定手段は、調整が終了した前記コントラスト閾値に対応する目標領域がテキスト領域であるべきであると判定する。
上述の構成による複雑な背景を有する文書画像からテキストを抽出する装置は、P0が現在のエッジ画素のグレーレベルであり、PneighborがN個の隣接するエッジ画素のグレーレベルである場合、
式:エッジの種類=
ネガティブエッジ:|P0-max(Pneighbor)|<|P0-min(Pneighbor)|の場合
ポジティブエッジ:|P0-max(Pneighbor)|≧|P0-min(Pneighbor)|の場合
上記式に基づいてエッジを「ポジティブエッジ」及び「ネガティブエッジ」の2種類に分類するエッジ分類手段。同じ種類のエッジで形成された連結エッジをカバーする領域の画素数が所定の閾値より大きい場合、背景として前記連結エッジをカバーする前記領域を除去するエッジ除去手段とを更に具備できる。
上述の構成を有する複雑な背景を有する文書画像からテキストを抽出する装置は、次の手段を更に有してもよい。ネガティブエッジ及びポジティブエッジを区別せず双方の種類のエッジで形成された連結エッジをカバーする領域を検索する検索手段。ネガティブエッジ及びポジティブエッジを区別せず双方の種類のエッジで形成された連結エッジをカバーする検索した領域の画素数が第2の閾値より大きい場合、画素数が第2の閾値より大きい検索した領域のローカルエッジを再計算する手段。再計算されたローカルエッジに基づいて複雑な背景の妨害を除去する第2の除去手段。
複雑な背景を有する文書画像からテキストを抽出する前記装置の好適な一実施形態において、ローカルエッジ再計算手段は、2値化閾値を所定の値だけ増加し、増加した所定の2値化閾値を使用する。これにより、画素数が第2の所定の閾値より大きい検索した領域の周囲の勾配ブロックを2値化する。
本発明の別の実施形態において、複雑な背景を有する文書画像からテキストを抽出する装置は、抽出されたエッジからテキストをマーク付けするテキストマップマーク付け手段を更に有する。連結エッジをカバーする領域の前景画素は「通常テキスト」としてマーク付けされ、反転連結エッジをカバーする領域の前景画素は「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされる。更に、複雑な背景を有する文書画像からテキストを抽出する装置は、同一のマークを有する画素で形成されたテキスト領域を検索し、テキスト行を形成する手段を更に有してもよい。
本発明の一実施形態に従って複雑な背景を有する文書画像からテキストを抽出する装置は、次の手段を有するものとして実現される。文書画像のエッジマップにおいて背景オブジェクトにより形成される長い連結成分又は非常に近接するテキストをエッジの分類に基づいて除去する手段。エッジ連結成分のサイズのフィードバックを使用して除去された背景オブジェクトで形成された長い連結成分又は非常に近接するテキストを有する文書画像の新しいエッジマップを再計算する手段。エッジ連結成分の分類に基づいてテキストマップをマーク付けする手段。
本発明の好適な一実施形態に従って複雑な背景を有する文書画像からテキストを抽出する装置は、文書画像の元の画像に対してソーベル演算子を実行することにより文書画像のエッジマップを計算する手段を更に有する。
本発明の一実施形態において、長い連結成分を除去する手段は、P0が現在のエッジ画素のグレーレベルであり、PneighborがN個の隣接するエッジ画素のグレーレベルである場合、
式:エッジの種類=
ネガティブエッジ:|P0-max(Pneighbor)|<|P0-min(Pneighbor)|の場合、
ポジティブエッジ:|P0-max(Pneighbor)|≧|P0-min(Pneighbor)|の場合、
上記式に基づいてエッジマップのエッジを「ポジティブエッジ」及び「ネガティブエッジ」の2種類に分類する。同じ種類のエッジで形成された連結成分のいずれかが所定の閾値より長い場合、その連結成分は背景連結成分と考えられ、エッジマップから除去される。
Nは8であり、所定の閾値は100であるのが好ましい。
本発明の別の実施形態において、新しいエッジマップを再計算する手段は、ネガティブエッジ及びポジティブエッジを区別せずに双方の種類のエッジで形成された連結成分を検索する。ネガティブエッジ及びポジティブエッジを区別せずに双方の種類のエッジで形成された検索された連結成分が第2の所定の閾値より大きい場合、第2の所定の閾値より大きい検索された連結成分のローカルエッジマップを再計算する。再計算されたローカルエッジマップにおいて複雑な背景の妨害を除去する。第2の所定の閾値は60であるのが好ましい。
本発明の別の好適な実施形態によると、テキストマップをマーク付けする手段は、エッジ連結成分を「通常テキスト」、「反転テキスト」及び「背景」の3種類に分類し、マークマップが形成される。ここで、「通常テキスト」の連結成分の前景画素は「通常テキスト」としてマーク付けされ、「反転テキスト」の連結成分の前景画素は「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされる。
上述の構成を有する複雑な背景を有する文書画像からテキストを抽出する装置は、マークマップにおいて同一のマークを有する画素で形成されたテキスト連結成分を検索し、かつテキスト連結成分からテキスト行を形成する手段を更に有する。
本発明の複雑な背景を有する文書画像からテキストを抽出する1つの好適な装置において、テキスト連結成分を検索し、かつ形成する手段は、次の処理を行う。d1)テキスト画像のエッジマップにおいて同一のマークを有する連結成分を見つける。d2)交差する連結成分をマージする。d3)テキストでない連結成分を破棄する。d4)近接する連結成分を使用することにより行のシードを形成し、かつ他の連結成分をマージする。d5)遠隔の連結成分を使用することにより行のシードを形成し、かつ残された連結成分を行にマージする。d6)同一の連結成分を使用することにより行のシードを形成し、かつ残された連結成分を行にマージする。d7)マージした行の各々に対して、実際のテキスト行であるか否かを判断する。
本発明の方法及び装置の上述した詳細な実施形態に加え、本発明の目的は、上述のような任意の情報処理機器においてプログラム又はプログラムのセットを実行することにより実現されてもよい。情報処理機器は、後続する任意の処理装置と通信してもよい。前記情報処理機器及び後続する処理装置は、周知のユニバーサル機器であってもよい。
尚、本発明は、上述の実施形態の機能を実現するソフトウェアのプログラムを直接又は間接的にシステム又は装置に供給し、供給されたプログラムコードをシステム又は装置のコンピュータにより読み出し、実行することにより本発明が実現される場合を含む。そのような場合、その形態は、プログラム機能が提供される限りプログラムの形態に限定されない。プログラムは、実施形態において示されるフローチャートに対応するプログラムである。
コンピュータを使用して本発明の機能処理を実現するためにコンピュータにインストールされるプログラムコード自体が本発明を実現するものである。即ち、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体を含む。
この場合、プログラムの形態に特に限定されず、プログラム機能を有する限り、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給されるスクリプトデータ等が使用されてもよい。
プログラムを供給する記録媒体として、次のような媒体が使用されてもよい。フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性メモリカード、ROM、DVD(DVD−ROM、DVD−R。
別のプログラム供給方法として、クライアントコンピュータのブラウザを使用してインターネットの特定のホームページに対する接続が確立され、ホームページからハードディスク等の記録媒体にダウンロードされ、プログラムを供給してもよい。プログラムは圧縮された自動インストール機能を含むファイル又は本発明のコンピュータプログラム自体である。本発明のプログラムを形成するプログラムコードは、複数のファイルに分割されてもよく、それらファイルが異なるホームページからダウンロードされてもよい。即ち、本発明は、コンピュータを使用して本発明の機能処理を実現するためのプログラムファイルを複数のユーザにダウンロードさせるWWWサーバを更に含む。
本発明の暗号化されたプログラムを格納するCD−ROM等の記憶媒体がユーザに配布され、所定の条件をクリアしたユーザは、プログラムを解読する鍵情報をインターネットを介してホームページからダウンロードすることを許可されてもよい。暗号化されたプログラムは、コンピュータにインストールされるように鍵情報を使用して実行され、本発明を実現してもよい。
上述の実施形態の機能は、読み出したプログラムコードをコンピュータにより実行することにより実現されるだけでなく、プログラムの命令に基づいてコンピュータ上で稼動するOS等により実行される一部又は全ての実際の処理動作により実現されてもよい。
更に、上述の実施形態の機能は、コンピュータに挿入された機能拡張ボード又はコンピュータに接続された機能拡張ユニットに記録媒体から読み出したプログラムが書き込まれた後、実現されてもよい。機能拡張ボード又は機能拡張ユニットに配置されたCPU等により実行される一部又は全ての実際の処理により実現される。
本明細書において説明されたことは、本発明の原理の応用例にすぎない。例えば、本発明を動作させる最適な実施形態として実現される上述の機能は、例示する目的で示される。特定の例として、例えば、他の設計が波形データを取得し、かつ解析して、音声を判定するために使用されてもよい。また、本発明は、音声を検出する以外の目的で使用されてもよい。従って、他の構成及び方法は、本発明の趣旨の範囲から逸脱せずに当業者により実現されてもよい。
本発明と共に使用されてもよいコンピュータシステムを示すブロック図である。 本発明に係る複雑な背景を有する文書画像からテキストを抽出する方法を示すフローチャートである。 エッジの分類及び長い背景エッジ連結成分を除去した結果の一例を示す図である。 本発明に係る連結成分サイズのフィードバックを使用してローカルエッジマップを再計算する方法を示すフローチャートである。 本発明に係る連結成分サイズのフィードバックを使用してエッジマップを再計算することにより、テキストに近接する背景の妨害を除去した結果の一例を示す図である。 本発明の方法を使用することによるテキスト抽出の結果を示す図である。 本発明に係る複雑な背景を有する文書画像からテキストを抽出する方法の典型的な応用例を示す図である。 本発明の実施形態に従う複雑な背景を有する文書画像からテキストを抽出する装置を示すブロック図である。 従来技術による画像処理方法を示すフローチャートである。

Claims (8)

  1. 勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理手段と、
    前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出手段とを有する装置であって、
    前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されるまで、前記2値化に用いる閾値を大きくしていくことを特徴とする装置
  2. 文書画像から勾配画像を得る得手段と、
    前記勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像におけるネガティブエッジ連結成分及びポジティブエッジ連結成分を検索する検索手段と、
    前記検索されたネガティブエッジ連結成分及びポジティブエッジ連結成分の中から所定の値より長い連結成分を前記2値化により得られる画像から除去する除去手段と、
    前記除去手段で前記長い連結成分の除去された前記2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理手段と、
    前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出手段とを有する装置であって、
    前記処理手段で前記各連結成分の画素数が前記所定画素数より小さくないと判定されると、前記勾配画像に対して前記閾値を大きくした閾値を用いて2値化し、再度、前記処理手段で当該2値化により得られる画像における各連結成分の画素数が前記所定画素数より小さいかを判定する処理を行うことを特徴とする装置
  3. 前記各連結成分を通常テキスト、反転テキスト、背景に分類し、当該分類された前記各連結成分からテキスト行を形成する手段を更に有することを特徴とする請求項1又は2に記載の装置
  4. 処理手段と、抽出手段とを有する装置にて実行される方法であって、
    前記処理手段が、勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理工程と、
    前記抽出手段が、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出工程とを有し、
    前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されるまで、前記2値化に用いる閾値を大きくしていくことを特徴とする方法。
  5. 得手段と、検索手段と、除去手段と、処理手段と、抽出手段とを有する装置にて実行される方法であって、
    前記得手段が、文書画像から勾配画像を得る得工程と、
    前記検索手段が、前記勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像におけるネガティブエッジ連結成分及びポジティブエッジ連結成分を検索する検索工程と、
    前記除去手段が、前記検索されたネガティブエッジ連結成分及びポジティブエッジ連結成分の中から所定の値より長い連結成分を前記2値化により得られる画像から除去する除去工程と、
    前記処理手段が、前記除去工程で前記長い連結成分の除去された前記2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理工程と、
    前記抽出手段が、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出工程とを有し、
    前記処理工程で前記各連結成分の画素数が前記所定画素数より小さくないと判定されると、前記勾配画像に対して前記閾値を大きくした閾値を用いて2値化し、再度、前記処理工程で当該2値化により得られる画像における各連結成分の画素数が前記所定画素数より小さいかを判定する処理を行うことを特徴とする方法。
  6. 形成する手段が、前記各連結成分を通常テキスト、反転テキスト、背景に分類し、当該分類された前記各連結成分からテキスト行を形成する工程を更に有することを特徴とする請求項4又は5に記載の方法。
  7. 請求項乃至6の何れか1項に記載の方法をコンピュータに実行させるためのコンピュータプログラム。
  8. 請求項7に記載のコンピュータプログラムを記憶したコンピュータにより読み取り可能な記憶媒体。
JP2006348393A 2005-12-29 2006-12-25 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体 Expired - Fee Related JP4208918B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005101357445A CN100517374C (zh) 2005-12-29 2005-12-29 从复杂背景文档图像提取文本的装置、方法

Publications (2)

Publication Number Publication Date
JP2007184916A JP2007184916A (ja) 2007-07-19
JP4208918B2 true JP4208918B2 (ja) 2009-01-14

Family

ID=38214114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006348393A Expired - Fee Related JP4208918B2 (ja) 2005-12-29 2006-12-25 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体

Country Status (3)

Country Link
US (1) US7813554B2 (ja)
JP (1) JP4208918B2 (ja)
CN (1) CN100517374C (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070253040A1 (en) * 2006-04-28 2007-11-01 Eastman Kodak Company Color scanning to enhance bitonal image
JP5003394B2 (ja) * 2007-10-05 2012-08-15 セイコーエプソン株式会社 ファイル生成プログラム、画像処理装置、および画像処理方法
JP4491488B2 (ja) * 2008-03-03 2010-06-30 シャープ株式会社 画像処理装置、画像読取装置、画像データ出力処理装置、および画像処理方法
JP5095860B2 (ja) 2008-06-19 2012-12-12 マーベル ワールド トレード リミテッド 分離エッジ強調アーキテクチャ
WO2010087112A1 (ja) * 2009-01-27 2010-08-05 国立大学法人大阪大学 画像解析装置、画像解析方法、画像解析プログラムおよび記録媒体
IT1393687B1 (it) * 2009-04-03 2012-05-08 Tele Rilevamento Europa T R E S R L Procedimento per l'identificazione di pixel statisticamente omogenei in immagini sar acquisite sulla stessa area.
JP5312166B2 (ja) * 2009-04-13 2013-10-09 キヤノン株式会社 画像処理装置及び制御方法及びプログラム
JP4707751B2 (ja) * 2009-05-21 2011-06-22 シャープ株式会社 画像圧縮方法、画像圧縮装置、画像形成装置、コンピュータプログラム及び記録媒体
US9092668B2 (en) * 2009-07-18 2015-07-28 ABBYY Development Identifying picture areas based on gradient image analysis
CN102511048B (zh) * 2009-12-31 2015-08-26 塔塔咨询服务有限公司 一种用于预处理包括文本的视频区域的方法及系统
US8358827B2 (en) * 2010-02-23 2013-01-22 Rdm Corporation Optical waveform generation and use based on print characteristics for MICR data of paper documents
CN101859224B (zh) * 2010-04-30 2012-04-18 陈铸 一种从数字图片图像中抠取目标对象的方法和系统
AU2010238543B2 (en) * 2010-10-29 2013-10-31 Canon Kabushiki Kaisha Method for video object detection
CN102890780B (zh) * 2011-07-19 2015-07-22 富士通株式会社 图像处理装置和方法
AU2011253980B2 (en) * 2011-12-12 2014-05-29 Canon Kabushiki Kaisha Method, apparatus and system for identifying distracting elements in an image
JP5730274B2 (ja) 2012-11-27 2015-06-03 京セラドキュメントソリューションズ株式会社 画像処理装置
US10091419B2 (en) * 2013-06-14 2018-10-02 Qualcomm Incorporated Computer vision application processing
US9171224B2 (en) * 2013-07-04 2015-10-27 Qualcomm Incorporated Method of improving contrast for text extraction and recognition applications
US10163217B2 (en) * 2014-02-17 2018-12-25 General Electric Copmany Method and system for processing scanned images
US9251614B1 (en) * 2014-08-29 2016-02-02 Konica Minolta Laboratory U.S.A., Inc. Background removal for document images
WO2016079868A1 (ja) * 2014-11-21 2016-05-26 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN106033528A (zh) * 2015-03-09 2016-10-19 富士通株式会社 从彩色文档图像中提取特定区域的方法和设备
CN104866850B (zh) * 2015-05-13 2018-11-02 湘潭大学 一种文本图像二值化的优化方法
CN105095899B (zh) * 2015-08-23 2018-10-09 华南理工大学 一种图片中相关文本的自动框选方法
CN105528600A (zh) * 2015-10-30 2016-04-27 小米科技有限责任公司 区域识别方法及装置
CN106355181B (zh) * 2016-08-22 2019-07-05 安凯 一种二值图像连通区域边缘的确定方法
US10067669B1 (en) * 2017-07-13 2018-09-04 King Fahd University Of Petroleum And Minerals Online character recognition
US10769429B2 (en) * 2018-08-31 2020-09-08 Wipro Limited Method and system for extracting text from an engineering drawing
CN109829457B (zh) * 2019-01-04 2024-07-19 平安科技(深圳)有限公司 一种图像数据处理方法、设备及计算机可读存储介质
WO2021087334A1 (en) 2019-11-01 2021-05-06 Vannevar Labs, Inc. Neural network-based optical character recognition
US11379534B2 (en) 2019-11-19 2022-07-05 International Business Machines Corporation Document feature repository management
US12062246B2 (en) 2021-09-30 2024-08-13 Konica Minolta Business Solutions U.S.A., Inc. Extracting text from an image

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020714A (ja) * 1998-07-06 2000-01-21 Ricoh Co Ltd 画像処理方法,装置および画像処理機能を格納した記録媒体
JP4077094B2 (ja) * 1998-12-11 2008-04-16 富士通株式会社 カラー文書画像認識装置
US6731788B1 (en) * 1999-01-28 2004-05-04 Koninklijke Philips Electronics N.V. Symbol Classification with shape features applied to neural network
JP4250483B2 (ja) * 2003-08-25 2009-04-08 キヤノン株式会社 画像処理装置、画像処理方法ならびにプログラム、記憶媒体

Also Published As

Publication number Publication date
US20070160295A1 (en) 2007-07-12
JP2007184916A (ja) 2007-07-19
CN100517374C (zh) 2009-07-22
CN1991865A (zh) 2007-07-04
US7813554B2 (en) 2010-10-12

Similar Documents

Publication Publication Date Title
JP4208918B2 (ja) 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体
US6408105B1 (en) Method for detecting slope of image data utilizing hough-transform
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
US9319556B2 (en) Method and apparatus for authenticating printed documents that contains both dark and halftone text
US20070168382A1 (en) Document analysis system for integration of paper records into a searchable electronic database
US6327388B1 (en) Identification of logos from document images
JP2004318879A (ja) 画像内容を比較する自動化技術
CN1719865A (zh) 图像处理系统及图像处理方法
JP4100885B2 (ja) 帳票認識装置、方法、プログラムおよび記憶媒体
CN109389115B (zh) 文本识别方法、装置、存储介质和计算机设备
JP4904330B2 (ja) 画像からテキストを抽出する方法及び装置
JP3851742B2 (ja) 帳票処理方法及び装置
JPH05225378A (ja) 文書画像の領域分割システム
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
JPH07282253A (ja) 文書イメージのしきい値処理方法
JP2004280334A (ja) 画像読み取り装置
Qin et al. Laba: Logical layout analysis of book page images in arabic using multiple support vector machines
Shivakumara et al. A new method for handwritten scene text detection in video
Kumar et al. Line based robust script identification for indianlanguages
Sherkat et al. Use of colour for hand-filled form analysis and recognition
Dey et al. A comparative study of margin noise removal algorithms on marnr: A margin noise dataset of document images
JP2005250786A (ja) 画像認識方法
JP2861860B2 (ja) 宛名行抽出装置
JP2009116520A (ja) 画像認識装置、画像認識方法及びプログラム
Elmore et al. A morphological image preprocessing suite for ocr on natural scene images

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081010

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081021

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131031

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees