JP2001297303A - 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体 - Google Patents

文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2001297303A
JP2001297303A JP2000124941A JP2000124941A JP2001297303A JP 2001297303 A JP2001297303 A JP 2001297303A JP 2000124941 A JP2000124941 A JP 2000124941A JP 2000124941 A JP2000124941 A JP 2000124941A JP 2001297303 A JP2001297303 A JP 2001297303A
Authority
JP
Japan
Prior art keywords
color
area
document image
image
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000124941A
Other languages
English (en)
Inventor
Tsukasa Kouchi
司 幸地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000124941A priority Critical patent/JP2001297303A/ja
Priority to US09/838,311 priority patent/US6865290B2/en
Publication of JP2001297303A publication Critical patent/JP2001297303A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Abstract

(57)【要約】 【課題】 カラー文書画像及び白黒・グレー画像の領域
を精度良く、効率的に識別し、また、カラー文書特有の
問題を有するカラー文書に対しても精度よくOCRする
ことができる文書画像認識方法を提供する。 【解決手段】 文書画像を認識する文書画像認識方法が
提供される。その方法では、文書画像をデジタル画像と
して入力し、該文書画像の背景色を特定し、必要に応じ
て画像を縮小し、該背景色を用いて該文書画像から背景
領域以外の画素を抽出し、該画素を統合して連結成分を
生成し、該連結成分を少なくとも形状特徴を用いて所定
の領域に分類して、該文書画像の領域識別の結果を得
る。また、二値画像の領域識別を行い、その結果とカラ
ー領域識別結果とを照合し、必要に応じてフィードバッ
ク処理を行ってOCRに好適な二値画像と領域識別結果
を得るようにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像の領域識
別技術に関する。特に、カラー文書画像中の写真等の領
域を分離して、文字や罫線等を識別し、文字を認識し、
レイアウトや色情報を含めた文書の再現に役立てるため
の技術に関する。
【0002】
【従来の技術】OCR処理において文字を認識するため
には、その前段階として正確に領域を識別する必要があ
る。カラー原稿に対するOCR処理等のための領域識別
においては、画像を2値化して処理を行うことが一般的
であり、精度良く領域識別することはできなかった。こ
のように、従来の文字認識の分野においては、2値化処
理を用いる場合が多く、色情報を積極的に用いることは
少ない。例えば、特開平07−998581「画像処理
装置」(オリンパス)に開示されているように、カラー
画像が入力された場合には、まず最初に2値化して、生
成された2値画像に対して領域識別や文字認識処理がな
される。
【0003】また、カラー文書画像の領域を識別する技
術に関しては次に示すような従来技術がある。
【0004】特開平05−64016「画像圧縮装置」
(キャノン)には、入力カラー文書画像を効率よく圧縮
するために、自然画(写真)と線画(文字、イラスト、
グラフ)を分離する装置が開示されている。しかし、特
開平05−64016では、文字領域と文字以外の領域
とを効率的に分離する技術は示されていない。従って、
この技術による領域識別結果をカラー文書のOCRにそ
のまま適応することは困難である。
【0005】また、特開平06−339019「離散的
コサイン変換による文書画像の領域分離方式」(NT
T)には、画像を周波数成分で表し、離散的コサイン変
換を用いて文字と写真領域の分離を行う技術が開示され
ている。ここで、離散的コサイン変換係数の中から文字
と写真を特徴づける係数を精度よく抽出するためには、
高解像度かつ高品質のカラー画像が必要である。従っ
て、特開平06−339019によると、巨大なディス
ク・メモリー容量が消費されてしまうと同時にかなりの
実行時間がかかってしまう恐れがある。
【0006】また、特開平7−168939「カラー画
像領域判定装置」(松下ソフトリサーチ)には、色相の
ヒストグラムを利用して、文書画像中のカラー写真領域
と色の少ない図形または文字領域を判定する技術が開示
されている。しかし、特開平7−168939において
は、領域判定にあたり色相に着目していることから、新
聞などの白黒・グレー原稿には全く無力である。
【0007】さて、OCRに関して現在多くの手法が提
案されているが、そのほとんどが二値画像を対象とした
ものである。従って二値画像の状態が認識精度を大きく
左右する。一方、カラー化された文書では、単に使用さ
れる色が増えるだけではなく文書のレイアウト構造も複
雑になる傾向がある。しかしながら、カラー画像から生
成された二値画像に対して従来の方法で領域識別処理を
行ったとしても、実際には十分な精度が得られない場合
が多い。
【0008】文字認識に好適な二値画像を生成するため
に数多くの手法が提案されており、その中の代表的な技
術として判別分析法である。
【0009】また、特開平10−143608は濃淡画
像を適当な閾値で二値化し、できた二値画像上の平均線
幅を計算してその値が規定範囲外にある場合には、文字
認識に不適であると判断して二値化をやり直すことによ
り、OCRに好適な二値画像を生成する。
【0010】
【発明が解決しようとする課題】上述の通り、従来の技
術では、カラー原稿を文字認識して、レイアウトや色情
報を含めて精度良く再現することができない。
【0011】また、カラー化された文書に対してはカラ
ー特有の問題が混在する場合が多く、OCRに好適な二
値画像を精度良く生成することは困難であった。
【0012】本発明は上記の点に鑑みてなされたもので
あり、カラー文書画像及び白黒・グレー画像の領域を精
度良く、効率的に識別する文書画像認識方法、装置及び
コンピュータ読み取り可能な記録媒体を提供することを
目的とする。
【0013】更に、カラー特有の問題が混在する場合で
あってもOCRに好適な画像を精度良く生成する文書画
像認識方法、装置及びコンピュータ読み取り可能な記録
媒体を提供することを目的とする。
【0014】
【課題を解決するための手段】上記の課題を解決するた
めに、本発明は次のように構成される。
【0015】請求項1に記載の発明は、文書画像を認識
する文書画像認識方法であって、文書画像をデジタル画
像として入力する入力ステップと、該文書画像の背景色
を特定する背景色特定ステップと、該背景色を用いて該
文書画像から背景領域以外の画素を抽出する抽出ステッ
プと、該画素を統合して連結成分を生成する生成ステッ
プと、該連結成分を少なくとも形状特徴を用いて所定の
領域に分類して、該文書画像の領域識別の結果を得る分
類ステップとを有する。
【0016】本発明によれば、背景色を特定し、その背
景色を用いてボトムアップ的に文書画像を領域識別結果
を得るので、色情報を用いない従来技術と比較して、精
度良くカラー画像及び白黒・グレー画像の領域識別を行
うことができる。
【0017】請求項2に記載の発明は、請求項1の記載
において、前記領域識別された文書画像を2値化し、2
値画像を生成するステップと、該2値画像の領域を所定
の領域に分類し、その結果を前記領域識別の結果と照合
して該領域識別の結果を補正する補正ステップと、文字
領域を文字認識する認識ステップとを更に有する。
【0018】本発明によれば、精度良く図や写真領域が
文字領域と区別されるので、従来より精度良く文字認識
を行うことができる。
【0019】請求項3に記載の発明は、請求項1の記載
において、前記背景色特定ステップは、前記文書画像の
色のクラスタリングを行うクラスタリングステップと、
クラスタリングにより得られた最大クラスタの代表色を
該文書画像の背景色とするステップとを有する。
【0020】本発明によれば、最大クラスタの代表色を
背景色とすることで、カラー画像の背景色を効率良く求
めることができ、背景色を用いた領域識別の処理を行う
ことが可能となる。
【0021】請求項4に記載の発明は、請求項3の記載
において、前記クラスタリングステップは、ある間隔を
空けて画素をサンプリングするステップと、該画素の近
傍を平滑化した画素値を用いて前記クラスタリングを行
うステップとを有する。
【0022】本発明によれば、ある間隔を空けて画素を
サンプリングするので、処理の高速化を図ることができ
る。
【0023】請求項5に記載の発明は、請求項1の記載
において、更に前記文書画像を縮小する縮小ステップを
有し、該縮小ステップは、文書画像を複数のブロックに
分割するステップと、ブロック内の代表色を求めるステ
ップと、該代表色と前記背景色とを比較して、該ブロッ
クの縮小後の色を決定し、該ブロックを該色の画素に縮
小するステップとを有する。
【0024】本発明によれば、背景色を用いることによ
って、カラー画像の場合でも領域識別にふさわしい縮小
画像を求めることが可能となる。また、現画像を縮小す
ることで、画像へのアクセスコストを大幅に削減するこ
とが可能になる。
【0025】請求項6に記載の発明は、請求項5の記載
において、前記ブロックは、3画素×3画素の格子であ
るとする。3画素×3画素又は4画素×4画素とするこ
とによって、一般的なカラースキャナで入力された文書
画像に対して、適切な領域識別を行うことが可能な縮小
画像を求めることができる。また、格子状とすることで
実装が容易になる。
【0026】請求項7に記載の発明は、請求項1の記載
において、前記抽出ステップは、前記背景色と注目画素
の各色値の差が所定の値より大きい場合に該注目画素は
背景領域以外の画素であると判断するステップを有す
る。
【0027】このように比較的簡単な演算によって背景
と文書要素を分離することが可能となるので、処理速度
の向上を図れる。
【0028】請求項8に記載の発明は、請求項1の記載
において、前記領域識別によって識別された図又は写真
の矩形領域を特定色で塗り潰した文書画像を生成するス
テップと、該文書画像に2値化処理を施して得られた2
値画像に対して文字認識を行うステップとを更に有す
る。
【0029】本発明によれば、図・写真等の領域の周辺
にある文字部分を精度良く抽出することができる。
【0030】請求項9に記載の発明は、請求項1の記載
において、前記分類ステップにおいて分類された所定の
矩形領域に対して再帰的に該分類ステップの処理を実行
する。
【0031】本発明によれば、文書全体の背景色と異な
る背景色を有する部分領域内も正確に領域識別される。
【0032】請求項10に記載の発明は、文書画像を認
識する文書画像認識方法であって、文書画像をデジタル
画像として入力するステップと、該文書画像をカラー領
域識別するステップと、カラー領域識別された領域毎の
二値画像を生成するステップと、領域毎の二値画像を統
合して一枚の二値画像を生成し、該二値画像の領域識別
を行うステップと、該二値画像の領域識別結果と前記カ
ラー領域識別結果とを照合し、必要に応じてフィードバ
ック処理を所定の条件を満たすまで又は所定回数行って
二値画像と領域識別結果を得るステップとを有する。
【0033】本発明によれば、OCR前処理(領域識
別、二値化)へのフィードバック機構を有することとし
たので、従来のカラー文書認識技術では難しかったカラ
ー文書特有の問題に対しても対応可能となる。例えば、
従来技術では難しかった各セルが色分けされた表や、グ
ラデーションが大きく変化する地肌に書かれた文字、あ
るいはこれらが混在する場合でも精度よくOCRするこ
とができる。
【0034】請求項11に記載の発明は、請求項10の
記載において、カラー領域識別結果と二値画像の領域識
別結果との照合の結果、文書のある範囲にて所定の条件
を満たさない場合に前記フィードバック処理が行われ、
該フィードバック処理は、該範囲を包含する領域を作成
し、該領域に対して再度カラー領域識別、二値化及び二
値領域識別を行い、両者の領域識別結果を照合するステ
ップを有する。
【0035】本発明によっても、請求項10と同様の効
果を得ることができる。
【0036】請求項12に記載の発明は、請求項10の
記載において、カラー領域識別結果と二値画像の領域識
別結果との照合の結果、ある範囲にて一方の領域識別で
文字行が抽出され、もう一方の領域識別結果では文字矩
形が得られなかった場合に、前記フィードバック処理が
行われ、該フィードバック処理は、該文字矩形の文字色
を特定し、文字色にばらつきがなければ、該範囲には文
字が存在すると判定し、特定した文字色を用いて再度カ
ラー領域識別、二値化及び二値領域識別を行い、両者の
領域識別結果を照合するステップを有する。
【0037】本発明によれば、領域単位ではなく文字行
で領域識別結果を比較し、文字行が両方にあるかどうか
を調べるので、従来避けられなかった行から領域への統
合誤りを回避することができる。その際、文字色を特定
して文字色のばらつきを調べることで、比較対象範囲に
文字が存在するか否かを精度よく判定でき、その結果文
字が存在する範囲だけをフィードバックすることで周囲
への悪影響がなく文字抽出精度が向上する。
【0038】請求項13に記載の発明は、請求項12の
記載において、前記フィードバック処理は、カラー領域
識別結果と二値画像の領域識別結果との照合の結果、あ
る範囲にてカラー領域識別では抽出された文字行が二値
領域識別の結果では存在しない場合に、該当する文字行
を包含する領域を作成し、二値化及び二値領域識別を行
い、該領域識別結果とカラー領域識別結果とを照合する
ステップを含む。
【0039】本発明によれば、領域単位ではなく文字行
単位で領域識別結果を比較することにより、従来避けら
れなかった行から領域への統合誤りを回避することがで
きる。その際、カラー情報を積極的に用いるカラー領域
識別での文字抽出結果を優先的に採用することで、二値
化が原因で従来OCRできなかった文字をフィードバッ
クして抽出する。
【0040】請求項14に記載の発明は、請求項10の
記載において、カラー領域識別結果と二値画像の領域識
別結果との照合の結果、双方の領域識別結果で所定行数
以上連続してレイアウト特徴が異なる文字行が存在する
場合に、前記フィードバック処理が行われ、該フィード
バック処理は、該当する文字行を包含する領域を作成
し、二値化及び二値領域識別し、該領域識別結果とカラ
ー領域識別結果とを照合するステップを有する。
【0041】本発明によれば、領域単位ではなく文字行
単位で領域識別結果を比較することにより、従来避けら
れなかった行から領域への統合誤りを回避することがで
きる。その際、対象範囲の複数行についてそれぞれレイ
アウト特徴を比較することで、どちらかの領域識別結果
での誤りを正確に検出することができ、該当範囲だけを
フィードバックすることで周囲への悪影響なく文字抽出
精度が向上する。
【0042】請求項15に記載の発明は、請求項10の
記載において、前記カラー領域識別された領域毎の二値
画像を生成するステップにおいて、文字部には画像分割
型の二値化方式を適用し、罫線部、図、写真領域には判
別分析型の二値化方式を適用する。
【0043】画像分割型二値化方法は、悪条件下(グラ
デーション、周辺ノイズなど)でも、人間が認識可能な
レベルで文字と背景を分離することが可能であるので、
文字領域の二値化に適している。また、判別分析法を用
いて罫線、図・写真領域を二値化することで、特に二値
化の閾値を多少濃い目に設定することにより罫線がかす
れず図や写真も一塊になり、領域識別にとって有利な二
値画像となる請求項16に記載の発明は、請求項10な
いし15のうちいずれか1項の記載において、前記カラ
ー領域識別は、請求項1に記載の文書画像認識方法によ
り行うこととする。これにより、精度良くカラー領域識
別できるとともに、文字色を利用しやすくなる。
【0044】請求項17〜29に記載された発明は、本
発明の文書画像認識方法の実施に適した文書画像認識装
置であり、上述した作用及び効果と同様の作用効果を得
ることができる。
【0045】請求項30〜32に記載された発明は、本
発明の文書画像認識方法をコンピュータ上で実行するた
めのプログラムを記録したコンピュータ読み取り可能な
記録媒体であり、この発明によっても、上述した作用及
び効果と同様の作用効果を得ることができる。
【0046】上述の通り、本発明によれば、ディスクや
メモリーの過剰な消費を押さえて、かつ高速な画像認識
装置及び方法を提供することができる。
【0047】また多彩な色が用いられたカラー文書だけ
ではなく、新聞等のような白黒・グレー画像に対しても
精度良く領域識別を行うことができる。
【0048】更に、カラー文書特有の問題を有するカラ
ー文書に対しても精度よくOCRすることができる。
【0049】
【発明の実施の形態】(第1の実施例)以下、図を参照
して本発明における第1の実施例を説明する。図1は本
発明の文書画像認識装置の構成図である。同図に示すよ
うに、本発明の文書画像認識装置は、CPU(中央処理
装置)100、メモリ101、スキャナ102、通信装
置103、表示装置104、ハードディスク105、キ
ーボード106、CD−ROMドライブ107を有す
る。ハードディスク105は文書画像認識装置の外部装
置として接続してもよいし、内部装置として有していて
もよい。CPU100は文書画像認識装置の全体を制御
する。メモリ101はCPU100で処理するデータや
プログラムを保持する。通信装置103は文書画像認識
装置をLAN等のネットワークに接続するための制御を
行う。キーボード106はデータを入力する装置であ
る。CD−ROMドライブ107はCD−ROM等を駆
動し、読み書きを行う。スキャナ102は文書画像認識
装置の外部装置として接続され、文書をカラーデジタル
画像として入力する機能を有する。CD−ROMドライ
ブ107の他、MOドライブ、FDドライブ、DVDド
ライブ等でもよい。
【0050】本発明において後述する処理を実行するプ
ログラムは、例えばCD−ROMに格納され、CD−R
OMドライブ107を介してハードディスク105にロ
ードされる。プログラムが起動されると、所定のプログ
ラムがメモリ101に展開され、処理が実行される。動
作の概要は次の通りである。
【0051】まず、スキャナ102を介して紙文書の内
容がカラーデジタル画像として入力され、メモリ101
又はハードディスク105に格納される。次に、以下で
詳述する領域識別がCPU100により行われ、領域識
別結果に対して、例えばOCR処理が行われる。
【0052】図2は本発明の第1の実施例における処理
の全体を示すフローチャートである。図2を用いて全体
の処理を説明し、その後に各処理について詳細に説明す
る。まず、ステップS101として、紙文書であるカラ
ー文書画像を入力する。この入力は、スキャナーで、あ
るいはネットワークを介してカラーデジタル画像として
入力することが可能である。本実施例では色数を24b
itフルカラーと仮定するが、本発明は、基本的に画像
の色数や解像度には依存しない。また、本実施例では、
扱う画像はビットマップ形式で表現されていると仮定し
ている。従って、画像を周波数成分で表現するJPEG
のような画像が入力された場合には、最初に画像全体を
ビットマップ形式に変換する。本実施例における画像形
式としては、例えば、200dpi、24bitカラ
ー、Windows(登録商標)BMP形式、非圧縮、
色表現RGB座標系とすることができる。
【0053】ステップS102として、文書の背景色を
検出する。次に、ステップS103にて画像へのアクセ
スコストを押さえるために原画像を縮小する。ステップ
S104において、縮小画像に対して背景色と異なる画
素からランを生成し、次に、ランを統合して矩形を生成
して(ステップS105)、最後に小さな矩形を統合す
る(ステップS106)。なお、背景色特定の処理(ス
テップS102)と縮小画像生成の処理(ステップS1
03)は逆でもよい。
【0054】次に、ステップS107として、生成され
た矩形を写真/テキスト/罫線などに分類し、ステップ
S108において、前記分類された矩形の座標値を、原
画像上における実際の値にあわせるために適宜拡大変換
する。上記のステップS101〜ステップS108の処
理がカラー文書画像の領域識別のための処理である。本
発明では、更に原画像に戻り、ステップS109で、前
記抽出した写真矩形を黒、あるいは指定された色で塗り
潰したカラー画像を生成する。次に、従来の文字認識技
術を適応するために、ステップS110にて、前記生成
したカラー画像を変換して2値400dpi相当の画像
を生成する。画像の2値化には種々の方法が適用可能で
あり、例えば、大津の方法(判別分析法)等を適用する
ことができる。
【0055】次に、ステップS111において、生成し
た2値400dpi相当の画像に対して、従来の文字認
識手法でOCR処理する。必要に応じて、OCR処理の
前に従来の2値画像に対する領域識別を施して、前記カ
ラー文書画像から直接得られた領域識別結果とを照合す
ることにより文書の領域識別結果を補正してもよい。特
に、図・写真領域の識別に関しては、本発明における色
情報を用いた領域識別結果を採用すればよい。
【0056】最後に、ステップS112として、OCR
処理の結果とカラー画像から直接分離した写真領域を組
み合わせて、例えばHTML形式で文書を再現する。す
なわち、OCR結果から文字コードが、図・写真等の領
域識別結果からはいづれもオリジナル画像に対する座標
値が分かるので、文書レイアウトを再現することは容易
である。例えば、PDF、PS、RTF形式等で文書再
現を行うことができ、その際、写真・図の矩形はオリジ
ナルのカラーで表現する。また、読み順を考慮して、H
TML形式等で再現すれば、論理的に文書を再現でき、
なおかつ、写真・図はオリジナルのカラーで表現できる
ので、Web上の利用効果が大きい。
【0057】次に、与えられた矩形領域(画像全体も
可)の背景色を特定するための背景色特定処理(上記の
ステップS102に相当する)について詳細に説明す
る。図3は、背景色特定処理を示すフローチャートであ
る。
【0058】ステップS201として、処理対象となる
矩形(Aとする)を入力する。与えられた矩形が原画像
全体ならば、ステップS202において、スキャン時に
混入が予想される周辺ノイズを避けるために、周辺ノイ
ズ除去を行う。例えば、対象とする範囲をすこし狭めて
もよい。
【0059】次に、矩形Aにおける色の分布具合いを調
べるために、矩形Aで用いられている色のクラスタリン
グを行う(ステップS203〜ステップS209)。
【0060】まず、ステップS203にて、例えば、6
4画素ごとにサンプリングする。本実施例では、処理の
高速化を図るために、矩形A全体を走査するのではなく
一定の間隔をあけて画素をサンプリングする。次に、サ
ンプリングされた画素P(注目画素という)からクラス
タリングに用いる画素値を求める。ここでは文書画像の
文字部のエッジを保持するために、Pの近傍を参照して
平滑化された画素値を得る。本実施例では注目画素を中
心とした5×5ブロックを近傍としている(ステップS
204)。
【0061】注目画素Pを中心とした近傍5×5ブロッ
ク内を参照した平滑化は、例えば「コンピュータ画像処
理入門」田村秀行著、総研出版、P.105図4.12に記載
された方法で行う(ステップS205〜ステップS20
7)。すなわち、ステップS205において、注目画素
Pに対してブロック内の9種類のエリアを定義して、そ
れぞれのエリア内での濃度の分散を求める。「コンピュ
ータ画像処理入門」における9種類のエリアの例を図4
に示す。
【0062】続いて、ステップS206において、分散
が最小となる近傍エリアを選択して、そのエリア内での
代表色を各画素値の平均値等を用いて決定する(ステッ
プS207)。
【0063】次に、画像領域全体を走査したかどうかを
調べ(ステップS208)、まだ全体を走査していない
場には、再びサンプリング(ステップS203)から処
理を行う。全体を走査した場合には、ステップS207
で決定された代表色をクラスタリングする(ステップS
209)。ここでのクラスタリング手法は、よく知られ
た代表的な手法でよい。クラスタリングの結果から、ス
テップS210において最大クラスタの代表色(Bとす
る)を選択肢、Bを指定領域Aの背景色とする(ステッ
プS211)。
【0064】図5は、縮小画像生成処理(ステップS1
03)を示すフローチャートである。縮小画像生成処理
は、画像へのアクセスコストを押さえるために行う処理
であり、原画像から縮小画像を生成して、ステップS1
04以降の処理は縮小画像に対して行われる。
【0065】ステップS301にて、オリジナル画像を
入力し、ステップS302にて、上記のようにして求め
た背景色Bを入力する。次に、入力画像をm×mの格子
状に分割し(ステップS303)、左上から順に格子を
選択する(ステップS304)。本実施例では、3×3
の格子サイズを使用する。なお、格子はブロックと称し
てもよい。
【0066】ステップS305にて、格子iの代表色を
とする。Cは、例えば格子内の各画素値の平均値
とすることができる。次に、ステップS306にて、格
子iの色の分散値をVとする。次に、格子iの代表色
と背景色Bとを比較し、また、格子iの色の分散値
と所定の値とを比較する(ステップS307)。比
較の結果、格子iの代表色Cが背景色Bとほぼ同じで
あり、かつ、格子iの色の分散値Vが十分小さければ
(ステップS307におけるYES)、その格子iの代
表色をBと定義して、格子を1つの画素値Bに圧縮する
(ステップS309)。ステップS307においてNO
の場合、格子iの代表色をそのままCと定義して、上
記と同様に、格子を1つの画素値Cに圧縮する(ステ
ップS308)。すなわち、1/9に圧縮される。ステ
ップS310にて全ての格子を処理したかどうかを調
べ、全ての格子を処理したならば処理を終了し、まだ全
て処理していなければ格子の選択(ステップS304)
の処理から再び処理を行う。
【0067】上記の画像圧縮処理について更に説明す
る。図6は、画像圧縮処理(3×3ブロックOR圧縮と
称する)の概念を2値画像を例にとり説明するための図
である。同図の(a)に示すように、3×3ブロックの
画素が、例えば、黒背景上の白文字画素ならば、そのブ
ロックを白文字画素で代表する。また、(b)に示すよ
うに、3×3ブロックのある画素が、例えば、白背景上
の黒文字画素ならば、そのブロックを黒文字画素で代表
する。この2値画像の方法では、黒背景に薄い文字が書
かれたような文書画像やカラー画像の場合、圧縮した時
に薄い色の文字画素が消滅する可能性があるが、上述し
た本発明の方法によれば、そのような問題点は解決され
る。
【0068】本発明では、予め対象ブロックを含む広い
近傍内で背景色Bを求めておく。そして、格子内の代表
色が背景色とほぼ同じで、格子内の色分散が小さければ
該当の格子は背景色で代表し、そうでなければ、格子の
代表色で代表する。このような方法によって、文書要素
はCとして残り、それ以外は背景色Bとなるので、カ
ラー画像を効率良く圧縮することが可能となる。すなわ
ち、隣接した文字は上記のOR圧縮でつぶれて固まり、
1mm以上の間隔はそのまま保持されるので、領域識別
の観点からは、ボトムアップ的に画素を統合して文書要
素(矩形)を生成する本発明にとって最適な圧縮画像を
得ることが可能となる。また、画像を平滑化する効果も
ある。
【0069】さて、画像の領域識別の処理においては、
処理速度および使用メモリを考慮すると画像の圧縮は欠
かせないが、領域識別処理自体にはOCR処理ほどの高
解像度・高品質な画像は必要ない。従って、上記のよう
な格子ブロック処理による画像圧縮は、実装および速度
の点から有利であり、処理速度が向上し、使用メモリ量
の軽減を図ることができる。
【0070】ここで、図と文字とは少なくとも1mm以
上離れていると考えられるので、本実施例では、ブロッ
クサイズを3×3としている。すなわち、3ドットの圧
縮であれば、図と文字とは融合されずに済む。200d
piの画像ならば3×3又は4×4が適当なブロックサ
イズであると考えられる。
【0071】次に、ラン生成の処理(ステップS10
4)について更に説明する。
【0072】一般に2値画像の場合は、同一ライン上の
近傍の黒画素同士を統合して黒ランを生成する。一方、
本発明では、背景色Bとほぼ同じ画素値を持つ画素を
0、それ以外の画素を1として、1の画素値を持つ画素
を統合してランを生成する。背景色と注目画素値が同一
かどうかの判断は、図7に示すフローチャートに示すよ
うな手順で行われる。すなわち、背景色Bと注目画素値
Pを入力し(ステップS501、S502)、ステップ
S503にて、RGB各色値の差の絶対値がそれぞれ同
時に十分に小さいかどうかを調べる。同時に十分に小さ
い場合はBとPは同一色であると判断し(ステップS5
04)、そうでない場合は、BとPは異なる色であると
判断する(ステップS505)。RGB系で表した背景
色Bを(r,g, b)、ある画素pを(rp, gp, bp)とする
場合、RGB各色値の差の絶対値がそれぞれ同時に十分
小さいときとは、例えば、BとPが次の条件を満たすと
きであるする。
【0073】 |r-rp|<100 かつ|g-gp|<100かつ |b-bp|<100 上記の方法を画像の左上から順に1行づつ適用すること
により、カラー画像からランを生成する。ランは例えば
左上と右下の座標値(xs,ys,xe,ye)を持つ矩形である。
【0074】ラン統合・矩形生成処理(ステップS10
5)においては、現在生成中のランと、前ラインとのラ
ンとの間に重なりがある場合は、前ラインのランの座標
値を更新する形で現在生成中のランと前ラインのランを
統合して矩形を生成する。2つの矩形が重なりを持つ場
合には、2つの矩形を包含する最小の座標値を求めて、
一方の座標値を更新する形で統合する。
【0075】ここで、矩形(又は矩形データ)とは、矩
形の左上と右下の座標(Xs,Ys,Xe,Ye)、属性(文字、罫
線、図・写真等)、及び任意属性(文字色、背景色等)
からなる組である。矩形の例を次に示す。
【0076】 写真矩形 R1={(20,40,64,72),“写真”} 文字矩形 R2={(20,40,30,50),“文字”,黒,白)
第3,4要素は文字色(黒)と背景色(白)である。ラン
も矩形の一種であり、ランの場合は、ys=yeである。
【0077】矩形統合・矩形リスト生成処理(ステップ
S106)における領域識別結果は、次のような矩形デ
ータのリストで表現される。
【0078】 矩形リスト={R1,R2,…,Rn},n:抽出された矩形の総数 次に、矩形分類処理(ステップS107)について説明
する。矩形分類処理においては、ステップS106にて
生成した矩形を文字、罫線、および図・写真(その
他)、周辺ノイズのそれぞれに分類する処理を行う。こ
の中で、本発明で特に重要なのは、図・写真(その他)
である。分類の際の特徴には、例えば、矩形のサイズ、
高さ、位置、縦横比、等を用いる。以下、図8のフロー
チャートを用いて矩形分類処理について説明する。
【0079】まず、生成された矩形を、生成された順に
リストや配列として入力する(ステップS401)。続
いて、矩形リストの先頭から最後まで順に以下の処理を
行う。
【0080】現在参照中の矩形をRとおく(ステップS
402)。ステップS403にて、矩形Rが罫線特徴を
有するかどうかを調べる。矩形Rが横または縦方向に十
分細長ければ、Rを横または縦方向の罫線と分類する
(ステップS406)。ステップS403でNOであれ
ば、ステップS404において、矩形Rの高さが十分小
さいかどうかを調べ、十分に小さければ矩形Rは文字矩
形であると分類する(ステップS407)。ステップS
404でNOの場合であって、矩形Rの面積が十分に小
さ場合も、矩形Rは文字矩形であると分類する(ステッ
プS405、S407)。
【0081】ここで、S403における罫線特徴を持つ
かどうかは、具体的には次の条件を満たすかどうかで判
断する。すなわち、(1)矩形の縦横比が20倍以上、
(2)高さが3ドット以下、(3)矩形内部において長
い水平(垂直)ランのみで構成されている、場合に罫線
特徴を持つとする。
【0082】また、ステップS404において、Rの高
さが十分小さいとは、具体的には紙の上で10mm以下
とする。すなわち、200dpi画像の場合には高さ8
0ドット以下の矩形がこの条件に相当する。
【0083】更に、ステップS405において、Rの面
積が十分小さいとは、具体的には1600(dot×dot)
以下とする。
【0084】ステップS403〜S405のいずれの条
件にも当てはまらなかった矩形は、ステップS408に
おいて、一旦図・写真(その他)矩形の候補として分類
し、以降の処理で、図・写真(その他)の候補に分類さ
れた矩形をさらに詳しく分類する。
【0085】すなわち、図・写真(その他)矩形を1つ
の文書画像とみなして、本発明の領域識別処理を再帰的
に施す。すなわち、ステップS409で矩形Rの背景色
を特定し、ステップS410〜S412で矩形R内の矩
形を生成する。ただし、矩形Rはすでに原画像から圧縮
されているので、Rを再び圧縮する必要はない。従っ
て、図2のステップS103に相当する処理は行わな
い。
【0086】ステップS413において、Rに対して再
帰的に図8に示したフローチャートの矩形分類処理を施
す。ここで、再帰的に矩形生成・分類処理を行う理由は
次の通りである。
【0087】2値画像と異なり、カラー画像では、領域
毎に異なる背景色を持つ場合がある。そのような場合、
文書全体の背景色Bと異なる背景色を持つある部分領域
について、上記の矩形生成の結果、その部分領域全体が
誤って1つの矩形として統合されてしまうことがある。
従って、再帰的に矩形生成・分類処理を行う必要があ
る。
【0088】例えば、図9におけるオリジナル画像の背
景色1と部分領域3内の背景色5が異なる場合、領域識
別結果として、領域3は1つの矩形として識別される。
この領域3に再び矩形生成・分類処理を施すこととな
る。
【0089】ステップS414にて、R内の文字矩形を
抽出するために、R内の同一ライン上で連続した文字矩
形が存在するかどうかを調べる。存在しない場合、Rを
正式に図・写真などのその他矩形に分類して(ステップ
S416)、矩形リストの次要素を取り出して(ステッ
プS420)、次の矩形の処理に移る(ステップS42
1)。ここで、矩形リスト中の全ての矩形を分類し終わ
れば処理を終了する(ステップS421でYESの場
合)。
【0090】ステップS414において、R内の同一ラ
イン上で連続した文字矩形が存在する場合、ステップS
415にて、これら文字矩形を包含するような大きな文
字矩形Tを生成する。R内の文字部分がいくつか離れた
箇所に複数存在する場合には、上記のようにして統合し
た矩形TもR内に複数生成されると考えられる。次に、
ステップS417において、矩形Tを文字矩形として矩
形リストLに追加登録する。
【0091】ここで、ステップS414において、R内
に同一ライン上で連続した文字矩形が存在するかどうか
は、具体的には、先頭文字矩形の高さの中心を基準ライ
ンとしたとき、基準ラインの±5dot以内に連続した
文字矩形が3つ以上連続しているかどうかで判断する。
【0092】続いて、ステップS418にて、Tの面積
がRの面積に対して十分大きいかどうかを調べる。十分
大きい場合には、ステップS419にて、Rを矩形リス
トから削除する。ステップS418にてNOの場合は、
Rを正式に図・写真(その他)矩形に分類して(ステッ
プS416)、次の矩形の処理に移る(ステップS42
1)。以上の処理をすべての矩形について繰り返す。
【0093】ここで、ステップS418において、Tの
面積がRの面積に対して十分大きいかどうかは、具体的
にはTの面積がRの面積の80%以上であるかどうかで判
断する。
【0094】なお、上記の矩形分類処理において、ステ
ップS401からS408までの処理は2値画像に対す
る領域識別処理と同様な処理である。カラー画像特有の
処理は、ステップS408でその他と分類された矩形に
対して、再帰的にもう一度図8の処理を施すことであ
る。
【0095】次に、写真矩形を塗り潰した画像を生成す
る処理(ステップS109)について、図10の例を用
いて説明する。
【0096】図10の左上にオリジナル画像10、右上
に領域分割画像12を示す。領域分割画像12には、本
発明のカラー領域識別の結果、写真矩形と判断された矩
形を特定色で塗り潰す処理(ステップS109の処理)
を施してある。
【0097】入力カラー画像を2値化してOCR処理を
施す場合、写真矩形を塗り潰さずにそのままの状態で画
像全体を2値化して、生成された2値画像から文字行矩形
を生成した場合、図10の左下のような画像11となる
場合がある。すなわち、写真矩形の薄い部分の近傍の文
字矩形が、誤って写真部分と統合されてしまう。一方、
ステップS109の処理を施した領域分割画像12から
文字行を生成した結果の画像13では、正しく文字矩形
が生成される。
【0098】本発明の処理によって得られた領域識別結
果はOCR以外の画像認識処理に適用することも可能で
ある。
【0099】(第2の実施例)次に、本発明の第2の実
施例について説明する。
【0100】前述したように、一般にカラー化された文
書では、単に使用される色数が増えるだけではなく文書
のレイアウト構造も複雑になる傾向がある。このため、
単純に二値化して領域識別しても、最終的なOCR精度
を向上させるのは難しい。
【0101】例えば、図11に示すような各セルが色分
けされた表の場合、従来の二値化技術を用いると表とし
て適切に二値化されない場合がある。また、図12に示
すようなグラデーションが大きく変化する地肌に書かれ
た文字の場合にも、OCR処理のために適切な画像が得
られない場合がある。
【0102】ここで、個々の文字領域の背景は一定の色
あるいは緩やかなグラデーションであると仮定すれば、
第1の実施例で説明した方法を用いることによって対応
可能である。また、文字は必ず一定の色で記述されてい
ると仮定すれば、画像分割型の二値化方式(特願平11
−113761号参照)でもOCR可能なレベルの状態
にはなる。しかし、一般にカラー化された文書は複雑で
あり、図11や図12に示すようなカラー特有の問題が
混在している場合が多い。従って、一般にカラー化され
た文書に対しては、従来方法(二値化+領域識別)を組
み合わせるだけではOCRに好適な画像を生成すること
は困難であるといえる。
【0103】第2の実施例では、第1の実施例で説明し
たカラー領域識別処理に加え、OCRに好適な画像を生
成するために前処理へのフィードバック処理を追加し
て、個々の技術では対応しきれかなった複雑なカラー文
書の認識を可能とした文書画像認識技術について説明す
る。第2の実施例では、カラー領域識別は文字よりも写
真や図の抽出に強く、それに対して2値の領域識別はテ
キストの抽出に強いという性質を利用している。
【0104】図13に、本発明の第2の実施例における
文書画像認識装置の構成を示す。なお、第2の実施例に
おける処理を実行するプログラムを用いて図1に示すコ
ンピュータを第2の実施例における文書画像認識装置と
して使用することもできる。また、そのプログラムをC
D−ROM等の記録媒体に記録して、コンピュータにイ
ンストールすることにより本発明を実施することもでき
る。
【0105】図13に示す文書画像認識装置は、画像入
力手段201、領域識別手段202、二値化手段20
3、領域識別手段204、領域識別再考手段205、O
CR手段206、データベース207を有する。
【0106】画像入力手段201により、紙文書である
カラー文書画像を入力する。例えば、スキャナー、ある
いはネットワークを介してカラー文書画像をカラーデジ
タル画像として入力する。
【0107】領域識別手段202は、カラー文書画像を
写真/テキスト/罫線などの小領域に分割する。ここで
は第1の実施例におけるカラー領域識別処理と同様の処
理を行う。
【0108】二値化手段203は、カラー文書画像を後
段のOCRにとって最適な二値画像に変換する。後述す
るようにここでの二値化処理は、テキストと背景を精度
よく分離し、罫線や写真などは擦れないように工夫され
必要ならば文字のエッジを強調することも可能である。
また、二値化手段203は性質の異なる複数の二値化方
式を有しており、カラー領域識別で分類された各領域
(写真/テキスト/罫線)をそれぞれ最適な方式で二値
化する。
【0109】領域識別手段204は、二値画像に対して
領域識別を行う。この領域識別については従来の領域識
別方法を用いて行うことが可能である。
【0110】領域識別再考手段205は、カラー領域識
別結果と二値領域識別結果との間に整合が取れているか
どうかを確認して、もし両者の一部に違いがあれば該当
する領域のみを再度カラー領域識別、二値化、二値領域
識別するようなフィードバック処理の判定を行う。この
フィードバックは、両者の領域識別結果が一定の条件を
満たすまで繰り返し実行される。OCR手段206は、
二値画像を入力してOCR処理を行う。データベース2
07は、OCR結果を保持する。
【0111】次に、第2の実施例における文書画像認識
装置の動作を図14のフローチャートを用いて説明す
る。
【0112】まず、ステップS601においてカラー画
像を入力し、ステップS602にてカラー領域識別を行
い、ステップS603にて識別された領域毎に異なる方
式で二値化し、1枚のOCR用二値画像を生成する。
【0113】そして、ステップS604において二値画
像に対して従来方法で領域識別を行い、ステップS60
5にてカラー領域識別結果と二値領域識別結果とを比較
し、ステップS606においてフィードバック処理が必
要かどうかを判断する。
【0114】判断の結果がYesならば、該当する領域
だけ再度ステップS602からやり直し、判断の結果が
Noならば、OCR処理を施して結果をDBに出力する
(ステップS607、ステップS608)。
【0115】上記のステップS606において、照合に
よる矛盾が所定の値以下となった場合、もしくは所定回
数だけS602〜S605の処理を実行した場合にステッ
プS607の処理に進むようにすることができる。ま
た、S602〜S605の処理結果がその前の処理結果と
一致した場合にステップS607の処理に進むようにし
てもよい。
【0116】上記の処理のうちステップS603の領域
ごとに二値化する処理と、ステップS606、606の
フィードバック処理以外は第1の実施例で説明した処理
と同様の処理を行う。
【0117】上記のように、カラー領域識別(ステップ
S602)において、入力されたカラー文書画像を二値
化する前に色やレイアウト情報を用いて領域識別する。
第2の実施例でも第1の実施例で説明した方法を用いる
ことができる。前述した通り、この方法ではカラー文書
画像を領域識別すると同時に、識別された文字矩形の文
字色を検出することが可能である。第2の実施例ではO
CR処理の前に文字色を利用するので、第1の実施例で
説明したカラー領域識別方法は第2の実施例におけるカ
ラー領域識別に適した方法である。
【0118】次に、領域ごとに二値化する処理(ステッ
プS603)について詳細に説明する。
【0119】OCRにとって最適な二値画像は、文字や
罫線、図・写真などの種類によって異なり、例えば、文
字と背景とは明確に区別される必要がある。また文字の
中に一部白抜けがあると、OCRへの悪影響は避けられ
ない。また、わずかな罫線のかすれも許されない。一
方、図・写真領域は過剰分割を防ぐために全体としてぼ
んやりと暗めに二値化される方が望ましい。
【0120】以上の理由から、本実施例では図15に示
すように文書の領域ごとに二値化して、OCRのための
最適な二値画像を生成する。
【0121】図15の左上の画像はカラー領域識別され
た結果を矩形表示したものである。まず(1)に示すよ
うに、入力画像全面から最終二値化画像の土台となる二
値画像を生成する。この二値化を行う方法は、判別分析
法でも画像分割型二値化方式でも構わない。また、その
他の方法で二値化してもよい。
【0122】次に、(2)に示すように、識別された領
域ごとに各領域に適した方式で二値化が行われる。ここ
で、本実施例では、文字領域には画像分割型を、罫線、
図・写真領域には判別分析法を適用する。
【0123】画像分割型二値化方法(特願平11−11
3761号)は、図16に示すように、オリジナル画像
を格子状に分割し、格子毎に二値化する方法である。こ
の方法は、図12に示したようなかなりきつめ条件(グ
ラデーション、周辺ノイズなど)でも、人間が認識可能
なレベルで文字と背景を分離することが可能であるの
で、文字領域の二値化に適している。本実施例では、二
値化対象領域の幅に応じて、格子幅を図17に示すよう
に変化させることとしている。
【0124】一方、判別分析法で罫線、図・写真領域を
二値化することで、特に二値化の閾値を濃い目に設定す
ることで罫線がかすれず図や写真も一塊になり、領域識
別にとって有利な二値画像となる。最後に、領域ごとに
生成された二値画像を土台となる二値画像上に貼り付け
ることにより二値画像を生成する。
【0125】次に、図14のステップS605、S60
6で実行される領域識別結果の比較について詳細に説明
する。
【0126】さて、例えば図11に示すように各行が色
分けされた表を2値化処理した場合、表としてうまく2
値化されない場合が多い。文書のカラー化に伴い、レイ
アウトもより一層複雑化する傾向があるので、2値化処
理のみではうまく2値化されない場合が一層多くなると
考えられる。
【0127】そこで、本実施例においては、カラー領域
識別結果と二値領域識別結果を比較して、必要ならばフ
ィードバック処理を行ってOCRのための最適な二値画
像と正確な領域識別結果を得ている。
【0128】図18、図19を用いて本実施例における
領域識別結果の比較と修正の例を説明する。図18は二
値化によって”COURSE”を含む文字行が全く抽出されな
かった例であり、このような場合に図19に示した手順
で領域識別を修正する。
【0129】まず、ステップS701にてカラー領域識
別結果Cを、ステップS702にて二値領域識別結果B
を入力する。続いて、ステップS703において行単位
で双方の結果の対応を調べる。
【0130】次に、ステップS704において片方には
存在しない行があるかどうかをチェックする。このため
に、文字矩形の座標を比較して判断する。例えば、カラ
ー領域識別から得られたある文字矩形に対して、二値領
域識別結果にはこれと矩形座標が重なる座標が全くない
場合に、片方には存在しない行があると判断する。
【0131】ステップS704における判断結果がYe
sならば、ステップS705の判断へ進み、Noなら
ば、本処理を終了して図14のステップS607のOC
R処理へ進む。
【0132】ステップS705において、前記検出され
た文字行が二値領域識別結果Bにのみ存在し、カラー領
域識別結果Cには該当する文字行は存在しないかどうか
をチェックする。Noならば、ステップS708へ進
む。
【0133】Yesならば、該行内の文字色のばらつき
を調べるために、ステップS706において原画像に立
ち戻って文字色を特定し、ステップS707において各
文字の文字色に大きなばらつきがあるかどうかを判定す
る。ここでは、例えば各文字色(RGB値)の分散を求
めて、これが一定値以上大きい場合には色のばらつきが
大きいと判断する。
【0134】ステップS705の判断においてYesで
ある場合のようにカラー領域識別では抽出できなかった
文字行が二値領域識別結果Cに存在する場合には、二値
化が不十分であったために文字行にノイズが混入してい
ることが多い。本発明では、そのような場合に、そのノ
イズの色と正しい文字色とは異なると仮定し、ステップ
S706、S707の処理を行うことによって色のばら
つき具合を見ることでこの誤りを検出している。
【0135】ステップS707の判断がNo、もしくは
ステップS705の判断がNoならば、ステップS70
8において、該当する行を包含する領域を作成する。
【0136】ステップS707の判断がYesならば、
図18に示す処理は終了して図12のステップS607
のOCR処理に進む。
【0137】ステップS708の処理の後、ステップS
709として該領域を再度二値化して、該領域を二値領
域識別し、ステップS702からの処理を再度行う。
【0138】上記の処理において、ステップS705に
おいてNoである場合とは、カラー領域識別では抽出さ
れた文字行が二値領域識別の結果では存在しない場合で
あり、その場合、ステップS708以降の処理で示すよ
うに、該当する文字行を包含するような領域を作成し
て、二値化および二値領域識別して、両者の領域識別結
果に著しい差がなくなるまでこのフィードバック処理を
繰り返して最終的な領域識別結果の向上を図ることとし
ている。
【0139】すなわち、カラー領域識別では文字行が抽
出されたのにも関わらず、二値領域識別では対応する文
字行が存在しなかった場合、文字色を調べることなくフ
ィードバック処理を行って該文字行の再抽出を試みる処
理を行うようにしている。
【0140】ここで、ステップS705でNoの場合に
文字色を厳密に調べることなくフィードバック処理に踏
み切る理由は、色情報を直接用いたカラー領域識別のほ
うが、形状や二値の情報しか用いていない二値領域識別
よりも文字列の有無を検出する精度が高いからである。
この段階では、カラー領域識別でも正確に文字行を切り
出すことはできない可能性があるが、前記理由から文字
列が存在する可能性は高いので、二値化と二値領域識別
を繰り返すことにより最終的なOCRのための文字抽出
精度向上を図ることとしている。
【0141】図20に、領域識別結果の比較と修正の他
の例を示す。図20(a)はカラー領域識別の結果例で
あり、本来の正しい行切り出し結果を示している。図2
0(b)は二値領域識別結果を示す図であり、二値化が
不十分であったため、文字の一部が正しく抽出できずに
周辺のノイズと融合して図・写真領域が誤抽出されてい
る例を示している。
【0142】このような場合、本実施例では図21の手
順で領域識別結果の正当性を検証して、二値化や領域識
別処理を繰り返すフィードバック処理により誤りを修正
する。
【0143】ステップS801においてカラー領域識別
結果を入力し、ステップS802において二値領域識別
結果を入力する。次に、ステップS803として行単位
で双方の結果の対応を調べる。
【0144】ステップS804において、特徴の異なる
行が所定の数以上連続して存在するかどうかをチェック
する。本実施例では所定の行数を3行としている。図2
1の例では、Lc iとLb iがそれぞれ対応する行になる。
具体的には次の条件のいずれかを満たせばステップS8
04における特徴が異なると判定される。 ・行幅が60%以下か? ・行の平均文字サイズの差が3pt以上か? ・行の平均文字色(輝度の平均)の差が30以上か? また、エッジの分布等を判定に用いてもよい。
【0145】ステップS804にてYesならば、ステッ
プS805において該当する行を包含する領域を作成
し、ステップS806において該領域を再度二値化し、
ステップS807にて該領域を再度二値領域識別する。
【0146】ステップS804にてNoならば、この処
理は終了して図14のステップS607のOCR処理を
行う。
【0147】OCR処理については、この時点でOCR
に適した二値画像と領域識別結果が生成されているの
で、従来の方法でOCR処理を行う。OCR結果も従来
と同様に文字コード、認識確信度、位置やフォントサイ
ズなどのレイアウト情報と共にOCR結果DBに保存す
る。
【0148】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
【0149】
【発明の効果】上記の通り、本発明によれば、従来の方
法と異なりカラー画像から色情報を用いて、2値化する
ことなく直接文字/罫線/イラスト及び写真等の領域を
識別するので、色情報の欠落がなく、精度良く領域識別
が可能になる。
【0150】また、本発明によれば、カラー文書画像の
背景色を精度良く特定するので、カラー文書画像の背景
色と異なる画素を統合してランの生成が可能になる。す
なわち、文書要素として意味のある矩形を精度良く抽出
することが可能となる。また、カラー文書画像の一部の
部分領域に限定して背景色特定の処理を施すことによ
り、該部分領域内の再帰的な領域識別も可能になる。
【0151】また、効率良く原画像を縮小することで、
画像へのアクセスコストを大幅に削減できる。すなわ
ち、処理速度が向上し、使用メモリ量を削減することが
可能となる。また、本発明における圧縮方法によれば、
画像を高速に平滑化する効果もあり、文書要素の抽出が
容易になる。また、縮小画像を作成する際に、画像をm
×mの格子状にすることで、本発明の実装が容易にな
る。
【0152】また、背景領域と文書要素を分離する際に
は各色値の差異を用いるため、簡単な演算で画素間の相
違度を求めることができ、十分な精度が得られる。
【0153】更に、2値化の影響を受けやすい図・写真
(その他)矩形を特定色で塗り潰すこととしたので、図
・写真(その他)領域の周辺にある文字部を精度よく抽
出することができ、OCR精度も向上する。
【0154】また、第2の実施例で説明したように、O
CR前処理(領域識別、二値化)へのフィードバック機
構を有するので、従来のカラー文書認識技術では難しか
ったカラー文書特有の問題を有するカラー文書に対して
も精度よくOCRすることができる。また、各セルが色
分けされた表や、グラデーションが大きく変化する地肌
に書かれた文字を有するカラー文書、あるいはこれらが
混在する場合でも精度よくOCRすることができる。
【0155】更に、領域単位ではなく文字行単位で領域
識別結果を比較することにより、従来避けられなかった
行から領域への統合誤りを回避することができる。その
際、文字色を特定して文字色のばらつきを調べること
で、比較対象範囲に文字が存在するか否かを精度よく判
定でき、その結果文字が存在する範囲だけをフィードバ
ックすることで周囲への悪影響がなく文字抽出精度が向
上する。また、カラー情報を積極的に用いるカラー領域
識別での文字抽出結果を優先的に採用することで、二値
化が原因で従来OCRできなかった文字が抽出可能とな
る。更に、対象範囲の複数行についてそれぞれレイアウ
ト特徴を比較することで、どちらかの領域識別結果での
誤りを正確に検出することができ、該当範囲だけをフィ
ードバックすることで周囲への悪影響がなく文字抽出精
度が向上する。
【図面の簡単な説明】
【図1】本発明の第1の実施例における文書画像認識装
置の構成図である。
【図2】本発明の第1の実施例における処理の全体を示
すフローチャートである。
【図3】背景色特定処理を示すフローチャートである。
【図4】近傍5×5ブロック内を参照した平滑化におけ
る9種類のエリアの例を示す図である。
【図5】縮小画像生成処理を示すフローチャートであ
る。
【図6】縮小画像生成処理の概念を2値画像を例にとり
説明するための図である。
【図7】背景色と注目画素値が同一かどうかの判断を行
う処理を示すフローチャートである。
【図8】矩形分類処理を示すフローチャートである。
【図9】部分領域全体が矩形として識別された例を示す
図である。
【図10】写真矩形を塗り潰した画像を生成する処理を
説明するための図である。
【図11】各セルが色分けされた表の例である。
【図12】グラデーション地肌に記述された文字の例を
示す図である。
【図13】本発明の第2の実施例における文書画像認識
装置の構成図である。
【図14】本発明の第2の実施例における文書画像認識
装置の動作を示すフローチャートである。
【図15】本発明の第2の実施例における二値化方法を
説明するための図である。
【図16】画像分割型二値化方法を説明するための図で
ある。
【図17】領域の幅に対する格子幅を示す表である。
【図18】領域識別の結果例である。
【図19】図18に示す場合において領域識別結果の修
正を行う処理を示すフローチャートである。
【図20】領域識別の結果例である。
【図21】図20に示す場合において領域識別結果の修
正を行う処理を示すフローチャートである。
【符号の説明】
1 オリジナル画像の背景色 3 部分領域 5 部分領域3の背景色 10 オリジナル画像 11 オリジナル画像10の文字行生成結果 12 領域分割画像 13 領域分割画像12の文字行生成結果 100 CPU 101 メモリ 102 スキャナ 103 通信装置 104 表示装置 105 ハードディスク 106 キーボード 107 CD−ROMドライブ 201 画像入力手段 202 領域識別手段 203 二値化手段 204 領域識別手段 205 領域識別再考手段 206 OCR手段 207 データベース
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06T 7/60 150 G06T 7/60 150S 180 180A

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を認識する文書画像認識方法で
    あって、 文書画像をデジタル画像として入力する入力ステップ
    と、 該文書画像の背景色を特定する背景色特定ステップと、 該背景色を用いて該文書画像から背景領域以外の画素を
    抽出する抽出ステップと、 該画素を統合して連結成分を生成する生成ステップと、 該連結成分を少なくとも形状特徴を用いて所定の領域に
    分類して、該文書画像の領域識別の結果を得る分類ステ
    ップとを有することを特徴とする文書画像認識方法。
  2. 【請求項2】 前記領域識別された文書画像を2値化
    し、2値画像を生成するステップと、 該2値画像の領域を所定の領域に分類し、その結果を前
    記領域識別の結果と照合して該領域識別の結果を補正す
    る補正ステップと、 文字領域を文字認識する認識ステップとを更に有する請
    求項1に記載の文書画像認識方法。
  3. 【請求項3】 前記背景色特定ステップは、 前記文書画像の色のクラスタリングを行うクラスタリン
    グステップと、 クラスタリングにより得られた最大クラスタの代表色を
    該文書画像の背景色とするステップとを有する請求項1
    に記載の文書画像認識方法。
  4. 【請求項4】 前記クラスタリングステップは、 ある間隔を空けて画素をサンプリングするステップと、 該画素の近傍を平滑化した画素値を用いて前記クラスタ
    リングを行うステップとを有する請求項3に記載の文書
    画像認識方法。
  5. 【請求項5】 前記文書画像認識方法は更に前記文書画
    像を縮小する縮小ステップを有し、該縮小ステップは、 文書画像を複数のブロックに分割するステップと、 ブロック内の代表色を求めるステップと、 該代表色と前記背景色とを比較して、該ブロックの縮小
    後の色を決定し、該ブロックを該色の画素に縮小するス
    テップとを有する請求項1に記載の文書画像認識方法。
  6. 【請求項6】 前記ブロックは、3画素×3画素又は4
    画素×4画素の格子である請求項5に記載の文書画像認
    識方法。
  7. 【請求項7】 前記抽出ステップは、 前記背景色と注目画素の各色値の差が所定の値より大き
    い場合に該注目画素は背景領域以外の画素であると判断
    するステップを有する請求項1に記載の文書画像認識方
    法。
  8. 【請求項8】 前記領域識別によって識別された図又は
    写真の矩形領域を特定色で塗り潰した文書画像を生成す
    るステップと、 該文書画像に2値化処理を施して得られた2値画像に対
    して文字認識を行うステップとを更に有する請求項1に
    記載の文書画像認識方法。
  9. 【請求項9】 前記分類ステップにおいて分類された所
    定の矩形領域に対して再帰的に該分類ステップの処理を
    実行する請求項1に記載の文書画像認識方法。
  10. 【請求項10】 文書画像を認識する文書画像認識方法
    であって、 文書画像をデジタル画像として入力するステップと、 該文書画像をカラー領域識別するステップと、 カラー領域識別された領域毎の二値画像を生成するステ
    ップと、 領域毎の二値画像を統合して一枚の二値画像を生成し、
    該二値画像の領域識別を行うステップと、 該二値画像の領域識別結果と前記カラー領域識別結果と
    を照合し、必要に応じてフィードバック処理を所定の条
    件を満たすまで又は所定回数行って二値画像と領域識別
    結果を得るステップとを有することを特徴とする文書画
    像認識方法。
  11. 【請求項11】 カラー領域識別結果と二値画像の領域
    識別結果との照合の結果、文書のある範囲にて所定の条
    件を満たさない場合に前記フィードバック処理が行わ
    れ、該フィードバック処理は、 該範囲を包含する領域を作成し、該領域に対して再度カ
    ラー領域識別、二値化及び二値領域識別を行い、両者の
    領域識別結果を照合するステップを有する請求項10に
    記載の文書画像認識方法。
  12. 【請求項12】 カラー領域識別結果と二値画像の領域
    識別結果との照合の結果、ある範囲にて一方の領域識別
    で文字行が抽出され、もう一方の領域識別結果では文字
    矩形が得られなかった場合に、前記フィードバック処理
    が行われ、該フィードバック処理は、 該文字矩形の文字色を特定し、文字色にばらつきがなけ
    れば、該範囲には文字が存在すると判定し、特定した文
    字色を用いて再度カラー領域識別、二値化及び二値領域
    識別を行い、両者の領域識別結果を照合するステップを
    有する請求項10に記載の文書画像認識方法。
  13. 【請求項13】 前記フィードバック処理は、 カラー領域識別結果と二値画像の領域識別結果との照合
    の結果、ある範囲にてカラー領域識別では抽出された文
    字行が二値領域識別の結果では存在しない場合に、該当
    する文字行を包含する領域を作成し、二値化及び二値領
    域識別を行い、該領域識別結果とカラー領域識別結果と
    を照合するステップを含む請求項12に記載の文書画像
    認識方法。
  14. 【請求項14】 カラー領域識別結果と二値画像の領域
    識別結果との照合の結果、双方の領域識別結果で所定行
    数以上連続してレイアウト特徴が異なる文字行が存在す
    る場合に、前記フィードバック処理が行われ、該フィー
    ドバック処理は、 該当する文字行を包含する領域を作成し、二値化及び二
    値領域識別し、該領域識別結果とカラー領域識別結果と
    を照合するステップを有する請求項10に記載の文書画
    像認識方法。
  15. 【請求項15】 前記カラー領域識別された領域毎の二
    値画像を生成するステップにおいて、 文字部には画像分割型の二値化方式を適用し、罫線部、
    図、写真領域には判別分析型の二値化方式を適用する請
    求項10に記載の文書画像認識方法。
  16. 【請求項16】 前記カラー領域識別は、請求項1に記
    載の文書画像認識方法により行う請求項10ないし15
    のうちいずれか1項に記載の文書画像認識方法。
  17. 【請求項17】 文書画像を認識するする文書画像認識
    装置であって、 文書画像をデジタル画像として入力する入力手段と、 該文書画像の背景色を特定する背景色特定手段と、 該背景色を用いて該文書画像から背景領域以外の画素を
    抽出する抽出手段と、 該画素を統合して連結成分を生成する生成手段と、 該連結成分を少なくとも形状特徴を用いて所定の領域に
    分類して、該文書画像の領域識別の結果を得る分類手段
    とを有することを特徴とする文書画像認識装置。
  18. 【請求項18】 前記領域識別された文書画像を2値化
    し、2値画像を生成する手段と、 該2値画像の領域を所定の領域に分類し、その結果を前
    記領域識別の結果と照合して該領域識別の結果を補正す
    る補正手段と、 文字領域を文字認識する認識手段とを更に有する請求項
    17に記載の文書画像認識装置。
  19. 【請求項19】 前記背景色特定手段は、 前記文書画像の色のクラスタリングを行うクラスタリン
    グ手段と、 クラスタリングにより得られた最大クラスタの代表色を
    該文書画像の背景色とする手段とを有する請求項17に
    記載の文書画像認識装置。
  20. 【請求項20】 前記クラスタリング手段は、 ある間隔を空けて画素をサンプリングする手段と、 該画素の近傍を平滑化した画素値を用いて前記クラスタ
    リングを行う手段とを有する請求項19に記載の文書画
    像認識装置。
  21. 【請求項21】 前記文書画像認識装置は更に前記文書
    画像を縮小する縮小手段を有し、該縮小手段は、 文書画像を複数のブロックに分割する手段と、 ブロック内の代表色を求める手段と、 該代表色と前記背景色とを比較して、該ブロックの縮小
    後の色を決定し、該ブロックを該色の画素に縮小する手
    段とを有する請求項17に記載の文書画像認識装置。
  22. 【請求項22】 前記ブロックは、3画素×3画素又は
    4画素×4画素の格子である請求項21に記載の文書画
    像認識装置。
  23. 【請求項23】 前記抽出手段は、 前記背景色と注目画素の各色値の差が所定の値より大き
    い場合に該注目画素は背景領域以外の画素であると判断
    する手段を有する請求項17に記載の文書画像認識装
    置。
  24. 【請求項24】 前記領域識別によって識別された図又
    は写真の矩形領域を特定色で塗り潰した文書画像を生成
    する手段と、 該文書画像に2値化処理を施して得られた2値画像に対
    して文字認識を行う手段とを更に有する請求項17に記
    載の文書画像認識装置。
  25. 【請求項25】 前記分類手段において分類された所定
    の矩形領域に対して再帰的に該分類手段の処理を実行す
    る請求項17に記載の文書画像認識装置。
  26. 【請求項26】 文書画像を認識する文書画像認識装置
    であって、 文書画像をデジタル画像として入力する手段と、 該文書画像をカラー領域識別する手段と、 カラー領域識別された領域毎の二値画像を生成する手段
    と、 領域毎の二値画像を統合して一枚の二値画像を生成し、
    該二値画像の領域識別を行う手段と、 該二値画像の領域識別結果と前記カラー領域識別結果と
    を照合し、必要に応じてフィードバック処理を所定の条
    件を満たすまで又は所定回数行って二値画像と領域識別
    結果を得る手段とを有することを特徴とする文書画像認
    識装置。
  27. 【請求項27】 カラー領域識別結果と二値画像の領域
    識別結果との照合の結果、ある範囲にて一方の領域識別
    で文字行が抽出され、もう一方の領域識別結果では文字
    矩形が得られなかった場合に、前記フィードバック処理
    が行われ、該フィードバック処理において、 該文字矩形の文字色を特定し、文字色にばらつきがなけ
    れば、該範囲には文字が存在すると判定し、特定した文
    字色を用いて再度カラー領域識別、二値化及び二値領域
    識別を行い、両者の領域識別結果を照合する請求項26
    に記載の文書画像認識装置。
  28. 【請求項28】 前記フィードバック処理は、 カラー領域識別結果と二値画像の領域識別結果との照合
    の結果、ある範囲にてカラー領域識別では抽出された文
    字行が二値領域識別の結果では存在しない場合に、該当
    する文字行を包含する領域を作成し、二値化及び二値領
    域識別を行い、該領域識別結果とカラー領域識別結果と
    を照合する処理を含む請求項27に記載の文書画像認識
    装置。
  29. 【請求項29】 カラー領域識別結果と二値画像の領域
    識別結果との照合の結果、双方の領域識別結果で所定行
    数以上連続してレイアウト特徴が異なる文字行が存在す
    る場合に、前記フィードバック処理が行われ、該フィー
    ドバック処理において、 該当する文字行を包含する領域を作成し、二値化及び二
    値領域識別し、該領域識別結果とカラー領域識別結果と
    を照合する請求項26に記載の文書画像認識装置。
  30. 【請求項30】 コンピュータに文書画像認識処理を実
    行させるプログラムを記録したコンピュータ読み取り可
    能な記録媒体であって、 文書画像をデジタル画像として入力する入力手順と、 該文書画像の背景色を特定する背景色特定手順と、 該背景色を用いて該文書画像から背景領域以外の画素を
    抽出する抽出手順と、 該画素を統合して連結成分を生成する生成手順と、 該連結成分を少なくとも形状特徴を用いて所定の領域に
    分類して、該文書画像の領域識別の結果を得る分類手順
    とをコンピュータに実行させるプログラムを記録したコ
    ンピュータ読み取り可能な記録媒体。
  31. 【請求項31】 前記領域識別された文書画像を2値化
    し、2値画像を生成する手順と、 該2値画像の領域を所定の領域に分類し、その結果を前
    記領域識別の結果と照合して該領域識別の結果を補正す
    る補正手順と、 文字領域を文字認識する認識手順とを更にコンピュータ
    に実行させる請求項30に記載のプログラムを記録した
    コンピュータ読み取り可能な記録媒体。
  32. 【請求項32】 コンピュータに文書画像認識処理を実
    行させるプログラムを記録したコンピュータ読み取り可
    能な記録媒体であって、 文書画像をデジタル画像として入力する手順と、 該文書画像をカラー領域識別する手順と、 カラー領域識別された領域毎の二値画像を生成する手順
    と、 領域毎の二値画像を統合して一枚の二値画像を生成し、
    該二値画像の領域識別を行う手順と、 該二値画像の領域識別結果と前記カラー領域識別結果と
    を照合し、必要に応じてフィードバック処理を所定の条
    件を満たすまで又は所定回数行って二値画像と領域識別
    結果を得る手順とをコンピュータに実行させるプログラ
    ムを記録したコンピュータ読み取り可能な記録媒体。
JP2000124941A 2000-02-09 2000-04-25 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体 Pending JP2001297303A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000124941A JP2001297303A (ja) 2000-02-09 2000-04-25 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
US09/838,311 US6865290B2 (en) 2000-02-09 2001-04-20 Method and apparatus for recognizing document image by use of color information

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000032298 2000-02-09
JP2000-32298 2000-02-09
JP2000124941A JP2001297303A (ja) 2000-02-09 2000-04-25 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2001297303A true JP2001297303A (ja) 2001-10-26

Family

ID=26585124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000124941A Pending JP2001297303A (ja) 2000-02-09 2000-04-25 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体

Country Status (2)

Country Link
US (1) US6865290B2 (ja)
JP (1) JP2001297303A (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258683A (ja) * 2004-03-10 2005-09-22 Fujitsu Ltd 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2006106972A (ja) * 2004-10-01 2006-04-20 Canon Inc 画像処理方法及び画像処理装置
JP2007172132A (ja) * 2005-12-20 2007-07-05 Fujitsu Ltd レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
CN100433045C (zh) * 2005-10-11 2008-11-12 株式会社理光 表格提取方法和设备
US7930634B2 (en) 2006-09-15 2011-04-19 Ricoh Company, Ltd. Document display apparatus and document display program
US20110110595A1 (en) * 2009-11-11 2011-05-12 Samsung Electronics Co., Ltd. Image correction apparatus and method for eliminating lighting component
US8001466B2 (en) 2005-06-17 2011-08-16 Ricoh Company, Ltd. Document processing apparatus and method
US8218863B2 (en) 2008-01-30 2012-07-10 Ricoh Company, Ltd. Image processing apparatus, image processing method and image processing means
JP2013062690A (ja) * 2011-09-13 2013-04-04 Fujitsu Ltd 画像圧縮方法、画像圧縮装置およびシステム
JP2016516245A (ja) * 2013-03-13 2016-06-02 コファックス, インコーポレイテッド モバイル装置を用いた画像内のオブジェクトの分類
US10108860B2 (en) 2013-11-15 2018-10-23 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US10127636B2 (en) 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10146803B2 (en) 2013-04-23 2018-12-04 Kofax, Inc Smart mobile application development platform
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
WO2020059529A1 (ja) * 2018-09-20 2020-03-26 富士フイルム株式会社 画像処理装置、画像処理方法及びプログラム、並びに携帯端末装置
US10657600B2 (en) 2012-01-12 2020-05-19 Kofax, Inc. Systems and methods for mobile image capture and processing
US10699146B2 (en) 2014-10-30 2020-06-30 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411953B1 (en) * 1999-01-25 2002-06-25 Lucent Technologies Inc. Retrieval and matching of color patterns based on a predetermined vocabulary and grammar
US6950553B1 (en) * 2000-03-23 2005-09-27 Cardiff Software, Inc. Method and system for searching form features for form identification
JP4105367B2 (ja) * 2000-05-11 2008-06-25 富士フイルム株式会社 色変換装置および色変換プログラム記憶媒体
DE60138073D1 (de) * 2000-07-12 2009-05-07 Canon Kk Bildverarbeitungsverfahren und Bildverarbeitungsvorrichtung
US7054509B2 (en) * 2000-10-21 2006-05-30 Cardiff Software, Inc. Determining form identification through the spatial relationship of input data
JP4366886B2 (ja) * 2001-05-24 2009-11-18 コニカミノルタビジネステクノロジーズ株式会社 画像認識のための装置と方法
US7400768B1 (en) * 2001-08-24 2008-07-15 Cardiff Software, Inc. Enhanced optical recognition of digitized images through selective bit insertion
JP2003320715A (ja) * 2002-04-30 2003-11-11 Canon Inc 情報処理装置、情報処理システム、情報出力制御方法、記憶媒体、及びプログラム
JP2004021765A (ja) * 2002-06-19 2004-01-22 Pfu Ltd 画像認識方法
JP2004062350A (ja) * 2002-07-26 2004-02-26 Fujitsu Ltd 文書情報入力プログラム、文書情報入力装置、および文書情報入力方法
US7450785B2 (en) * 2003-01-22 2008-11-11 Hewlett-Packard Development Company, L.P. Method and device for sorting similar images
JP4001284B2 (ja) * 2003-03-11 2007-10-31 株式会社リコー 画像処理装置および画像処理方法
US7379594B2 (en) * 2004-01-28 2008-05-27 Sharp Laboratories Of America, Inc. Methods and systems for automatic detection of continuous-tone regions in document images
JP4172584B2 (ja) * 2004-04-19 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字認識結果出力装置、文字認識装置、その方法及びプログラム
US20060062453A1 (en) * 2004-09-23 2006-03-23 Sharp Laboratories Of America, Inc. Color highlighting document image processing
CN1301490C (zh) * 2004-12-30 2007-02-21 北京中星微电子有限公司 一种移动终端的光符识别中分区域判定背景色的方法
US7519221B1 (en) * 2005-02-28 2009-04-14 Adobe Systems Incorporated Reconstructing high-fidelity electronic documents from images via generation of synthetic fonts
US7702182B2 (en) * 2006-02-16 2010-04-20 Adobe Systems, Incorporated Method and apparatus for creating a high-fidelity glyph prototype from low-resolution glyph images
JP2007304864A (ja) * 2006-05-11 2007-11-22 Fuji Xerox Co Ltd 文字認識処理システムおよび文字認識処理プログラム
JP4135752B2 (ja) * 2006-06-12 2008-08-20 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像処理方法及び画像処理プログラム
US7630520B2 (en) * 2006-07-31 2009-12-08 Canadian Bank Note Company, Limited Method and system for document comparison using cross plane comparison
US8175394B2 (en) 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
US7646921B2 (en) * 2006-09-11 2010-01-12 Google Inc. High resolution replication of document based on shape clustering
US7650035B2 (en) * 2006-09-11 2010-01-19 Google Inc. Optical character recognition based on shape clustering and multiple optical character recognition processes
US7697758B2 (en) * 2006-09-11 2010-04-13 Google Inc. Shape clustering and cluster-level manual identification in post optical character recognition processing
US8009928B1 (en) * 2008-01-23 2011-08-30 A9.Com, Inc. Method and system for detecting and recognizing text in images
JP4950929B2 (ja) * 2008-04-01 2012-06-13 キヤノン株式会社 画像ファイル編集装置、画像ファイル編集方法及びプログラム
JP2010211466A (ja) * 2009-03-10 2010-09-24 Canon Inc 画像処理装置および画像処理方法及びプログラム
US8472726B2 (en) * 2011-01-07 2013-06-25 Yuval Gronau Document comparison and analysis
US8472727B2 (en) * 2011-01-07 2013-06-25 Yuval Gronau Document comparison and analysis for improved OCR
JP5776419B2 (ja) * 2011-07-29 2015-09-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
US9520102B2 (en) * 2013-04-29 2016-12-13 International Business Machines Corporation Text extraction from graphical user interface content
JP6444981B2 (ja) * 2014-02-28 2018-12-26 オリンパス株式会社 画像処理装置、画像処理方法及び画像処理プログラム
CN104020847A (zh) * 2014-05-15 2014-09-03 上海合合信息科技发展有限公司 字符输入方法及装置
US10068132B2 (en) * 2016-05-25 2018-09-04 Ebay Inc. Document optical character recognition
RU2633182C1 (ru) * 2016-06-15 2017-10-11 Общество с ограниченной ответственностью "Аби Девелопмент" Определение направления строк текста
KR102358373B1 (ko) * 2017-04-06 2022-02-04 삼성전자주식회사 손글씨 입력에 대한 그래픽 효과를 제공하기 위한 장치 및 그에 관한 방법
JP6554193B1 (ja) * 2018-01-30 2019-07-31 三菱電機インフォメーションシステムズ株式会社 記入領域抽出装置および記入領域抽出プログラム
GB2577989B (en) * 2018-09-30 2021-03-24 Lenovo Beijing Co Ltd Information processing method and electronic device
JP7379876B2 (ja) * 2019-06-17 2023-11-15 株式会社リコー 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
JP2021124843A (ja) * 2020-02-03 2021-08-30 富士フイルムビジネスイノベーション株式会社 文書処理装置およびプログラム
US20230186592A1 (en) * 2021-12-09 2023-06-15 Abbyy Development Inc. Division of images into separate color layers

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2564959B2 (ja) * 1990-03-07 1996-12-18 富士ゼロックス株式会社 画像処理装置の絵文字領域識別方式
JP2682296B2 (ja) 1991-08-30 1997-11-26 日本ビクター株式会社 画像符号化装置
JP3353968B2 (ja) 1992-09-25 2002-12-09 オリンパス光学工業株式会社 画像処理装置
JPH06339019A (ja) 1993-05-28 1994-12-06 Nippon Telegr & Teleph Corp <Ntt> 離散的コサイン変換による文書画像の領域分離方式
JPH07168939A (ja) 1993-12-15 1995-07-04 Matsushita Electric Ind Co Ltd カラー画像領域判定装置
JPH07327134A (ja) * 1994-05-31 1995-12-12 Canon Inc 画像処理装置およびその方法
US6005680A (en) * 1995-04-04 1999-12-21 Canon Information Systems, Inc. Method for capturing a document image, a scanner using the method and a document image management system using the scanner
JPH10143608A (ja) 1996-11-07 1998-05-29 Oki Electric Ind Co Ltd 文字読取装置
US5900953A (en) * 1997-06-17 1999-05-04 At&T Corp Method and apparatus for extracting a foreground image and a background image from a color document image
US6360006B1 (en) * 1998-09-29 2002-03-19 Canon Kabushiki Kaisha Color block selection
JP4018310B2 (ja) 1999-04-21 2007-12-05 株式会社リコー 画像二値化装置、画像撮像装置、画像二値化方法、画像撮像方法およびその方法の各工程としてコンピュータを機能させるためのプログラムを記録したコンピュータ読取可能な記録媒体

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7324692B2 (en) 2004-03-10 2008-01-29 Fujitsu Limited Character recognition method
JP4603807B2 (ja) * 2004-03-10 2010-12-22 富士通株式会社 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2005258683A (ja) * 2004-03-10 2005-09-22 Fujitsu Ltd 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2006106972A (ja) * 2004-10-01 2006-04-20 Canon Inc 画像処理方法及び画像処理装置
JP4587167B2 (ja) * 2004-10-01 2010-11-24 キヤノン株式会社 画像処理装置及び画像処理方法
US8001466B2 (en) 2005-06-17 2011-08-16 Ricoh Company, Ltd. Document processing apparatus and method
CN100433045C (zh) * 2005-10-11 2008-11-12 株式会社理光 表格提取方法和设备
JP2007172132A (ja) * 2005-12-20 2007-07-05 Fujitsu Ltd レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
US7930634B2 (en) 2006-09-15 2011-04-19 Ricoh Company, Ltd. Document display apparatus and document display program
US8218863B2 (en) 2008-01-30 2012-07-10 Ricoh Company, Ltd. Image processing apparatus, image processing method and image processing means
US8538191B2 (en) * 2009-11-11 2013-09-17 Samsung Electronics Co., Ltd. Image correction apparatus and method for eliminating lighting component
US20110110595A1 (en) * 2009-11-11 2011-05-12 Samsung Electronics Co., Ltd. Image correction apparatus and method for eliminating lighting component
JP2013062690A (ja) * 2011-09-13 2013-04-04 Fujitsu Ltd 画像圧縮方法、画像圧縮装置およびシステム
US10657600B2 (en) 2012-01-12 2020-05-19 Kofax, Inc. Systems and methods for mobile image capture and processing
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
JP2016516245A (ja) * 2013-03-13 2016-06-02 コファックス, インコーポレイテッド モバイル装置を用いた画像内のオブジェクトの分類
US9996741B2 (en) 2013-03-13 2018-06-12 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US10146803B2 (en) 2013-04-23 2018-12-04 Kofax, Inc Smart mobile application development platform
US10127636B2 (en) 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10108860B2 (en) 2013-11-15 2018-10-23 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US10699146B2 (en) 2014-10-30 2020-06-30 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
WO2020059529A1 (ja) * 2018-09-20 2020-03-26 富士フイルム株式会社 画像処理装置、画像処理方法及びプログラム、並びに携帯端末装置

Also Published As

Publication number Publication date
US6865290B2 (en) 2005-03-08
US20020006220A1 (en) 2002-01-17

Similar Documents

Publication Publication Date Title
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
US7936929B2 (en) Image processing method and apparatus for removing noise from a document image
US8023147B2 (en) Image processing method and image processing apparatus
US8417029B2 (en) Image processing apparatus and method, including fill-up processing
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
JP6139396B2 (ja) 文書を表す二値画像を圧縮する方法及びプログラム
US7170647B2 (en) Document processing apparatus and method
JP4719386B2 (ja) カラー原稿の解釈
JP2004529404A (ja) 画像を分析するための方法及び装置
US8611658B2 (en) Image processing apparatus and image processing method
US20020015525A1 (en) Image processor for character recognition
JP4655335B2 (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
US5898795A (en) Character recognition method using a method for deleting ruled lines
US6360006B1 (en) Color block selection
US8229214B2 (en) Image processing apparatus and image processing method
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JP4613397B2 (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
KR101224936B1 (ko) 화상 처리 장치, 화상 형성 장치, 및 컴퓨터 판독 가능한 매체
US8810877B2 (en) Image processing apparatus, image processing method, and storage medium for eliminating blurring of scanned image
EP1296283A2 (en) Half-tone dot elimination method and system thereof
JP4710672B2 (ja) 文字色判別装置、文字色判別方法、およびコンピュータプログラム
JP5517028B2 (ja) 画像処理装置
JP2001222717A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
JP4228905B2 (ja) 画像処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070903

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071023