JP2001297303A

JP2001297303A - 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2001297303A
Application number: JP2000124941A
Authority: JP
Inventors: Tsukasa Kouchi; 司幸地
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2000-02-09
Filing date: 2000-04-25
Publication date: 2001-10-26
Also published as: US6865290B2; US20020006220A1

Abstract

(57)【要約】【課題】カラー文書画像及び白黒・グレー画像の領域
を精度良く、効率的に識別し、また、カラー文書特有の
問題を有するカラー文書に対しても精度よくＯＣＲする
ことができる文書画像認識方法を提供する。【解決手段】文書画像を認識する文書画像認識方法が
提供される。その方法では、文書画像をデジタル画像と
して入力し、該文書画像の背景色を特定し、必要に応じ
て画像を縮小し、該背景色を用いて該文書画像から背景
領域以外の画素を抽出し、該画素を統合して連結成分を
生成し、該連結成分を少なくとも形状特徴を用いて所定
の領域に分類して、該文書画像の領域識別の結果を得
る。また、二値画像の領域識別を行い、その結果とカラ
ー領域識別結果とを照合し、必要に応じてフィードバッ
ク処理を行ってＯＣＲに好適な二値画像と領域識別結果
を得るようにする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書画像の領域識
別技術に関する。特に、カラー文書画像中の写真等の領
域を分離して、文字や罫線等を識別し、文字を認識し、
レイアウトや色情報を含めた文書の再現に役立てるため
の技術に関する。

【０００２】

【従来の技術】ＯＣＲ処理において文字を認識するため
には、その前段階として正確に領域を識別する必要があ
る。カラー原稿に対するＯＣＲ処理等のための領域識別
においては、画像を２値化して処理を行うことが一般的
であり、精度良く領域識別することはできなかった。こ
のように、従来の文字認識の分野においては、２値化処
理を用いる場合が多く、色情報を積極的に用いることは
少ない。例えば、特開平０７−９９８５８１「画像処理
装置」（オリンパス）に開示されているように、カラー
画像が入力された場合には、まず最初に2値化して、生
成された2値画像に対して領域識別や文字認識処理がな
される。

【０００３】また、カラー文書画像の領域を識別する技
術に関しては次に示すような従来技術がある。

【０００４】特開平０５−６４０１６「画像圧縮装置」
（キャノン）には、入力カラー文書画像を効率よく圧縮
するために、自然画（写真）と線画（文字、イラスト、
グラフ）を分離する装置が開示されている。しかし、特
開平０５−６４０１６では、文字領域と文字以外の領域
とを効率的に分離する技術は示されていない。従って、
この技術による領域識別結果をカラー文書のＯＣＲにそ
のまま適応することは困難である。

【０００５】また、特開平０６−３３９０１９「離散的
コサイン変換による文書画像の領域分離方式」（ＮＴ
Ｔ）には、画像を周波数成分で表し、離散的コサイン変
換を用いて文字と写真領域の分離を行う技術が開示され
ている。ここで、離散的コサイン変換係数の中から文字
と写真を特徴づける係数を精度よく抽出するためには、
高解像度かつ高品質のカラー画像が必要である。従っ
て、特開平０６−３３９０１９によると、巨大なディス
ク・メモリー容量が消費されてしまうと同時にかなりの
実行時間がかかってしまう恐れがある。

【０００６】また、特開平７−１６８９３９「カラー画
像領域判定装置」（松下ソフトリサーチ）には、色相の
ヒストグラムを利用して、文書画像中のカラー写真領域
と色の少ない図形または文字領域を判定する技術が開示
されている。しかし、特開平７−１６８９３９において
は、領域判定にあたり色相に着目していることから、新
聞などの白黒・グレー原稿には全く無力である。

【０００７】さて、ＯＣＲに関して現在多くの手法が提
案されているが、そのほとんどが二値画像を対象とした
ものである。従って二値画像の状態が認識精度を大きく
左右する。一方、カラー化された文書では、単に使用さ
れる色が増えるだけではなく文書のレイアウト構造も複
雑になる傾向がある。しかしながら、カラー画像から生
成された二値画像に対して従来の方法で領域識別処理を
行ったとしても、実際には十分な精度が得られない場合
が多い。

【０００８】文字認識に好適な二値画像を生成するため
に数多くの手法が提案されており、その中の代表的な技
術として判別分析法である。

【０００９】また、特開平１０−１４３６０８は濃淡画
像を適当な閾値で二値化し、できた二値画像上の平均線
幅を計算してその値が規定範囲外にある場合には、文字
認識に不適であると判断して二値化をやり直すことによ
り、ＯＣＲに好適な二値画像を生成する。

【００１０】

【発明が解決しようとする課題】上述の通り、従来の技
術では、カラー原稿を文字認識して、レイアウトや色情
報を含めて精度良く再現することができない。

【００１１】また、カラー化された文書に対してはカラ
ー特有の問題が混在する場合が多く、ＯＣＲに好適な二
値画像を精度良く生成することは困難であった。

【００１２】本発明は上記の点に鑑みてなされたもので
あり、カラー文書画像及び白黒・グレー画像の領域を精
度良く、効率的に識別する文書画像認識方法、装置及び
コンピュータ読み取り可能な記録媒体を提供することを
目的とする。

【００１３】更に、カラー特有の問題が混在する場合で
あってもＯＣＲに好適な画像を精度良く生成する文書画
像認識方法、装置及びコンピュータ読み取り可能な記録
媒体を提供することを目的とする。

【００１４】

【課題を解決するための手段】上記の課題を解決するた
めに、本発明は次のように構成される。

【００１５】請求項１に記載の発明は、文書画像を認識
する文書画像認識方法であって、文書画像をデジタル画
像として入力する入力ステップと、該文書画像の背景色
を特定する背景色特定ステップと、該背景色を用いて該
文書画像から背景領域以外の画素を抽出する抽出ステッ
プと、該画素を統合して連結成分を生成する生成ステッ
プと、該連結成分を少なくとも形状特徴を用いて所定の
領域に分類して、該文書画像の領域識別の結果を得る分
類ステップとを有する。

【００１６】本発明によれば、背景色を特定し、その背
景色を用いてボトムアップ的に文書画像を領域識別結果
を得るので、色情報を用いない従来技術と比較して、精
度良くカラー画像及び白黒・グレー画像の領域識別を行
うことができる。

【００１７】請求項２に記載の発明は、請求項１の記載
において、前記領域識別された文書画像を２値化し、２
値画像を生成するステップと、該２値画像の領域を所定
の領域に分類し、その結果を前記領域識別の結果と照合
して該領域識別の結果を補正する補正ステップと、文字
領域を文字認識する認識ステップとを更に有する。

【００１８】本発明によれば、精度良く図や写真領域が
文字領域と区別されるので、従来より精度良く文字認識
を行うことができる。

【００１９】請求項３に記載の発明は、請求項１の記載
において、前記背景色特定ステップは、前記文書画像の
色のクラスタリングを行うクラスタリングステップと、
クラスタリングにより得られた最大クラスタの代表色を
該文書画像の背景色とするステップとを有する。

【００２０】本発明によれば、最大クラスタの代表色を
背景色とすることで、カラー画像の背景色を効率良く求
めることができ、背景色を用いた領域識別の処理を行う
ことが可能となる。

【００２１】請求項４に記載の発明は、請求項３の記載
において、前記クラスタリングステップは、ある間隔を
空けて画素をサンプリングするステップと、該画素の近
傍を平滑化した画素値を用いて前記クラスタリングを行
うステップとを有する。

【００２２】本発明によれば、ある間隔を空けて画素を
サンプリングするので、処理の高速化を図ることができ
る。

【００２３】請求項５に記載の発明は、請求項１の記載
において、更に前記文書画像を縮小する縮小ステップを
有し、該縮小ステップは、文書画像を複数のブロックに
分割するステップと、ブロック内の代表色を求めるステ
ップと、該代表色と前記背景色とを比較して、該ブロッ
クの縮小後の色を決定し、該ブロックを該色の画素に縮
小するステップとを有する。

【００２４】本発明によれば、背景色を用いることによ
って、カラー画像の場合でも領域識別にふさわしい縮小
画像を求めることが可能となる。また、現画像を縮小す
ることで、画像へのアクセスコストを大幅に削減するこ
とが可能になる。

【００２５】請求項６に記載の発明は、請求項５の記載
において、前記ブロックは、３画素×３画素の格子であ
るとする。３画素×３画素又は４画素×４画素とするこ
とによって、一般的なカラースキャナで入力された文書
画像に対して、適切な領域識別を行うことが可能な縮小
画像を求めることができる。また、格子状とすることで
実装が容易になる。

【００２６】請求項７に記載の発明は、請求項１の記載
において、前記抽出ステップは、前記背景色と注目画素
の各色値の差が所定の値より大きい場合に該注目画素は
背景領域以外の画素であると判断するステップを有す
る。

【００２７】このように比較的簡単な演算によって背景
と文書要素を分離することが可能となるので、処理速度
の向上を図れる。

【００２８】請求項８に記載の発明は、請求項１の記載
において、前記領域識別によって識別された図又は写真
の矩形領域を特定色で塗り潰した文書画像を生成するス
テップと、該文書画像に２値化処理を施して得られた２
値画像に対して文字認識を行うステップとを更に有す
る。

【００２９】本発明によれば、図・写真等の領域の周辺
にある文字部分を精度良く抽出することができる。

【００３０】請求項９に記載の発明は、請求項１の記載
において、前記分類ステップにおいて分類された所定の
矩形領域に対して再帰的に該分類ステップの処理を実行
する。

【００３１】本発明によれば、文書全体の背景色と異な
る背景色を有する部分領域内も正確に領域識別される。

【００３２】請求項１０に記載の発明は、文書画像を認
識する文書画像認識方法であって、文書画像をデジタル
画像として入力するステップと、該文書画像をカラー領
域識別するステップと、カラー領域識別された領域毎の
二値画像を生成するステップと、領域毎の二値画像を統
合して一枚の二値画像を生成し、該二値画像の領域識別
を行うステップと、該二値画像の領域識別結果と前記カ
ラー領域識別結果とを照合し、必要に応じてフィードバ
ック処理を所定の条件を満たすまで又は所定回数行って
二値画像と領域識別結果を得るステップとを有する。

【００３３】本発明によれば、ＯＣＲ前処理（領域識
別、二値化）へのフィードバック機構を有することとし
たので、従来のカラー文書認識技術では難しかったカラ
ー文書特有の問題に対しても対応可能となる。例えば、
従来技術では難しかった各セルが色分けされた表や、グ
ラデーションが大きく変化する地肌に書かれた文字、あ
るいはこれらが混在する場合でも精度よくＯＣＲするこ
とができる。

【００３４】請求項１１に記載の発明は、請求項１０の
記載において、カラー領域識別結果と二値画像の領域識
別結果との照合の結果、文書のある範囲にて所定の条件
を満たさない場合に前記フィードバック処理が行われ、
該フィードバック処理は、該範囲を包含する領域を作成
し、該領域に対して再度カラー領域識別、二値化及び二
値領域識別を行い、両者の領域識別結果を照合するステ
ップを有する。

【００３５】本発明によっても、請求項１０と同様の効
果を得ることができる。

【００３６】請求項１２に記載の発明は、請求項１０の
記載において、カラー領域識別結果と二値画像の領域識
別結果との照合の結果、ある範囲にて一方の領域識別で
文字行が抽出され、もう一方の領域識別結果では文字矩
形が得られなかった場合に、前記フィードバック処理が
行われ、該フィードバック処理は、該文字矩形の文字色
を特定し、文字色にばらつきがなければ、該範囲には文
字が存在すると判定し、特定した文字色を用いて再度カ
ラー領域識別、二値化及び二値領域識別を行い、両者の
領域識別結果を照合するステップを有する。

【００３７】本発明によれば、領域単位ではなく文字行
で領域識別結果を比較し、文字行が両方にあるかどうか
を調べるので、従来避けられなかった行から領域への統
合誤りを回避することができる。その際、文字色を特定
して文字色のばらつきを調べることで、比較対象範囲に
文字が存在するか否かを精度よく判定でき、その結果文
字が存在する範囲だけをフィードバックすることで周囲
への悪影響がなく文字抽出精度が向上する。

【００３８】請求項１３に記載の発明は、請求項１２の
記載において、前記フィードバック処理は、カラー領域
識別結果と二値画像の領域識別結果との照合の結果、あ
る範囲にてカラー領域識別では抽出された文字行が二値
領域識別の結果では存在しない場合に、該当する文字行
を包含する領域を作成し、二値化及び二値領域識別を行
い、該領域識別結果とカラー領域識別結果とを照合する
ステップを含む。

【００３９】本発明によれば、領域単位ではなく文字行
単位で領域識別結果を比較することにより、従来避けら
れなかった行から領域への統合誤りを回避することがで
きる。その際、カラー情報を積極的に用いるカラー領域
識別での文字抽出結果を優先的に採用することで、二値
化が原因で従来ＯＣＲできなかった文字をフィードバッ
クして抽出する。

【００４０】請求項１４に記載の発明は、請求項１０の
記載において、カラー領域識別結果と二値画像の領域識
別結果との照合の結果、双方の領域識別結果で所定行数
以上連続してレイアウト特徴が異なる文字行が存在する
場合に、前記フィードバック処理が行われ、該フィード
バック処理は、該当する文字行を包含する領域を作成
し、二値化及び二値領域識別し、該領域識別結果とカラ
ー領域識別結果とを照合するステップを有する。

【００４１】本発明によれば、領域単位ではなく文字行
単位で領域識別結果を比較することにより、従来避けら
れなかった行から領域への統合誤りを回避することがで
きる。その際、対象範囲の複数行についてそれぞれレイ
アウト特徴を比較することで、どちらかの領域識別結果
での誤りを正確に検出することができ、該当範囲だけを
フィードバックすることで周囲への悪影響なく文字抽出
精度が向上する。

【００４２】請求項１５に記載の発明は、請求項１０の
記載において、前記カラー領域識別された領域毎の二値
画像を生成するステップにおいて、文字部には画像分割
型の二値化方式を適用し、罫線部、図、写真領域には判
別分析型の二値化方式を適用する。

【００４３】画像分割型二値化方法は、悪条件下（グラ
デーション、周辺ノイズなど）でも、人間が認識可能な
レベルで文字と背景を分離することが可能であるので、
文字領域の二値化に適している。また、判別分析法を用
いて罫線、図・写真領域を二値化することで、特に二値
化の閾値を多少濃い目に設定することにより罫線がかす
れず図や写真も一塊になり、領域識別にとって有利な二
値画像となる請求項１６に記載の発明は、請求項１０な
いし１５のうちいずれか１項の記載において、前記カラ
ー領域識別は、請求項１に記載の文書画像認識方法によ
り行うこととする。これにより、精度良くカラー領域識
別できるとともに、文字色を利用しやすくなる。

【００４４】請求項１７〜２９に記載された発明は、本
発明の文書画像認識方法の実施に適した文書画像認識装
置であり、上述した作用及び効果と同様の作用効果を得
ることができる。

【００４５】請求項３０〜３２に記載された発明は、本
発明の文書画像認識方法をコンピュータ上で実行するた
めのプログラムを記録したコンピュータ読み取り可能な
記録媒体であり、この発明によっても、上述した作用及
び効果と同様の作用効果を得ることができる。

【００４６】上述の通り、本発明によれば、ディスクや
メモリーの過剰な消費を押さえて、かつ高速な画像認識
装置及び方法を提供することができる。

【００４７】また多彩な色が用いられたカラー文書だけ
ではなく、新聞等のような白黒・グレー画像に対しても
精度良く領域識別を行うことができる。

【００４８】更に、カラー文書特有の問題を有するカラ
ー文書に対しても精度よくＯＣＲすることができる。

【００４９】

【発明の実施の形態】（第１の実施例）以下、図を参照
して本発明における第１の実施例を説明する。図１は本
発明の文書画像認識装置の構成図である。同図に示すよ
うに、本発明の文書画像認識装置は、ＣＰＵ（中央処理
装置）１００、メモリ１０１、スキャナ１０２、通信装
置１０３、表示装置１０４、ハードディスク１０５、キ
ーボード１０６、ＣＤ−ＲＯＭドライブ１０７を有す
る。ハードディスク１０５は文書画像認識装置の外部装
置として接続してもよいし、内部装置として有していて
もよい。ＣＰＵ１００は文書画像認識装置の全体を制御
する。メモリ１０１はＣＰＵ１００で処理するデータや
プログラムを保持する。通信装置１０３は文書画像認識
装置をＬＡＮ等のネットワークに接続するための制御を
行う。キーボード１０６はデータを入力する装置であ
る。ＣＤ−ＲＯＭドライブ１０７はＣＤ−ＲＯＭ等を駆
動し、読み書きを行う。スキャナ１０２は文書画像認識
装置の外部装置として接続され、文書をカラーデジタル
画像として入力する機能を有する。ＣＤ−ＲＯＭドライ
ブ１０７の他、ＭＯドライブ、ＦＤドライブ、ＤＶＤド
ライブ等でもよい。

【００５０】本発明において後述する処理を実行するプ
ログラムは、例えばＣＤ−ＲＯＭに格納され、ＣＤ−Ｒ
ＯＭドライブ１０７を介してハードディスク１０５にロ
ードされる。プログラムが起動されると、所定のプログ
ラムがメモリ１０１に展開され、処理が実行される。動
作の概要は次の通りである。

【００５１】まず、スキャナ１０２を介して紙文書の内
容がカラーデジタル画像として入力され、メモリ１０１
又はハードディスク１０５に格納される。次に、以下で
詳述する領域識別がＣＰＵ１００により行われ、領域識
別結果に対して、例えばＯＣＲ処理が行われる。

【００５２】図２は本発明の第１の実施例における処理
の全体を示すフローチャートである。図２を用いて全体
の処理を説明し、その後に各処理について詳細に説明す
る。まず、ステップＳ１０１として、紙文書であるカラ
ー文書画像を入力する。この入力は、スキャナーで、あ
るいはネットワークを介してカラーデジタル画像として
入力することが可能である。本実施例では色数を２４ｂ
ｉｔフルカラーと仮定するが、本発明は、基本的に画像
の色数や解像度には依存しない。また、本実施例では、
扱う画像はビットマップ形式で表現されていると仮定し
ている。従って、画像を周波数成分で表現するＪＰＥＧ
のような画像が入力された場合には、最初に画像全体を
ビットマップ形式に変換する。本実施例における画像形
式としては、例えば、２００ｄｐｉ、２４ｂｉｔカラ
ー、Ｗｉｎｄｏｗｓ（登録商標）ＢＭＰ形式、非圧縮、
色表現ＲＧＢ座標系とすることができる。

【００５３】ステップＳ１０２として、文書の背景色を
検出する。次に、ステップＳ１０３にて画像へのアクセ
スコストを押さえるために原画像を縮小する。ステップ
Ｓ１０４において、縮小画像に対して背景色と異なる画
素からランを生成し、次に、ランを統合して矩形を生成
して（ステップＳ１０５）、最後に小さな矩形を統合す
る（ステップＳ１０６）。なお、背景色特定の処理（ス
テップＳ１０２）と縮小画像生成の処理（ステップＳ１
０３）は逆でもよい。

【００５４】次に、ステップＳ１０７として、生成され
た矩形を写真／テキスト／罫線などに分類し、ステップ
Ｓ１０８において、前記分類された矩形の座標値を、原
画像上における実際の値にあわせるために適宜拡大変換
する。上記のステップＳ１０１〜ステップＳ１０８の処
理がカラー文書画像の領域識別のための処理である。本
発明では、更に原画像に戻り、ステップＳ１０９で、前
記抽出した写真矩形を黒、あるいは指定された色で塗り
潰したカラー画像を生成する。次に、従来の文字認識技
術を適応するために、ステップＳ１１０にて、前記生成
したカラー画像を変換して２値４００ｄｐｉ相当の画像
を生成する。画像の２値化には種々の方法が適用可能で
あり、例えば、大津の方法（判別分析法）等を適用する
ことができる。

【００５５】次に、ステップＳ１１１において、生成し
た２値４００ｄｐｉ相当の画像に対して、従来の文字認
識手法でＯＣＲ処理する。必要に応じて、ＯＣＲ処理の
前に従来の２値画像に対する領域識別を施して、前記カ
ラー文書画像から直接得られた領域識別結果とを照合す
ることにより文書の領域識別結果を補正してもよい。特
に、図・写真領域の識別に関しては、本発明における色
情報を用いた領域識別結果を採用すればよい。

【００５６】最後に、ステップＳ１１２として、ＯＣＲ
処理の結果とカラー画像から直接分離した写真領域を組
み合わせて、例えばＨＴＭＬ形式で文書を再現する。す
なわち、ＯＣＲ結果から文字コードが、図・写真等の領
域識別結果からはいづれもオリジナル画像に対する座標
値が分かるので、文書レイアウトを再現することは容易
である。例えば、ＰＤＦ、ＰＳ、ＲＴＦ形式等で文書再
現を行うことができ、その際、写真・図の矩形はオリジ
ナルのカラーで表現する。また、読み順を考慮して、Ｈ
ＴＭＬ形式等で再現すれば、論理的に文書を再現でき、
なおかつ、写真・図はオリジナルのカラーで表現できる
ので、Ｗｅｂ上の利用効果が大きい。

【００５７】次に、与えられた矩形領域（画像全体も
可）の背景色を特定するための背景色特定処理（上記の
ステップＳ１０２に相当する）について詳細に説明す
る。図３は、背景色特定処理を示すフローチャートであ
る。

【００５８】ステップＳ２０１として、処理対象となる
矩形（Ａとする）を入力する。与えられた矩形が原画像
全体ならば、ステップＳ２０２において、スキャン時に
混入が予想される周辺ノイズを避けるために、周辺ノイ
ズ除去を行う。例えば、対象とする範囲をすこし狭めて
もよい。

【００５９】次に、矩形Ａにおける色の分布具合いを調
べるために、矩形Ａで用いられている色のクラスタリン
グを行う（ステップＳ２０３〜ステップＳ２０９）。

【００６０】まず、ステップＳ２０３にて、例えば、６
４画素ごとにサンプリングする。本実施例では、処理の
高速化を図るために、矩形Ａ全体を走査するのではなく
一定の間隔をあけて画素をサンプリングする。次に、サ
ンプリングされた画素Ｐ（注目画素という）からクラス
タリングに用いる画素値を求める。ここでは文書画像の
文字部のエッジを保持するために、Pの近傍を参照して
平滑化された画素値を得る。本実施例では注目画素を中
心とした５×５ブロックを近傍としている（ステップＳ
２０４）。

【００６１】注目画素Ｐを中心とした近傍５×５ブロッ
ク内を参照した平滑化は、例えば「コンピュータ画像処
理入門」田村秀行著、総研出版、P．105図4．12に記載
された方法で行う（ステップＳ２０５〜ステップＳ２０
７）。すなわち、ステップＳ２０５において、注目画素
Ｐに対してブロック内の9種類のエリアを定義して、そ
れぞれのエリア内での濃度の分散を求める。「コンピュ
ータ画像処理入門」における9種類のエリアの例を図４
に示す。

【００６２】続いて、ステップＳ２０６において、分散
が最小となる近傍エリアを選択して、そのエリア内での
代表色を各画素値の平均値等を用いて決定する（ステッ
プＳ２０７）。

【００６３】次に、画像領域全体を走査したかどうかを
調べ（ステップＳ２０８）、まだ全体を走査していない
場には、再びサンプリング（ステップＳ２０３）から処
理を行う。全体を走査した場合には、ステップＳ２０７
で決定された代表色をクラスタリングする（ステップＳ
２０９）。ここでのクラスタリング手法は、よく知られ
た代表的な手法でよい。クラスタリングの結果から、ス
テップＳ２１０において最大クラスタの代表色（Ｂとす
る）を選択肢、Ｂを指定領域Ａの背景色とする（ステッ
プＳ２１１）。

【００６４】図５は、縮小画像生成処理（ステップＳ１
０３）を示すフローチャートである。縮小画像生成処理
は、画像へのアクセスコストを押さえるために行う処理
であり、原画像から縮小画像を生成して、ステップＳ１
０４以降の処理は縮小画像に対して行われる。

【００６５】ステップＳ３０１にて、オリジナル画像を
入力し、ステップＳ３０２にて、上記のようにして求め
た背景色Ｂを入力する。次に、入力画像をｍ×ｍの格子
状に分割し（ステップＳ３０３）、左上から順に格子を
選択する（ステップＳ３０４）。本実施例では、３×３
の格子サイズを使用する。なお、格子はブロックと称し
てもよい。

【００６６】ステップＳ３０５にて、格子ｉの代表色を
Ｃ_ｉとする。Ｃ_ｉは、例えば格子内の各画素値の平均値
とすることができる。次に、ステップＳ３０６にて、格
子ｉの色の分散値をＶ_ｉとする。次に、格子ｉの代表色
Ｃ_ｉと背景色Ｂとを比較し、また、格子ｉの色の分散値
Ｖ_ｉと所定の値とを比較する（ステップＳ３０７）。比
較の結果、格子ｉの代表色Ｃ_ｉが背景色Ｂとほぼ同じで
あり、かつ、格子ｉの色の分散値Ｖ_ｉが十分小さければ
（ステップＳ３０７におけるＹＥＳ）、その格子ｉの代
表色をＢと定義して、格子を1つの画素値Ｂに圧縮する
（ステップＳ３０９）。ステップＳ３０７においてＮＯ
の場合、格子ｉの代表色をそのままＣ_ｉと定義して、上
記と同様に、格子を1つの画素値Ｃ_ｉに圧縮する（ステ
ップＳ３０８）。すなわち、１／９に圧縮される。ステ
ップＳ３１０にて全ての格子を処理したかどうかを調
べ、全ての格子を処理したならば処理を終了し、まだ全
て処理していなければ格子の選択（ステップＳ３０４）
の処理から再び処理を行う。

【００６７】上記の画像圧縮処理について更に説明す
る。図６は、画像圧縮処理（３×３ブロックＯＲ圧縮と
称する）の概念を２値画像を例にとり説明するための図
である。同図の（ａ）に示すように、３×３ブロックの
画素が、例えば、黒背景上の白文字画素ならば、そのブ
ロックを白文字画素で代表する。また、（ｂ）に示すよ
うに、３×３ブロックのある画素が、例えば、白背景上
の黒文字画素ならば、そのブロックを黒文字画素で代表
する。この２値画像の方法では、黒背景に薄い文字が書
かれたような文書画像やカラー画像の場合、圧縮した時
に薄い色の文字画素が消滅する可能性があるが、上述し
た本発明の方法によれば、そのような問題点は解決され
る。

【００６８】本発明では、予め対象ブロックを含む広い
近傍内で背景色Ｂを求めておく。そして、格子内の代表
色が背景色とほぼ同じで、格子内の色分散が小さければ
該当の格子は背景色で代表し、そうでなければ、格子の
代表色で代表する。このような方法によって、文書要素
はＣ_ｉとして残り、それ以外は背景色Ｂとなるので、カ
ラー画像を効率良く圧縮することが可能となる。すなわ
ち、隣接した文字は上記のＯＲ圧縮でつぶれて固まり、
1ｍｍ以上の間隔はそのまま保持されるので、領域識別
の観点からは、ボトムアップ的に画素を統合して文書要
素（矩形）を生成する本発明にとって最適な圧縮画像を
得ることが可能となる。また、画像を平滑化する効果も
ある。

【００６９】さて、画像の領域識別の処理においては、
処理速度および使用メモリを考慮すると画像の圧縮は欠
かせないが、領域識別処理自体にはＯＣＲ処理ほどの高
解像度・高品質な画像は必要ない。従って、上記のよう
な格子ブロック処理による画像圧縮は、実装および速度
の点から有利であり、処理速度が向上し、使用メモリ量
の軽減を図ることができる。

【００７０】ここで、図と文字とは少なくとも１ｍｍ以
上離れていると考えられるので、本実施例では、ブロッ
クサイズを３×３としている。すなわち、３ドットの圧
縮であれば、図と文字とは融合されずに済む。２００ｄ
ｐｉの画像ならば３×３又は４×４が適当なブロックサ
イズであると考えられる。

【００７１】次に、ラン生成の処理（ステップＳ１０
４）について更に説明する。

【００７２】一般に２値画像の場合は、同一ライン上の
近傍の黒画素同士を統合して黒ランを生成する。一方、
本発明では、背景色Ｂとほぼ同じ画素値を持つ画素を
０、それ以外の画素を１として、1の画素値を持つ画素
を統合してランを生成する。背景色と注目画素値が同一
かどうかの判断は、図７に示すフローチャートに示すよ
うな手順で行われる。すなわち、背景色Ｂと注目画素値
Ｐを入力し（ステップＳ５０１、Ｓ５０２）、ステップ
Ｓ５０３にて、ＲＧＢ各色値の差の絶対値がそれぞれ同
時に十分に小さいかどうかを調べる。同時に十分に小さ
い場合はＢとＰは同一色であると判断し（ステップＳ５
０４）、そうでない場合は、ＢとＰは異なる色であると
判断する（ステップＳ５０５）。ＲＧＢ系で表した背景
色Ｂを（r,g, b）、ある画素pを（r_p, g_p, b_p）とする
場合、ＲＧＢ各色値の差の絶対値がそれぞれ同時に十分
小さいときとは、例えば、ＢとＰが次の条件を満たすと
きであるする。

【００７３】 |r-r_p|<100 かつ|g-g_p|<100かつ |b-b_p|<100 上記の方法を画像の左上から順に1行づつ適用すること
により、カラー画像からランを生成する。ランは例えば
左上と右下の座標値(x_s,y_s,x_e,y_e)を持つ矩形である。

【００７４】ラン統合・矩形生成処理（ステップＳ１０
５）においては、現在生成中のランと、前ラインとのラ
ンとの間に重なりがある場合は、前ラインのランの座標
値を更新する形で現在生成中のランと前ラインのランを
統合して矩形を生成する。2つの矩形が重なりを持つ場
合には、2つの矩形を包含する最小の座標値を求めて、
一方の座標値を更新する形で統合する。

【００７５】ここで、矩形（又は矩形データ）とは、矩
形の左上と右下の座標(X_s,Y_s,X_e,Y_e)、属性（文字、罫
線、図・写真等）、及び任意属性（文字色、背景色等）
からなる組である。矩形の例を次に示す。

【００７６】写真矩形 R1={(20，40，64，72),“写真”} 文字矩形 R2={(20，40，30，50)，“文字”，黒，白)
第3，4要素は文字色（黒）と背景色（白）である。ラン
も矩形の一種であり、ランの場合は、y_s=y_eである。

【００７７】矩形統合・矩形リスト生成処理（ステップ
Ｓ１０６）における領域識別結果は、次のような矩形デ
ータのリストで表現される。

【００７８】矩形リスト＝{R1,R2,…,Rn},n:抽出された矩形の総数次に、矩形分類処理（ステップＳ１０７）について説明
する。矩形分類処理においては、ステップＳ１０６にて
生成した矩形を文字、罫線、および図・写真（その
他）、周辺ノイズのそれぞれに分類する処理を行う。こ
の中で、本発明で特に重要なのは、図・写真（その他）
である。分類の際の特徴には、例えば、矩形のサイズ、
高さ、位置、縦横比、等を用いる。以下、図８のフロー
チャートを用いて矩形分類処理について説明する。

【００７９】まず、生成された矩形を、生成された順に
リストや配列として入力する（ステップＳ４０１）。続
いて、矩形リストの先頭から最後まで順に以下の処理を
行う。

【００８０】現在参照中の矩形をＲとおく（ステップＳ
４０２）。ステップＳ４０３にて、矩形Ｒが罫線特徴を
有するかどうかを調べる。矩形Ｒが横または縦方向に十
分細長ければ、Ｒを横または縦方向の罫線と分類する
（ステップＳ４０６）。ステップＳ４０３でＮＯであれ
ば、ステップＳ４０４において、矩形Ｒの高さが十分小
さいかどうかを調べ、十分に小さければ矩形Ｒは文字矩
形であると分類する（ステップＳ４０７）。ステップＳ
４０４でＮＯの場合であって、矩形Ｒの面積が十分に小
さ場合も、矩形Ｒは文字矩形であると分類する（ステッ
プＳ４０５、Ｓ４０７）。

【００８１】ここで、Ｓ４０３における罫線特徴を持つ
かどうかは、具体的には次の条件を満たすかどうかで判
断する。すなわち、（１）矩形の縦横比が２０倍以上、
（２）高さが３ドット以下、（３）矩形内部において長
い水平（垂直）ランのみで構成されている、場合に罫線
特徴を持つとする。

【００８２】また、ステップＳ４０４において、Ｒの高
さが十分小さいとは、具体的には紙の上で１０ｍｍ以下
とする。すなわち、２００ｄｐｉ画像の場合には高さ８
０ドット以下の矩形がこの条件に相当する。

【００８３】更に、ステップＳ４０５において、Ｒの面
積が十分小さいとは、具体的には１６００（dot×dot）
以下とする。

【００８４】ステップＳ４０３〜Ｓ４０５のいずれの条
件にも当てはまらなかった矩形は、ステップＳ４０８に
おいて、一旦図・写真（その他）矩形の候補として分類
し、以降の処理で、図・写真（その他）の候補に分類さ
れた矩形をさらに詳しく分類する。

【００８５】すなわち、図・写真（その他）矩形を1つ
の文書画像とみなして、本発明の領域識別処理を再帰的
に施す。すなわち、ステップＳ４０９で矩形Ｒの背景色
を特定し、ステップＳ４１０〜Ｓ４１２で矩形Ｒ内の矩
形を生成する。ただし、矩形Ｒはすでに原画像から圧縮
されているので、Ｒを再び圧縮する必要はない。従っ
て、図２のステップＳ１０３に相当する処理は行わな
い。

【００８６】ステップＳ４１３において、Ｒに対して再
帰的に図８に示したフローチャートの矩形分類処理を施
す。ここで、再帰的に矩形生成・分類処理を行う理由は
次の通りである。

【００８７】２値画像と異なり、カラー画像では、領域
毎に異なる背景色を持つ場合がある。そのような場合、
文書全体の背景色Ｂと異なる背景色を持つある部分領域
について、上記の矩形生成の結果、その部分領域全体が
誤って1つの矩形として統合されてしまうことがある。
従って、再帰的に矩形生成・分類処理を行う必要があ
る。

【００８８】例えば、図９におけるオリジナル画像の背
景色１と部分領域３内の背景色５が異なる場合、領域識
別結果として、領域３は1つの矩形として識別される。
この領域３に再び矩形生成・分類処理を施すこととな
る。

【００８９】ステップＳ４１４にて、Ｒ内の文字矩形を
抽出するために、Ｒ内の同一ライン上で連続した文字矩
形が存在するかどうかを調べる。存在しない場合、Ｒを
正式に図・写真などのその他矩形に分類して（ステップ
Ｓ４１６）、矩形リストの次要素を取り出して（ステッ
プＳ４２０）、次の矩形の処理に移る（ステップＳ４２
１）。ここで、矩形リスト中の全ての矩形を分類し終わ
れば処理を終了する（ステップＳ４２１でＹＥＳの場
合）。

【００９０】ステップＳ４１４において、Ｒ内の同一ラ
イン上で連続した文字矩形が存在する場合、ステップＳ
４１５にて、これら文字矩形を包含するような大きな文
字矩形Ｔを生成する。Ｒ内の文字部分がいくつか離れた
箇所に複数存在する場合には、上記のようにして統合し
た矩形ＴもＲ内に複数生成されると考えられる。次に、
ステップＳ４１７において、矩形Ｔを文字矩形として矩
形リストＬに追加登録する。

【００９１】ここで、ステップＳ４１４において、Ｒ内
に同一ライン上で連続した文字矩形が存在するかどうか
は、具体的には、先頭文字矩形の高さの中心を基準ライ
ンとしたとき、基準ラインの±５ｄｏｔ以内に連続した
文字矩形が３つ以上連続しているかどうかで判断する。

【００９２】続いて、ステップＳ４１８にて、Ｔの面積
がＲの面積に対して十分大きいかどうかを調べる。十分
大きい場合には、ステップＳ４１９にて、Ｒを矩形リス
トから削除する。ステップＳ４１８にてＮＯの場合は、
Ｒを正式に図・写真（その他）矩形に分類して（ステッ
プＳ４１６）、次の矩形の処理に移る（ステップＳ４２
１）。以上の処理をすべての矩形について繰り返す。

【００９３】ここで、ステップＳ４１８において、Ｔの
面積がＲの面積に対して十分大きいかどうかは、具体的
にはＴの面積がＲの面積の80％以上であるかどうかで判
断する。

【００９４】なお、上記の矩形分類処理において、ステ
ップＳ４０１からＳ４０８までの処理は2値画像に対す
る領域識別処理と同様な処理である。カラー画像特有の
処理は、ステップＳ４０８でその他と分類された矩形に
対して、再帰的にもう一度図８の処理を施すことであ
る。

【００９５】次に、写真矩形を塗り潰した画像を生成す
る処理（ステップＳ１０９）について、図１０の例を用
いて説明する。

【００９６】図１０の左上にオリジナル画像１０、右上
に領域分割画像１２を示す。領域分割画像１２には、本
発明のカラー領域識別の結果、写真矩形と判断された矩
形を特定色で塗り潰す処理（ステップＳ１０９の処理）
を施してある。

【００９７】入力カラー画像を２値化してＯＣＲ処理を
施す場合、写真矩形を塗り潰さずにそのままの状態で画
像全体を2値化して、生成された2値画像から文字行矩形
を生成した場合、図１０の左下のような画像１１となる
場合がある。すなわち、写真矩形の薄い部分の近傍の文
字矩形が、誤って写真部分と統合されてしまう。一方、
ステップＳ１０９の処理を施した領域分割画像１２から
文字行を生成した結果の画像１３では、正しく文字矩形
が生成される。

【００９８】本発明の処理によって得られた領域識別結
果はＯＣＲ以外の画像認識処理に適用することも可能で
ある。

【００９９】（第２の実施例）次に、本発明の第２の実
施例について説明する。

【０１００】前述したように、一般にカラー化された文
書では、単に使用される色数が増えるだけではなく文書
のレイアウト構造も複雑になる傾向がある。このため、
単純に二値化して領域識別しても、最終的なＯＣＲ精度
を向上させるのは難しい。

【０１０１】例えば、図１１に示すような各セルが色分
けされた表の場合、従来の二値化技術を用いると表とし
て適切に二値化されない場合がある。また、図１２に示
すようなグラデーションが大きく変化する地肌に書かれ
た文字の場合にも、ＯＣＲ処理のために適切な画像が得
られない場合がある。

【０１０２】ここで、個々の文字領域の背景は一定の色
あるいは緩やかなグラデーションであると仮定すれば、
第１の実施例で説明した方法を用いることによって対応
可能である。また、文字は必ず一定の色で記述されてい
ると仮定すれば、画像分割型の二値化方式（特願平１１
−１１３７６１号参照）でもＯＣＲ可能なレベルの状態
にはなる。しかし、一般にカラー化された文書は複雑で
あり、図１１や図１２に示すようなカラー特有の問題が
混在している場合が多い。従って、一般にカラー化され
た文書に対しては、従来方法（二値化＋領域識別）を組
み合わせるだけではＯＣＲに好適な画像を生成すること
は困難であるといえる。

【０１０３】第２の実施例では、第１の実施例で説明し
たカラー領域識別処理に加え、ＯＣＲに好適な画像を生
成するために前処理へのフィードバック処理を追加し
て、個々の技術では対応しきれかなった複雑なカラー文
書の認識を可能とした文書画像認識技術について説明す
る。第２の実施例では、カラー領域識別は文字よりも写
真や図の抽出に強く、それに対して２値の領域識別はテ
キストの抽出に強いという性質を利用している。

【０１０４】図１３に、本発明の第２の実施例における
文書画像認識装置の構成を示す。なお、第２の実施例に
おける処理を実行するプログラムを用いて図１に示すコ
ンピュータを第２の実施例における文書画像認識装置と
して使用することもできる。また、そのプログラムをＣ
Ｄ−ＲＯＭ等の記録媒体に記録して、コンピュータにイ
ンストールすることにより本発明を実施することもでき
る。

【０１０５】図１３に示す文書画像認識装置は、画像入
力手段２０１、領域識別手段２０２、二値化手段２０
３、領域識別手段２０４、領域識別再考手段２０５、Ｏ
ＣＲ手段２０６、データベース２０７を有する。

【０１０６】画像入力手段２０１により、紙文書である
カラー文書画像を入力する。例えば、スキャナー、ある
いはネットワークを介してカラー文書画像をカラーデジ
タル画像として入力する。

【０１０７】領域識別手段２０２は、カラー文書画像を
写真／テキスト／罫線などの小領域に分割する。ここで
は第１の実施例におけるカラー領域識別処理と同様の処
理を行う。

【０１０８】二値化手段２０３は、カラー文書画像を後
段のＯＣＲにとって最適な二値画像に変換する。後述す
るようにここでの二値化処理は、テキストと背景を精度
よく分離し、罫線や写真などは擦れないように工夫され
必要ならば文字のエッジを強調することも可能である。
また、二値化手段２０３は性質の異なる複数の二値化方
式を有しており、カラー領域識別で分類された各領域
（写真／テキスト／罫線）をそれぞれ最適な方式で二値
化する。

【０１０９】領域識別手段２０４は、二値画像に対して
領域識別を行う。この領域識別については従来の領域識
別方法を用いて行うことが可能である。

【０１１０】領域識別再考手段２０５は、カラー領域識
別結果と二値領域識別結果との間に整合が取れているか
どうかを確認して、もし両者の一部に違いがあれば該当
する領域のみを再度カラー領域識別、二値化、二値領域
識別するようなフィードバック処理の判定を行う。この
フィードバックは、両者の領域識別結果が一定の条件を
満たすまで繰り返し実行される。ＯＣＲ手段２０６は、
二値画像を入力してＯＣＲ処理を行う。データベース２
０７は、ＯＣＲ結果を保持する。

【０１１１】次に、第２の実施例における文書画像認識
装置の動作を図１４のフローチャートを用いて説明す
る。

【０１１２】まず、ステップS６０１においてカラー画
像を入力し、ステップS６０２にてカラー領域識別を行
い、ステップS６０３にて識別された領域毎に異なる方
式で二値化し、１枚のＯＣＲ用二値画像を生成する。

【０１１３】そして、ステップS６０４において二値画
像に対して従来方法で領域識別を行い、ステップS６０
５にてカラー領域識別結果と二値領域識別結果とを比較
し、ステップS６０６においてフィードバック処理が必
要かどうかを判断する。

【０１１４】判断の結果がＹeｓならば、該当する領域
だけ再度ステップS６０２からやり直し、判断の結果が
Ｎｏならば、ＯＣＲ処理を施して結果をＤＢに出力する
（ステップS６０７、ステップS６０８）。

【０１１５】上記のステップS６０６において、照合に
よる矛盾が所定の値以下となった場合、もしくは所定回
数だけS６０２〜S６０５の処理を実行した場合にステッ
プS６０７の処理に進むようにすることができる。ま
た、S６０２〜S６０５の処理結果がその前の処理結果と
一致した場合にステップS６０７の処理に進むようにし
てもよい。

【０１１６】上記の処理のうちステップS６０３の領域
ごとに二値化する処理と、ステップS６０６、６０６の
フィードバック処理以外は第１の実施例で説明した処理
と同様の処理を行う。

【０１１７】上記のように、カラー領域識別（ステップ
Ｓ６０２）において、入力されたカラー文書画像を二値
化する前に色やレイアウト情報を用いて領域識別する。
第２の実施例でも第１の実施例で説明した方法を用いる
ことができる。前述した通り、この方法ではカラー文書
画像を領域識別すると同時に、識別された文字矩形の文
字色を検出することが可能である。第２の実施例ではＯ
ＣＲ処理の前に文字色を利用するので、第１の実施例で
説明したカラー領域識別方法は第２の実施例におけるカ
ラー領域識別に適した方法である。

【０１１８】次に、領域ごとに二値化する処理（ステッ
プS６０３）について詳細に説明する。

【０１１９】ＯＣＲにとって最適な二値画像は、文字や
罫線、図・写真などの種類によって異なり、例えば、文
字と背景とは明確に区別される必要がある。また文字の
中に一部白抜けがあると、ＯＣＲへの悪影響は避けられ
ない。また、わずかな罫線のかすれも許されない。一
方、図・写真領域は過剰分割を防ぐために全体としてぼ
んやりと暗めに二値化される方が望ましい。

【０１２０】以上の理由から、本実施例では図１５に示
すように文書の領域ごとに二値化して、ＯＣＲのための
最適な二値画像を生成する。

【０１２１】図１５の左上の画像はカラー領域識別され
た結果を矩形表示したものである。まず（１）に示すよ
うに、入力画像全面から最終二値化画像の土台となる二
値画像を生成する。この二値化を行う方法は、判別分析
法でも画像分割型二値化方式でも構わない。また、その
他の方法で二値化してもよい。

【０１２２】次に、（２）に示すように、識別された領
域ごとに各領域に適した方式で二値化が行われる。ここ
で、本実施例では、文字領域には画像分割型を、罫線、
図・写真領域には判別分析法を適用する。

【０１２３】画像分割型二値化方法（特願平１１−１１
３７６１号）は、図１６に示すように、オリジナル画像
を格子状に分割し、格子毎に二値化する方法である。こ
の方法は、図１２に示したようなかなりきつめ条件（グ
ラデーション、周辺ノイズなど）でも、人間が認識可能
なレベルで文字と背景を分離することが可能であるの
で、文字領域の二値化に適している。本実施例では、二
値化対象領域の幅に応じて、格子幅を図１７に示すよう
に変化させることとしている。

【０１２４】一方、判別分析法で罫線、図・写真領域を
二値化することで、特に二値化の閾値を濃い目に設定す
ることで罫線がかすれず図や写真も一塊になり、領域識
別にとって有利な二値画像となる。最後に、領域ごとに
生成された二値画像を土台となる二値画像上に貼り付け
ることにより二値画像を生成する。

【０１２５】次に、図１４のステップＳ６０５、Ｓ６０
６で実行される領域識別結果の比較について詳細に説明
する。

【０１２６】さて、例えば図１１に示すように各行が色
分けされた表を２値化処理した場合、表としてうまく２
値化されない場合が多い。文書のカラー化に伴い、レイ
アウトもより一層複雑化する傾向があるので、２値化処
理のみではうまく２値化されない場合が一層多くなると
考えられる。

【０１２７】そこで、本実施例においては、カラー領域
識別結果と二値領域識別結果を比較して、必要ならばフ
ィードバック処理を行ってＯＣＲのための最適な二値画
像と正確な領域識別結果を得ている。

【０１２８】図１８、図１９を用いて本実施例における
領域識別結果の比較と修正の例を説明する。図１８は二
値化によって”COURSE”を含む文字行が全く抽出されな
かった例であり、このような場合に図１９に示した手順
で領域識別を修正する。

【０１２９】まず、ステップＳ７０１にてカラー領域識
別結果Ｃを、ステップＳ７０２にて二値領域識別結果Ｂ
を入力する。続いて、ステップＳ７０３において行単位
で双方の結果の対応を調べる。

【０１３０】次に、ステップＳ７０４において片方には
存在しない行があるかどうかをチェックする。このため
に、文字矩形の座標を比較して判断する。例えば、カラ
ー領域識別から得られたある文字矩形に対して、二値領
域識別結果にはこれと矩形座標が重なる座標が全くない
場合に、片方には存在しない行があると判断する。

【０１３１】ステップＳ７０４における判断結果がＹｅ
ｓならば、ステップＳ７０５の判断へ進み、Ｎｏなら
ば、本処理を終了して図１４のステップＳ６０７のＯＣ
Ｒ処理へ進む。

【０１３２】ステップＳ７０５において、前記検出され
た文字行が二値領域識別結果Ｂにのみ存在し、カラー領
域識別結果Ｃには該当する文字行は存在しないかどうか
をチェックする。Ｎｏならば、ステップＳ７０８へ進
む。

【０１３３】Ｙｅｓならば、該行内の文字色のばらつき
を調べるために、ステップＳ７０６において原画像に立
ち戻って文字色を特定し、ステップＳ７０７において各
文字の文字色に大きなばらつきがあるかどうかを判定す
る。ここでは、例えば各文字色（ＲＧＢ値）の分散を求
めて、これが一定値以上大きい場合には色のばらつきが
大きいと判断する。

【０１３４】ステップＳ７０５の判断においてＹｅｓで
ある場合のようにカラー領域識別では抽出できなかった
文字行が二値領域識別結果Ｃに存在する場合には、二値
化が不十分であったために文字行にノイズが混入してい
ることが多い。本発明では、そのような場合に、そのノ
イズの色と正しい文字色とは異なると仮定し、ステップ
Ｓ７０６、Ｓ７０７の処理を行うことによって色のばら
つき具合を見ることでこの誤りを検出している。

【０１３５】ステップＳ７０７の判断がＮｏ、もしくは
ステップＳ７０５の判断がＮｏならば、ステップＳ７０
８において、該当する行を包含する領域を作成する。

【０１３６】ステップＳ７０７の判断がＹｅｓならば、
図１８に示す処理は終了して図１２のステップＳ６０７
のＯＣＲ処理に進む。

【０１３７】ステップＳ７０８の処理の後、ステップＳ
７０９として該領域を再度二値化して、該領域を二値領
域識別し、ステップＳ７０２からの処理を再度行う。

【０１３８】上記の処理において、ステップＳ７０５に
おいてＮｏである場合とは、カラー領域識別では抽出さ
れた文字行が二値領域識別の結果では存在しない場合で
あり、その場合、ステップＳ７０８以降の処理で示すよ
うに、該当する文字行を包含するような領域を作成し
て、二値化および二値領域識別して、両者の領域識別結
果に著しい差がなくなるまでこのフィードバック処理を
繰り返して最終的な領域識別結果の向上を図ることとし
ている。

【０１３９】すなわち、カラー領域識別では文字行が抽
出されたのにも関わらず、二値領域識別では対応する文
字行が存在しなかった場合、文字色を調べることなくフ
ィードバック処理を行って該文字行の再抽出を試みる処
理を行うようにしている。

【０１４０】ここで、ステップＳ７０５でＮｏの場合に
文字色を厳密に調べることなくフィードバック処理に踏
み切る理由は、色情報を直接用いたカラー領域識別のほ
うが、形状や二値の情報しか用いていない二値領域識別
よりも文字列の有無を検出する精度が高いからである。
この段階では、カラー領域識別でも正確に文字行を切り
出すことはできない可能性があるが、前記理由から文字
列が存在する可能性は高いので、二値化と二値領域識別
を繰り返すことにより最終的なＯＣＲのための文字抽出
精度向上を図ることとしている。

【０１４１】図２０に、領域識別結果の比較と修正の他
の例を示す。図２０（ａ）はカラー領域識別の結果例で
あり、本来の正しい行切り出し結果を示している。図２
０（ｂ）は二値領域識別結果を示す図であり、二値化が
不十分であったため、文字の一部が正しく抽出できずに
周辺のノイズと融合して図・写真領域が誤抽出されてい
る例を示している。

【０１４２】このような場合、本実施例では図２１の手
順で領域識別結果の正当性を検証して、二値化や領域識
別処理を繰り返すフィードバック処理により誤りを修正
する。

【０１４３】ステップＳ８０１においてカラー領域識別
結果を入力し、ステップＳ８０２において二値領域識別
結果を入力する。次に、ステップＳ８０３として行単位
で双方の結果の対応を調べる。

【０１４４】ステップＳ８０４において、特徴の異なる
行が所定の数以上連続して存在するかどうかをチェック
する。本実施例では所定の行数を３行としている。図２
１の例では、Ｌ^c _iとＬ^b _iがそれぞれ対応する行になる。
具体的には次の条件のいずれかを満たせばステップＳ８
０４における特徴が異なると判定される。・行幅が６０％以下か？・行の平均文字サイズの差が３ｐｔ以上か？・行の平均文字色（輝度の平均）の差が３０以上か？また、エッジの分布等を判定に用いてもよい。

【０１４５】ステップS８０４にてＹeｓならば、ステッ
プS８０５において該当する行を包含する領域を作成
し、ステップS８０６において該領域を再度二値化し、
ステップS８０７にて該領域を再度二値領域識別する。

【０１４６】ステップS８０４にてＮｏならば、この処
理は終了して図１４のステップS６０７のＯＣＲ処理を
行う。

【０１４７】ＯＣＲ処理については、この時点でＯＣＲ
に適した二値画像と領域識別結果が生成されているの
で、従来の方法でＯＣＲ処理を行う。ＯＣＲ結果も従来
と同様に文字コード、認識確信度、位置やフォントサイ
ズなどのレイアウト情報と共にＯＣＲ結果ＤＢに保存す
る。

【０１４８】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。

【０１４９】

【発明の効果】上記の通り、本発明によれば、従来の方
法と異なりカラー画像から色情報を用いて、２値化する
ことなく直接文字／罫線／イラスト及び写真等の領域を
識別するので、色情報の欠落がなく、精度良く領域識別
が可能になる。

【０１５０】また、本発明によれば、カラー文書画像の
背景色を精度良く特定するので、カラー文書画像の背景
色と異なる画素を統合してランの生成が可能になる。す
なわち、文書要素として意味のある矩形を精度良く抽出
することが可能となる。また、カラー文書画像の一部の
部分領域に限定して背景色特定の処理を施すことによ
り、該部分領域内の再帰的な領域識別も可能になる。

【０１５１】また、効率良く原画像を縮小することで、
画像へのアクセスコストを大幅に削減できる。すなわ
ち、処理速度が向上し、使用メモリ量を削減することが
可能となる。また、本発明における圧縮方法によれば、
画像を高速に平滑化する効果もあり、文書要素の抽出が
容易になる。また、縮小画像を作成する際に、画像をｍ
×ｍの格子状にすることで、本発明の実装が容易にな
る。

【０１５２】また、背景領域と文書要素を分離する際に
は各色値の差異を用いるため、簡単な演算で画素間の相
違度を求めることができ、十分な精度が得られる。

【０１５３】更に、2値化の影響を受けやすい図・写真
（その他）矩形を特定色で塗り潰すこととしたので、図
・写真（その他）領域の周辺にある文字部を精度よく抽
出することができ、ＯＣＲ精度も向上する。

【０１５４】また、第２の実施例で説明したように、Ｏ
ＣＲ前処理（領域識別、二値化）へのフィードバック機
構を有するので、従来のカラー文書認識技術では難しか
ったカラー文書特有の問題を有するカラー文書に対して
も精度よくＯＣＲすることができる。また、各セルが色
分けされた表や、グラデーションが大きく変化する地肌
に書かれた文字を有するカラー文書、あるいはこれらが
混在する場合でも精度よくＯＣＲすることができる。

【０１５５】更に、領域単位ではなく文字行単位で領域
識別結果を比較することにより、従来避けられなかった
行から領域への統合誤りを回避することができる。その
際、文字色を特定して文字色のばらつきを調べること
で、比較対象範囲に文字が存在するか否かを精度よく判
定でき、その結果文字が存在する範囲だけをフィードバ
ックすることで周囲への悪影響がなく文字抽出精度が向
上する。また、カラー情報を積極的に用いるカラー領域
識別での文字抽出結果を優先的に採用することで、二値
化が原因で従来ＯＣＲできなかった文字が抽出可能とな
る。更に、対象範囲の複数行についてそれぞれレイアウ
ト特徴を比較することで、どちらかの領域識別結果での
誤りを正確に検出することができ、該当範囲だけをフィ
ードバックすることで周囲への悪影響がなく文字抽出精
度が向上する。

【図面の簡単な説明】

【図１】本発明の第１の実施例における文書画像認識装
置の構成図である。

【図２】本発明の第１の実施例における処理の全体を示
すフローチャートである。

【図３】背景色特定処理を示すフローチャートである。

【図４】近傍５×５ブロック内を参照した平滑化におけ
る9種類のエリアの例を示す図である。

【図５】縮小画像生成処理を示すフローチャートであ
る。

【図６】縮小画像生成処理の概念を２値画像を例にとり
説明するための図である。

【図７】背景色と注目画素値が同一かどうかの判断を行
う処理を示すフローチャートである。

【図８】矩形分類処理を示すフローチャートである。

【図９】部分領域全体が矩形として識別された例を示す
図である。

【図１０】写真矩形を塗り潰した画像を生成する処理を
説明するための図である。

【図１１】各セルが色分けされた表の例である。

【図１２】グラデーション地肌に記述された文字の例を
示す図である。

【図１３】本発明の第２の実施例における文書画像認識
装置の構成図である。

【図１４】本発明の第２の実施例における文書画像認識
装置の動作を示すフローチャートである。

【図１５】本発明の第２の実施例における二値化方法を
説明するための図である。

【図１６】画像分割型二値化方法を説明するための図で
ある。

【図１７】領域の幅に対する格子幅を示す表である。

【図１８】領域識別の結果例である。

【図１９】図１８に示す場合において領域識別結果の修
正を行う処理を示すフローチャートである。

【図２０】領域識別の結果例である。

【図２１】図２０に示す場合において領域識別結果の修
正を行う処理を示すフローチャートである。

【符号の説明】

１オリジナル画像の背景色３部分領域５部分領域３の背景色１０オリジナル画像１１オリジナル画像１０の文字行生成結果１２領域分割画像１３領域分割画像１２の文字行生成結果１００ＣＰＵ１０１メモリ１０２スキャナ１０３通信装置１０４表示装置１０５ハードディスク１０６キーボード１０７ＣＤ−ＲＯＭドライブ２０１画像入力手段２０２領域識別手段２０３二値化手段２０４領域識別手段２０５領域識別再考手段２０６ＯＣＲ手段２０７データベース

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｔ 7/60 １５０Ｇ０６Ｔ 7/60 １５０Ｓ１８０１８０Ａ

Claims

【特許請求の範囲】

【請求項１】文書画像を認識する文書画像認識方法で
あって、文書画像をデジタル画像として入力する入力ステップ
と、該文書画像の背景色を特定する背景色特定ステップと、該背景色を用いて該文書画像から背景領域以外の画素を
抽出する抽出ステップと、該画素を統合して連結成分を生成する生成ステップと、該連結成分を少なくとも形状特徴を用いて所定の領域に
分類して、該文書画像の領域識別の結果を得る分類ステ
ップとを有することを特徴とする文書画像認識方法。
【請求項２】前記領域識別された文書画像を２値化
し、２値画像を生成するステップと、該２値画像の領域を所定の領域に分類し、その結果を前
記領域識別の結果と照合して該領域識別の結果を補正す
る補正ステップと、文字領域を文字認識する認識ステップとを更に有する請
求項１に記載の文書画像認識方法。
【請求項３】前記背景色特定ステップは、前記文書画像の色のクラスタリングを行うクラスタリン
グステップと、クラスタリングにより得られた最大クラスタの代表色を
該文書画像の背景色とするステップとを有する請求項１
に記載の文書画像認識方法。
【請求項４】前記クラスタリングステップは、ある間隔を空けて画素をサンプリングするステップと、該画素の近傍を平滑化した画素値を用いて前記クラスタ
リングを行うステップとを有する請求項３に記載の文書
画像認識方法。
【請求項５】前記文書画像認識方法は更に前記文書画
像を縮小する縮小ステップを有し、該縮小ステップは、文書画像を複数のブロックに分割するステップと、ブロック内の代表色を求めるステップと、該代表色と前記背景色とを比較して、該ブロックの縮小
後の色を決定し、該ブロックを該色の画素に縮小するス
テップとを有する請求項１に記載の文書画像認識方法。
【請求項６】前記ブロックは、３画素×３画素又は４
画素×４画素の格子である請求項５に記載の文書画像認
識方法。
【請求項７】前記抽出ステップは、前記背景色と注目画素の各色値の差が所定の値より大き
い場合に該注目画素は背景領域以外の画素であると判断
するステップを有する請求項１に記載の文書画像認識方
法。
【請求項８】前記領域識別によって識別された図又は
写真の矩形領域を特定色で塗り潰した文書画像を生成す
るステップと、該文書画像に２値化処理を施して得られた２値画像に対
して文字認識を行うステップとを更に有する請求項１に
記載の文書画像認識方法。
【請求項９】前記分類ステップにおいて分類された所
定の矩形領域に対して再帰的に該分類ステップの処理を
実行する請求項１に記載の文書画像認識方法。
【請求項１０】文書画像を認識する文書画像認識方法
であって、文書画像をデジタル画像として入力するステップと、該文書画像をカラー領域識別するステップと、カラー領域識別された領域毎の二値画像を生成するステ
ップと、領域毎の二値画像を統合して一枚の二値画像を生成し、
該二値画像の領域識別を行うステップと、該二値画像の領域識別結果と前記カラー領域識別結果と
を照合し、必要に応じてフィードバック処理を所定の条
件を満たすまで又は所定回数行って二値画像と領域識別
結果を得るステップとを有することを特徴とする文書画
像認識方法。
【請求項１１】カラー領域識別結果と二値画像の領域
識別結果との照合の結果、文書のある範囲にて所定の条
件を満たさない場合に前記フィードバック処理が行わ
れ、該フィードバック処理は、該範囲を包含する領域を作成し、該領域に対して再度カ
ラー領域識別、二値化及び二値領域識別を行い、両者の
領域識別結果を照合するステップを有する請求項１０に
記載の文書画像認識方法。
【請求項１２】カラー領域識別結果と二値画像の領域
識別結果との照合の結果、ある範囲にて一方の領域識別
で文字行が抽出され、もう一方の領域識別結果では文字
矩形が得られなかった場合に、前記フィードバック処理
が行われ、該フィードバック処理は、該文字矩形の文字色を特定し、文字色にばらつきがなけ
れば、該範囲には文字が存在すると判定し、特定した文
字色を用いて再度カラー領域識別、二値化及び二値領域
識別を行い、両者の領域識別結果を照合するステップを
有する請求項１０に記載の文書画像認識方法。
【請求項１３】前記フィードバック処理は、カラー領域識別結果と二値画像の領域識別結果との照合
の結果、ある範囲にてカラー領域識別では抽出された文
字行が二値領域識別の結果では存在しない場合に、該当
する文字行を包含する領域を作成し、二値化及び二値領
域識別を行い、該領域識別結果とカラー領域識別結果と
を照合するステップを含む請求項１２に記載の文書画像
認識方法。
【請求項１４】カラー領域識別結果と二値画像の領域
識別結果との照合の結果、双方の領域識別結果で所定行
数以上連続してレイアウト特徴が異なる文字行が存在す
る場合に、前記フィードバック処理が行われ、該フィー
ドバック処理は、該当する文字行を包含する領域を作成し、二値化及び二
値領域識別し、該領域識別結果とカラー領域識別結果と
を照合するステップを有する請求項１０に記載の文書画
像認識方法。
【請求項１５】前記カラー領域識別された領域毎の二
値画像を生成するステップにおいて、文字部には画像分割型の二値化方式を適用し、罫線部、
図、写真領域には判別分析型の二値化方式を適用する請
求項１０に記載の文書画像認識方法。
【請求項１６】前記カラー領域識別は、請求項１に記
載の文書画像認識方法により行う請求項１０ないし１５
のうちいずれか１項に記載の文書画像認識方法。
【請求項１７】文書画像を認識するする文書画像認識
装置であって、文書画像をデジタル画像として入力する入力手段と、該文書画像の背景色を特定する背景色特定手段と、該背景色を用いて該文書画像から背景領域以外の画素を
抽出する抽出手段と、該画素を統合して連結成分を生成する生成手段と、該連結成分を少なくとも形状特徴を用いて所定の領域に
分類して、該文書画像の領域識別の結果を得る分類手段
とを有することを特徴とする文書画像認識装置。
【請求項１８】前記領域識別された文書画像を２値化
し、２値画像を生成する手段と、該２値画像の領域を所定の領域に分類し、その結果を前
記領域識別の結果と照合して該領域識別の結果を補正す
る補正手段と、文字領域を文字認識する認識手段とを更に有する請求項
１７に記載の文書画像認識装置。
【請求項１９】前記背景色特定手段は、前記文書画像の色のクラスタリングを行うクラスタリン
グ手段と、クラスタリングにより得られた最大クラスタの代表色を
該文書画像の背景色とする手段とを有する請求項１７に
記載の文書画像認識装置。
【請求項２０】前記クラスタリング手段は、ある間隔を空けて画素をサンプリングする手段と、該画素の近傍を平滑化した画素値を用いて前記クラスタ
リングを行う手段とを有する請求項１９に記載の文書画
像認識装置。
【請求項２１】前記文書画像認識装置は更に前記文書
画像を縮小する縮小手段を有し、該縮小手段は、文書画像を複数のブロックに分割する手段と、ブロック内の代表色を求める手段と、該代表色と前記背景色とを比較して、該ブロックの縮小
後の色を決定し、該ブロックを該色の画素に縮小する手
段とを有する請求項１７に記載の文書画像認識装置。
【請求項２２】前記ブロックは、３画素×３画素又は
４画素×４画素の格子である請求項２１に記載の文書画
像認識装置。
【請求項２３】前記抽出手段は、前記背景色と注目画素の各色値の差が所定の値より大き
い場合に該注目画素は背景領域以外の画素であると判断
する手段を有する請求項１７に記載の文書画像認識装
置。
【請求項２４】前記領域識別によって識別された図又
は写真の矩形領域を特定色で塗り潰した文書画像を生成
する手段と、該文書画像に２値化処理を施して得られた２値画像に対
して文字認識を行う手段とを更に有する請求項１７に記
載の文書画像認識装置。
【請求項２５】前記分類手段において分類された所定
の矩形領域に対して再帰的に該分類手段の処理を実行す
る請求項１７に記載の文書画像認識装置。
【請求項２６】文書画像を認識する文書画像認識装置
であって、文書画像をデジタル画像として入力する手段と、該文書画像をカラー領域識別する手段と、カラー領域識別された領域毎の二値画像を生成する手段
と、領域毎の二値画像を統合して一枚の二値画像を生成し、
該二値画像の領域識別を行う手段と、該二値画像の領域識別結果と前記カラー領域識別結果と
を照合し、必要に応じてフィードバック処理を所定の条
件を満たすまで又は所定回数行って二値画像と領域識別
結果を得る手段とを有することを特徴とする文書画像認
識装置。
【請求項２７】カラー領域識別結果と二値画像の領域
識別結果との照合の結果、ある範囲にて一方の領域識別
で文字行が抽出され、もう一方の領域識別結果では文字
矩形が得られなかった場合に、前記フィードバック処理
が行われ、該フィードバック処理において、該文字矩形の文字色を特定し、文字色にばらつきがなけ
れば、該範囲には文字が存在すると判定し、特定した文
字色を用いて再度カラー領域識別、二値化及び二値領域
識別を行い、両者の領域識別結果を照合する請求項２６
に記載の文書画像認識装置。
【請求項２８】前記フィードバック処理は、カラー領域識別結果と二値画像の領域識別結果との照合
の結果、ある範囲にてカラー領域識別では抽出された文
字行が二値領域識別の結果では存在しない場合に、該当
する文字行を包含する領域を作成し、二値化及び二値領
域識別を行い、該領域識別結果とカラー領域識別結果と
を照合する処理を含む請求項２７に記載の文書画像認識
装置。
【請求項２９】カラー領域識別結果と二値画像の領域
識別結果との照合の結果、双方の領域識別結果で所定行
数以上連続してレイアウト特徴が異なる文字行が存在す
る場合に、前記フィードバック処理が行われ、該フィー
ドバック処理において、該当する文字行を包含する領域を作成し、二値化及び二
値領域識別し、該領域識別結果とカラー領域識別結果と
を照合する請求項２６に記載の文書画像認識装置。
【請求項３０】コンピュータに文書画像認識処理を実
行させるプログラムを記録したコンピュータ読み取り可
能な記録媒体であって、文書画像をデジタル画像として入力する入力手順と、該文書画像の背景色を特定する背景色特定手順と、該背景色を用いて該文書画像から背景領域以外の画素を
抽出する抽出手順と、該画素を統合して連結成分を生成する生成手順と、該連結成分を少なくとも形状特徴を用いて所定の領域に
分類して、該文書画像の領域識別の結果を得る分類手順
とをコンピュータに実行させるプログラムを記録したコ
ンピュータ読み取り可能な記録媒体。
【請求項３１】前記領域識別された文書画像を２値化
し、２値画像を生成する手順と、該２値画像の領域を所定の領域に分類し、その結果を前
記領域識別の結果と照合して該領域識別の結果を補正す
る補正手順と、文字領域を文字認識する認識手順とを更にコンピュータ
に実行させる請求項３０に記載のプログラムを記録した
コンピュータ読み取り可能な記録媒体。
【請求項３２】コンピュータに文書画像認識処理を実
行させるプログラムを記録したコンピュータ読み取り可
能な記録媒体であって、文書画像をデジタル画像として入力する手順と、該文書画像をカラー領域識別する手順と、カラー領域識別された領域毎の二値画像を生成する手順
と、領域毎の二値画像を統合して一枚の二値画像を生成し、
該二値画像の領域識別を行う手順と、該二値画像の領域識別結果と前記カラー領域識別結果と
を照合し、必要に応じてフィードバック処理を所定の条
件を満たすまで又は所定回数行って二値画像と領域識別
結果を得る手順とをコンピュータに実行させるプログラ
ムを記録したコンピュータ読み取り可能な記録媒体。