JP2009141597A

JP2009141597A - 画像処理装置、文字領域特定方法、および文字領域特定プログラム

Info

Publication number: JP2009141597A
Application number: JP2007314902A
Authority: JP
Inventors: Kazuya Yago; 和也矢後
Original assignee: Konica Minolta Business Technologies Inc
Current assignee: Konica Minolta Business Technologies Inc
Priority date: 2007-12-05
Filing date: 2007-12-05
Publication date: 2009-06-25
Anticipated expiration: 2027-12-05
Also published as: JP5003445B2

Abstract

【課題】複雑で多様な背景を含んだ画像からより正確に文字行矩形を生成するとともに、より正確に文字行矩形を特定する画像処理装置、当該画像処理装置を用いた文字領域認識方法、および文字領域認識プログラムを提供する。
【解決手段】画像に基づいて２値画像を生成する生成手段１１と、２値画像から余白領域とそれ以外の非余白領域とを抽出する第１の抽出手段１２と、非余白領域内で膨張処理を行うことにより、少なくとも１つの第１の行矩形を生成する膨張手段１３と、第１の行矩形の形状に基づいて２値画像の文字行方向を判定する判定手段１４と、判定手段により判定された文字行方向に第１の行矩形同士を連結することによって第２の行矩形を生成する第１の連結手段１７と、２値画像における第２の行矩形に対応する領域に基づいて文字領域を特定する第１の特定手段１８とを備える。
【選択図】図３

Description

この発明は、複数の画素からなる画像の中から文字領域を特定する画像処理装置、当該画像処理装置を用いた文字領域特定方法、および文字領域特定プログラムに関し、特に、複雑で多様な背景を含んだ画像から正確に文字行矩形を生成するとともに、正確に文字行矩形を特定する画像処理装置、当該画像処理装置を用いた文字領域特定方法、および文字領域特定プログラムに関する。

近年、情報の電子化が進み、文書を紙ではなく電子化して保存、または送信する需要が高まっている。そこで、ＭＦＰ（Multi Function Peripheral）等の画像データを取得する画像処理装置において、スキャンして得られた画像データを紙に印刷することなく、メールに添付するなどして直接送信する機能が普及してきている。

ところで、ＭＦＰ等の画像処理装置において取り扱う画像は白黒画像からカラー画像に移行しつつあるため、上記画像データはカラー画像データとなりつつある。ＭＦＰにおいて、いわゆるＡ４サイズと言われる２９７ｍｍ×２１０ｍｍのサイズのフルカラー原稿を解像度３００ｄｐｉでスキャンして得られるカラー画像データのサイズは、約２５ＭＢに達する。そのため、カラー画像データは、メールに添付して送信するにはサイズが大きすぎるという問題が発生してきている。

この問題を解決するために、スキャンして得られた画像データ（スキャンデータと略する）を圧縮してサイズダウンしてから送信することが一般的になされている。しかしながら、画像全体に対して同一の解像度でスキャンデータを圧縮すると、画像に含まれる文字の判読性が損なわれる。画像中の文字の判読性を確保できる程度の高い解像度で圧縮すると、スキャンデータのサイズダウンが十分にできないという問題がある。

この問題を解決するために、本願出願人が先に出願して公開されている特開２００４−３０４４６９号公報（特許文献１）において、画像中の領域ごとに異なる解像度や異なる圧縮方法でスキャンデータを圧縮する、いわゆるコンパクトＰＤＦ（Portable Document Format）化と言われる方法などの圧縮方法が提案されている。この方法によると、コンパクトＰＤＦは、（１）スキャンデータの領域を判別する処理を実行し、文字領域と文字以外の部分とを分離し、（２）文字領域に対して、高解像度のまま二値化処理し、同じ色の文字を統合して文字の色を決定して、ＭＭＲ（Modified Modified-Read）圧縮等の可逆圧縮し、（３）文字以外の部分に対して、解像度を下げてＪＰＥＧ（Joint Photographic Experts Group）圧縮等の非可逆圧縮し、（４）ＪＰＥＧレイヤとＭＭＲレイヤとを重ね合わせる、という手順で作成される。このようにして、文字判読性とデータの圧縮性を両立したＰＤＦファイルを生成することが出来る。

そして、コンパクトＰＤＦは上記の手順で生成されるため、コンパクトＰＤＦの生成においてはスキャンされた画像データから文字領域を正確に抽出することが重要となる。特に、複雑で多様な背景を含んだ画像から文字を抽出する際に問題となるのが、背景領域を間違えて文字として抽出してしまうことである。この問題を解決するために、文字が行単位にまとまって存在することが多いという特徴を活かし、画素が連結されて形成された矩形について、行らしさを基に文字判定を行う方法が挙げられている。

たとえば、特開平５−７３７１８号公報（特許文献２）に記載の領域属性識別方式では、文字領域内のすべての黒画素の連結状態を調べ、黒画素が連結しているかたまりに外接する矩形の座標を検出する。各外接矩形に対して最も近い外接矩形を検出してその位置関係を検出する。そして、水平方向につながっていれば水平方向結合カウンタを１つすすめ、垂直方向につながっていれば、垂直方向結合カウンタを１つすすめる。全ての外接矩形について処理が終了したら、水平方向結合カウンタと垂直方向結合カウンタの値を比較し、水平方向結合カウンタが多い場合は横書き領域と判定され、垂直方向結合カウンタが多い場合は縦書き領域と判定する。

また、特開平５−１６６０００号公報（特許文献３）に記載の文書画像の領域抽出方法では、領域画像作成処理により領域画像を作成し、その領域画像を用いてラベル画像作成処理によってラベル画像を作成する。文書画像作成処理では、ラベル画像から文字領域以外の領域を全て白にし、文字のみの文字画像を作成する。そして、隣接領域検索処理で、文字領域毎に上，下，左，右それぞれの最も近くに位置する文字領域を検索する。この結果を基に、書き方向結合処理で、文字領域の、行方向あるいは列方向の結合を行う。さらに、グループ化結合処理で書き方向が一致する複数の文字列を結合する。最後に領域統合処理で、グループ化結合処理で結合された文字領域を囲む最小の矩形領域を求めることにより文書画像の領域抽出を行う。

さらに、特開２００７−１９３７５０号公報（特許文献４）には、スキャン画像から、主に図形やグラフなどを含む図領域と、テキスト領域とを分離し、テキスト領域については、近傍の黒画素を連結して、黒画素が連結して得られた矩形単位で文字判定を行う画像処理装置が記載されている。この画像処理装置は、図領域については、黒画素の連結を行わずに、ラベリング処理を行って連続する黒画素の外接矩形を抽出し、その矩形単位で文字判定を行う。

このように、余白を抽出し、残った領域に対して画素を連結し行矩形を生成する行矩形形成方法が公知になっている。この余白抽出処理を行うと文字行と文字行の間（行間）が余白で分断されるため、行矩形の形成精度が良いことが知られている。そして、連結されて出来た矩形のアスペクト比が規定の値以上であれば、文字矩形と判定する文字領域判定方法も公知になっている。
特開２００４−３０４４６９号公報特開平５−７３７１８号公報特開平５−１６６０００号公報特開２００７−１９３７５０号公報

しかしながら、上記従来の行矩形形成方法では、周囲に文字行が無い文字行や、テキスト領域の端にあるような文字行の場合、単なる文字間をも余白と誤判定してしまうことがある。この誤判定によって文字行が分断されてしまい、画素の連結を行っても正確な文字行が形成されなかった。また、従来の文字判定方法では、背景領域にも縦長、横長の矩形が存在しているために、背景の一部分を文字として抽出してしまうことがあった。

本発明は前記問題点を解決するためになされたものであって、本発明の主たる目的は、複雑で多様な背景を含んだ画像からより正確に文字行矩形を生成するとともに、より正確に文字行矩形を特定する画像処理装置、当該画像処理装置を用いた文字領域特定方法、および文字領域特定プログラムを提供することである。

この発明のある局面に従えば、複数の画素からなる画像の中から文字領域を特定する画像処理装置であって、画像に基づいて２値画像を生成する生成手段と、２値画像から余白領域とそれ以外の非余白領域とを抽出する第１の抽出手段と、非余白領域内で膨張処理を行うことにより、少なくとも１つの第１の行矩形を生成する膨張手段と、第１の行矩形の形状に基づいて２値画像の文字行方向を判定する判定手段と、判定手段により判定された文字行方向に第１の行矩形同士を連結することによって第２の行矩形を生成する第１の連結手段と、２値画像における第２の行矩形に対応する領域に基づいて文字領域を特定する第１の特定手段とを備える。

この局面によれば、第１の連結手段が、周囲に文字行が存在しない文字行や、テキスト領域の端にある文字行からでも行矩形を生成する。このため、従来方法より正確に文字行矩形の形成ができ、文字領域の抽出精度が良くなる。

好ましくは、判定手段は、第１の行矩形のうち、その縦横比が第１の所定条件を満たす行矩形の個数と、その縦横比が第２の所定条件を満たす行矩形の個数と、を算出する算出手段と、２つの個数に基づいて２値画像の文字行方向を決定する第１の決定手段とを含む。

好ましくは、第１の特定手段は、第２の行矩形に含まれる少なくとも１つの小矩形を抽出する第２の抽出手段と、各第２の行矩形について、第２の行矩形の縦横比と小矩形の個数との関係が第３の所定条件を満たす場合に、第２の行矩形に対応する領域を文字領域として決定する第２の決定手段とを含む。

この場合には、第２の行矩形を抽出した後で、更に行矩形内の小矩形の情報を用いて行矩形が文字領域であるか否かの判定を行うため、従来より正確に文字領域の特定ができる。つまり、文字領域の抽出精度が良くなって、背景の誤抽出が少なくなる。

好ましくは、第１の特定手段は、第２の行矩形に含まれる少なくとも１つの小矩形を抽出する第２の抽出手段と、各第２の行矩形について、第２の行矩形のサイズと小矩形のサイズとの関係が第４の所定条件を満たす場合に、第２の行矩形に対応する領域を文字領域として決定する第３の決定手段とを含む。

好ましくは、第１の特定手段によって文字領域として特定された領域以外の第１の行矩形同士を、判定手段により判定された文字行方向と垂直な方向に連結することによって第３の行矩形を生成する第２の連結手段と、２値画像における第３の行矩形に対応する領域に基づいて文字領域を特定する第２の特定手段とをさらに備える。

好ましくは、生成手段は、画像から複数種類の２値画像を生成し、第１の抽出手段と、膨張手段と、判定手段と、第１の連結手段とは、各２値画像に対して処理を行い、特定手段は、それぞれの２値画像における第２の行矩形に対応する領域の和集合に基づいて文字領域を特定する。

この発明の別の局面に従えば、複数の画素からなる画像の中から文字領域を特定するための画像処理装置を用いた文字領域特定方法であって、画像処理装置は、制御部を備え、画像処理方法は、制御部が、画像に基づいて２値画像を生成するステップと、制御部が、２値画像から余白領域とそれ以外の非余白領域とを抽出するステップと、制御部が、非余白領域内で膨張処理を行うことにより、少なくとも１つの第１の行矩形を生成するステップと、制御部が、第１の行矩形の形状に基づいて２値画像の文字行方向を判定するステップと、制御部が、文字行方向に第１の行矩形同士を連結することによって第２の行矩形を生成するステップと、制御部が、２値画像における第２の行矩形に対応する領域に基づいて文字領域を特定するステップとを備える。

この発明のさらに別の局面に従えば、コンピュータに複数の画素からなる画像の中から文字領域を特定させるための文字領域特定プログラムであって、プログラムは、コンピュータに、画像に基づいて２値画像を生成するステップと、２値画像から余白領域とそれ以外の非余白領域とを抽出するステップと、非余白領域内で膨張処理を行うことにより、少なくとも１つの第１の行矩形を生成するステップと、第１の行矩形の形状に基づいて２値画像の文字行方向を判定するステップと、文字行方向に第１の行矩形同士を連結することによって第２の行矩形を生成するステップと、２値画像における第２の行矩形に対応する領域に基づいて文字領域を特定するステップとを実行させる。

以上のように、この発明によれば、複雑で多様な背景を含んだ画像からより正確に文字行矩形を生成するとともに、より正確に文字行矩形を特定することが可能になる。

以下に、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。

本実施の形態においては、本発明にかかる画像処理装置として代表的に、複写機能やスキャン機能やＦＡＸ送信機能などを統合したＭＦＰ（Multi Function Peripheral）であるものとする。但し、本発明にかかる画像処理装置はＭＦＰに限定されず、入力された画像データを処理する手段を備える装置であれば他の装置であってもよく、たとえば一般的なパーソナルコンピュータなどであってもよい。

＜ハードウェア構成＞
図１は、本実施の形態にかかるＭＦＰ１０のハードウェア構成の具体例を示す図である。図１を参照して、本実施の形態にかかるＭＦＰ１０は、複数の画素（画素データ）からなる画像（画像データ）を処理するものであって、スキャン処理部１と、入力画像処理部２と、記憶部３と、ＣＰＵ（Central Processing Unit）４と、ネットワークＩ／Ｆ（インタフェース）５と、出力画像処理部６と、エンジン部７と、モデム・ＮＣＵ（Network Control Unit）８と、操作部９とを含んで構成される。

スキャン処理部１は、ＣＰＵ４からの制御信号に従って、セットされた原稿をスキャンして読み取り、入力画像処理部２に対して画像データを出力する。入力画像処理部２は、上記制御信号に従って、スキャン処理部１から入力された画像データの各画素について、たとえばＲＧＢデータなどの値を算出し、ＣＰＵ４へ出力する、もしくは記憶部３へ記憶する。

記憶部３は、ＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）等の電子メモリと、ハードディスク等の磁気メモリとを含んで構成され、プログラムや画像データを保持する。記憶部３は、ＣＰＵ４においてプログラムが実行される際の作業領域としても用いられる。

ＣＰＵ４は、記憶部３に記憶されるプログラムを実行する。ＣＰＵ４は、操作部９から入力された操作信号に基づいて、必要な制御信号を各部に出力してＭＦＰ１０全体を制御する。たとえば、ＣＰＵ４は、操作キーの検出、操作パネルの表示、入力されたデータの画像ファイルへの変更、電子メールの作成などを実行する。そして、ＣＰＵ４は、記憶部３に記憶されるプログラムを実行し、記憶部３に保持される画像データに対して画像処理を施し、記憶部３、ネットワークＩ／Ｆ部５、またはモデム・ＮＣＵ８などに対して制御信号などを出力する。ＣＰＵ４は、入力画像処理部２から入力される画像データに対して、本実施の形態に従う色変換、色補正、解像度変換、領域特定等の処理を実行する。処理後のデータは記憶部３に保持される。

ネットワークＩ／Ｆ部５は、電子メール等を、ネットワークを介して他の装置に送信するためのＩ／Ｆであり、プロトコルに従って、データパケットの作成などを行う。ネットワークＩ／Ｆ部５は、上記制御信号に従って、ＣＰＵ４から入力された画像データ、または記憶部３から読出した画像データを、ネットワークを介して他の装置に送信する。

出力画像処理部６は、上記制御信号に従って記憶部３に保持される画像データを読出し、その画像に対してスクリーン制御、スムージング処理等を施し、処理後の画像データをエンジン部７に対して出力する。

エンジン部７は、上記制御信号に従って、出力画像処理部６から入力された画像データに基づいてトナー画像を生成し、トナー画像をセットされた印刷用紙に転写することで画像を印刷する。ここでＭＦＰ１０がカラー画像を出力するカラーＭＦＰである場合にはエンジン部７はイエロー、マゼンタ、シアン、ブラックの４色のトナーを用いてトナー画像を生成する。

モデム・ＮＣＵ８は、ファクシミリ送受信のための変復調、ファクシミリの通信プロトコルなどに従って電話回線を介した通信を制御する。モデム・ＮＣＵ８は、上記制御信号に従って、ＣＰＵ４から入力された画像データ、または記憶部３から読出した画像データを、電話回線を介して他の装置に送信する。

操作部９は操作キーと表示部とを含んで構成され、ユーザＩ／Ｆとして機能して、ユーザからの宛先の入力、スキャン条件の選択、画像ファイルフォーマットの選択、処理の開始／中断等の操作を受付ける。操作部９は、ユーザの操作に基づいた操作信号を、ＣＰＵ４に対して出力する。

＜機能構成＞
図２は、本実施の形態にかかるＭＦＰ１０において画像データの圧縮を行ってＰＤＦ（Portable Document Format）ファイルを作成するための機能構成の具体例を示すブロック図である。図２に示される各部は、主にＣＰＵ４が記憶部３に記憶されるプログラムを実行することによって実現される機能であるが、いくつかの機能がたとえばスキャン処理部１や入力画像処理部２などの他の専用のハードウェア構成によって実現されてもよい。

図２を参照して、本実施の形態にかかるＭＦＰ１０においてＰＤＦファイルを作成するための機能は、画像データ取得部１０１と、前処理部１０３と、写真判定部１０４と、文字領域特定部１０５と、可逆圧縮部１０７と、低解像度化部１０９と、非可逆圧縮部１１１と、ＰＤＦ化部１１３とを含んで構成される。

画像データ取得部１０１は、上記スキャン処理部１において生成された画像データを取得し、ＴＩＦＦ（Tagged Image File Format）、ＪＰＥＧ（Joint Photographic Experts
Group）、ＢＭＰ（Bit MaP）などのデータフォーマットで前処理部１０３に入力する。つまり、画像データ取得部１０１は、ＭＦＰ１０のスキャナ部分であり、原稿を読み取り、画像データを出力する部分である。

前処置部１０３は、画像データ取得部１０１から入力された画像データに対して、文字領域を特定するための前処理として、画像形式の変換、解像度変換、下地除去などの処理を施し、領域特定部１０５に入力する。また、前処理部１０３は、ＨＳＬ（色相、彩度、明度）変換、明度の２値化、ラベリングを行う。ラベリングでは明度の２値化で得られた連結画素に矩形番号、外接矩形の左上の座標、右下の座標を与え、矩形とする。

写真判定部１０４は、写真領域の判別を行う。写真領域を判別したい理由は、写真領域と写真領域以外の領域とで文字抽出処理の方法を変えるためである。写真領域から文字抽出を試みると文字でないものが文字であると誤判定されることが多く、写真領域においては文字の判定をより厳密に行う必要がある。ただし、写真領域の判定方法はここでは問わない。代表的には、前処理部１０３にて得られた矩形の内、写真の可能性があると判断された所定の大きさを有する矩形について、色相データを用いることにより、色数が多ければ写真であると判定する方法がある。

文字領域特定部１０５は、写真判定部１０４から入力された写真領域以外の領域の画像データに対して文字領域特定処理を施す。文字領域特定処理には、減色処理（２値化処理）、余白抽出処理、膨張処理、文字行方向判定処理、第１の連結処理、第１の文字行判定処理、第２の連結処理、文字色決定処理などが含まれる。文字領域特定部１０５はこのような文字領域特定処理を実行して、画像中の文字（文字および罫線）領域を抽出する。そして、文字領域特定部１０５は、文字領域と、文字領域以外の写真や図形やグラフなどの背景領域と、を分離する。ここでいう文字領域には、写真や図形やグラフなどのように図の中に存在する文字の領域も含まれる。つまり、文字領域特定部１０５は、写真領域以外の領域と写真領域とで異なる文字領域特定処理を施して文字領域を抽出するものであって、文字の色算出までを行う機能を有したブロックである。写真領域以外の領域上の文字領域特定処理については後述する。

分離された背景領域、すなわち文字領域と特定されなかった領域、を構成する画像データは低解像度化部１０９を経て非可逆圧縮部１１１に入力される。一方、文字領域と特定された領域を構成する画像データは低解像度化部１０９を経ることなく可逆圧縮部１０７に直接入力される。

可逆圧縮部１０７は、領域特定部１０５から入力された文字領域を構成する画像データに対して、ＭＭＲ（Modified Modified-Read）圧縮方式のような可逆性の圧縮を行う。また、非可逆圧縮部１１１は、低解像度化部１０９で低解像度化された背景領域を構成する画像データに対して、ＪＰＥＧ圧縮方式のような非可逆圧縮を行う。可逆圧縮部１０７および非可逆圧縮部１１１において圧縮された文字領域を構成する画像データおよび背景領域を構成する画像データはＰＤＦ化部１１３に入力され、これらに基づいてＰＤＦファイルが作成される。

なお、図２に示されるＭＦＰ１０の機能構成はＰＤＦファイルを作成する際に画像データのうち背景領域を構成する画像データについて解像度を低下させて非可逆圧縮する場合の構成であるが、背景領域を構成する画像データについて解像度を低下させずに非可逆圧縮してもよい。その場合、ＭＦＰ１０の機能には低解像度化部１０９が含まれていないくてもよい。

図３は、文字領域特定部１０５の機能構成を示す機能ブロック図である。図３に示すように、文字領域特定部１０５は、生成部１１と、第１の抽出部１２と、膨張部１３と、判定部１４と、第１の連結部１７と、第１の特定部１８と、第２の連結部２２と、第２の特定部２３とを含む。判定部１４は、算出部１５と、第１の決定部１６とを含む。前記第１の特定部１８は、第２の抽出部１９と、第２の決定部２０とを含む。また、前記第１の特定部１８は、第２の決定部２０の代わりに、もしくは第２の決定部２０とともに、第３の決定部２１を含むものであってもよい。ここで、文字領域特定部１０５を構成する各機能ブロックは、ＣＰＵ４が記憶部３から読み出されたプログラムを実行することによって実現されるものである。

生成部１１は、入力された画像データに基づいて２値画像のデータを生成する。入力された画像データは、ＭＦＰ１０がスキャンすることによって得た画像データであってもよいし、外部の装置からＭＦＰ１０へと入力される画像データであってもよい。本実施の形態に係る生成部１１は、画像データから複数種類の２値画像データを生成する。

より詳細には、生成部１１は、画像データを減色して、複数色の各々に対する２値画像を作成する。生成部１１は、画素データ毎に、当該画素データに対応する輝度値に基づいて２値画像データを生成する。生成部１１は、画像データについて、予め設定された輝度値のしきい値、もしくは対象となる画像データを一旦検査することによって決定された輝度値のしきい値に基づいて、当該画像データを構成する各画素データに対して「０」（白または黒）もしくは「１」（黒または白）を対応させて記憶部３に記憶させる。

複数種類の２値画像を生成することによって、いずれかの２値画像において文字色の輝度値と背景色の輝度値との間にしきい値が位置する場合に、当該２値画像において文字の画素データと背景の画素データとを「０」と「１」とに分離させることができる。同じ文字行の文字は同じ色であることが多いため、同じ色（白もしくは黒）に減色されることが多い。たとえば、本実施の形態に係るＭＦＰ１０においては、減色数を４色としている。減色するためしきい値を算出する方法は特には問わないが、頻度法や中央値分割法などがある。

第１の抽出部１２は、２値画像から余白領域とそれ以外の非余白領域とを抽出する。ここで、「余白領域」とは、黒画素が規定数以上無い（白画素が規定数以上続く）余白部分をいう。そして、「非余白領域」とは、画像データのうちで余白領域以外の領域をいう。

より詳細には、第１の抽出部１２は、生成部１１にて作成された各２値画像に対し、主走査方向および副走査方向に画像を走査して、黒画素が規定数以上無い（白画素が規定数以上続く）余白部分（余白領域）を抽出し、余白色（たとえば「０」）で塗り潰す。一方、白画素が規定数以上続かない非余白領域については、黒画素に対応する画素データを「１」としておく。規定数とは、例えば４．５ｃｍの長さに相当する画素数（３００ｄｐｉなら６００ｐｉｘｅｌ程度）である。この抽出処理により、後述する膨張部１３が、異なる文字行の文字同士を連結することを防ぐことができる。但し、当該抽出処理を行った結果、周囲に黒画素（「１」が対応させられている画素）が無いような文字行の場合、文字行が分断されてしまうことがある。具体的なイメージは後述する。

図４は、主走査方向への画素膨張を示すイメージ図である。「余白領域」は、図４において「−１」が対応付けられている画素からなる領域をいう。「非余白領域」は、図４において「０」または「１」が対応付けられている画素からなる領域をいう。

図４を参照して、画素膨張について説明する。膨張部１３は、第１の抽出部１２から渡される画像データ２０Ｍに基づいて、非余白領域内において黒画素（画素データが「１」となっている画素）の膨張処理を行うことにより、少なくとも１つの第１の行矩形を生成する。より詳細には、第１の抽出部１２にて余白領域と判断されなかった領域について、黒画素を膨張して黒画素同士連結を行う。ここでの黒画素の膨張処理は、ＣＰＵ４が、入力された周辺画素マップ（画像データ）２０に基づいて、主走査方向の近隣画素を確認することにより画素を左右方向へ膨張させた後の周辺画素マップ（画像データ）２０Ｌ，２０Ｒを作成する。ここで、画像データ２０Ｌとは、左方向へ膨張処理が施された後の画像データをいう。画像データ２０Ｒとは、右方向へ膨張処理が施された後の画像データをいう。

具体的には、ＣＰＵ４が、以下の処理を主走査方向の各ラインにて主走査方向に移動しながら行う。（１）ＣＰＵ４は注目画素の値を検査する。注目画素が余白画素として塗り潰されている場合は、当該左右方向へ膨張させた後の周辺画素マップの当該注目画素を「−１」とする。（２）余白画素でない場合（白画素および黒画素）、たとえば注目画素から左側（画素を右方向へ膨張させる場合）へ最大文字幅の２分の１ピクセル以内に黒画素があるかどうかを検査する。ここで、最大文字幅とは、たとえば１９０ピクセルなどである。

もし黒画素がある場合には、右方向へ膨張させた後の周辺画素マップの注目画素の値を「１」とする。そして、黒画画素が無い場合は０とする。但し、途中で余白画素が見つかったらそれ以上の探索を行わない。このようにして、膨張部１３は、各注目画素に対して左側に探索をおこない、すなわち黒画素については右方向へ膨張するような処理を行って画像データ２１Ｒを生成する。膨張部１３は、同様の処理を右側に対しても行って画像データ２１Ｌを生成する。このようにして、全ての画素について周辺画素マップが完成する。

図５は、図４に示す右方向へ膨張後の画像データ２１Ｒの副走査方向への画素膨張を示すイメージ図である。図５に示すように、膨張部１３は、画像データ２１Ｒについて副走査方向に周辺画素マップの連結を行い、画像データ２２Ｒを生成する。より詳細には、膨張部１３は、（１）各Ｘ座標についてＹ方向へ走査し、第１の所定の間隔（本実施の形態においては１画素）以内に存在する「１」の画素同士を連結する。すなわち、膨張部１３は、「１」の画素データと「１」の画素データの間の「０」の画素データを「１」の画素データで満たしてしまう。主走査方向への膨張と同様に、「−１」である画素データについては変更を行わない。

図６は、図４に示す左方向へ膨張後の画像データ２１Ｌの副走査方向への画素膨張を示すイメージ図である。図６に示すように、膨張部１３は、画像データ２１Ｒについて副走査方向への画素を膨張させた後、画像データ２１Ｌについても同様に副走査方向へ画素を膨張させる。

図７は、図５および図６に示す左右方向へ膨張後の画像データ２２Ｌ，２２Ｒの黒画素の和集合を示すイメージ図である。膨張部１３は、画像データ２１Ｒ・２１Ｌの副走査方向への画素膨張の後、（２）注目画素に対応する左側の膨張後の画像データ２２Ｌと右側の画素膨張後の画素データ２２Ｒとについて、いずれかの画像データ２２Ｌ，２２Ｒの周辺画素マップの値が「１」であるか否かを検査する。すなわち、膨張部１３は、図７に示すように、画像データ２２Ｌ，２２Ｒを重ね合わせて、左右の画素データ２２Ｌ，２２Ｒのいずれかが「１」である場合には、当該画素は横方向（主走査方向）の文字行の一部であると判断し黒に塗り潰す。

その後、膨張部１３は、画像データ２０Ｍを９０度回転させてから、上記と同様の、主走査方向への画素膨張および副走査方向への画素膨張の処理を行い、垂直方向の文字行を連結させる。

具体的には、図８に示すように、膨張部１３は、９０度回転された画像データ３０に基づいて、各画素に対して左側に探索をおこない、すなわち右方向へ黒画素を膨張させる処理を行って画像データ３１Ｒを生成する。そして、膨張部１３は、同様の処理を各画素の右側に対しても行って、左方向へ画素膨張させた画像データ３１Ｌを生成する。

そして、膨張部１３は、図９に示すように、右方向へ膨張させた画像データ３１Ｒについて副走査方向に画素の連結を行い、画像データ３２Ｒを生成する。図１０に示すように、膨張部１３は、画像データ３１Ｌについても同様に、副走査方向への画素膨張を行い、画像データ３２Ｌを生成する。そして、図１１に示すように、膨張部１３は、注目画素に対応する右方向への画素膨張後の画像データ３２Ｒと左方向への画素膨張後の画素データ３２Ｌとについて、いずれかの画像データ３２Ｌ・３２Ｒの画素データの値が「１」であるか否かを検査する。そして、膨張部１３は、図１１に示すように、左右の画像データ３２Ｌ・３２Ｒのいずれかが「１」である場合には、当該画素は横方向の文字行の一部であると判断し黒に塗り潰す。

図３に戻って、判定部１４は、第１の行矩形の形状に基づいて２値画像の文字行方向を判定する。具体的には、算出部１５が、第１の行矩形のうち、その縦横比が第１の所定条件を満たす行矩形の個数と、その縦横比が第２の所定条件を満たす行矩形の個数と、を算出する。そして、第１の決定部１６が、当該２種類の個数に基づいて２値画像の文字行方向を決定する。より詳細には、判定部１４は、文字行矩形の形成が完全でない文字行に基づいてより正確な文字行矩形を生成するために、水平／垂直のどちらの方向へ黒画素を再連結させれば良いかを判断する。

具体的には、まず、算出部１５が、膨張部１３にて形成された第１の行矩形の中で、縦横比（アスペクト比）が第１の所定値（例えば３）以上の矩形を探索する。そして、算出部１５は、第１の行矩形の中で、縦横比（アスペクト比）が第２の所定値（例えば１／３）以下の矩形を探索する。次に、縦横比が規定値以上の矩形を文字行であるとみなして、画像全体として縦に長い文字行矩形と横に長い文字行矩形とのいずれの文字行矩形が多いかを判定して、画像全体としての文字行の方向を決定する。

第１の連結部１７は、判定部１４により判定された文字行方向に第１の行矩形同士を連結することによって第２の行矩形を生成する。より詳細には、第１の連結部１７は、膨張部１３にて画素が膨張されることによって形成された文字行矩形（黒画素）同士を、判定部１４にて判定された文字行方向に再度連結させる。これにより、第１の連結部１７は、第１の抽出部１２にて余白領域として判定されてしまった文字行内の文字間などを繋げて正確な文字行矩形を生成させるものである。その際、今度は余白領域（「−１」の画素データ）をまたいで黒画素を連結させても良いとする。この処理により、すべての文字行について行矩形を生成することが可能となる。

図１２は、画像データの回転を示すイメージ図である。ここで、文字行方向が水平方向の場合には、以下の処理が実行される。（１）第１の連結部１７は、まず画像データ４０を９０度回転させて、画像データ５０を得る。そして、（２）第１の連結部１７は、注目画素の値を検査する。

図１３は、図１２に示す画像データに対する膨張処理を示すイメージ図である。図１３に示すように、余白画素として塗り潰されている場合は左右の周辺画素マップを「−１」とする。余白画素でない場合（白画素「０」か黒画素「１」の場合）、注目画素から左側へ最大文字幅（たとえば１９０ピクセル）の２分の１ピクセル以内に黒画素があるかどうかを検査する。もし黒画素がある場合には、左周辺画素マップの値を「１」とする。黒画素がない場合は「０」とする。但し、途中で余白画素が見つかったらそれ以上の探索を行わない。このようにして、第１の連結部１７は、右方向への膨張後の画像データ５０Ｒを取得する。図１３に示すように、第１の連結部１７は、各画素について上記と同様の処理を右側に対しても行い、すなわち黒画素を左方向へ膨張させて画像データ５０Ｌを得る。全ての画素について周辺画素マップが完成する。

図１４は、図１３に示す第１の文字行矩形（黒画素）同士の第１の連結処理を示すイメージ図である。（２）の処理に引き続き、図１４に示すように、（３）第１の連結部１７は、各Ｘ座標についてＹ方向へ走査し、第２の所定の間隔（本実施の形態においては３画素）以内に存在する「１」を連結する。ここで、第２の所定の間隔は、膨張処理における第１の所定の間隔よりも広い間隔が指定されている。また、膨張処理における連結とは異なり、余白画素「−１」であっても１で埋めてしまう。

最後に、（４）第１の連結部１７は、注目画素に対応する左右方向へ膨張した画像データ５１Ｌ・５１Ｒについて周辺画素マップの値が「１」であるかを検査し、左右方向へ膨張した画像データ５１Ｌ・５１Ｒのいずれかが「１」である場合には、当該画素は横方向の行の一部であると判断し、当該画素を黒に塗り潰す。すなわち、画像データ５１Ｌ・５１Ｒを重ね合わせて、第１の文字行矩形（黒画素）の和集合を算出する。これによって、図１４に示すように、文字行内の文字間に存在した余白が黒画素に塗りつぶされて、より正確な文字行矩形が形成される。

図１５は、図１４に示す画像データに膨張処理のみを行った画素データ５０Ｌ・５０Ｒを重ね合わせて得られた画素データ６１を示すイメージ図である。参考のために、図１５に示すように、膨張処理のみを行った画素データ５０Ｌ・５０Ｒを重ね合わせて得られた画素データ６１においては、黒画素の連結が不十分であって、正確な文字行が生成されていないことがわかる。すなわち、図１４では文字間の余白領域が「１」で埋められているが、図１５では文字間の余白領域が「−１」のままであり正確な文字行矩形が形成されていないことがわかる。

一方、文字行方向が垂直方向の場合には、画像を回転させずに上記の処理を行うものとする。

膨張部１３は、膨張処理を行ったのちの黒画素を含む矩形領域（第１の行矩形）の四隅の座標を取得することによって、第１の行矩形の位置座標やサイズや形状を特定する。同様に、第１の連結部１７は、連結処理を行ったのちの黒画素を含む矩形領域（第２の行矩形）の四隅の座標を取得することによって、第２の行矩形の位置座標やサイズや形状を特定する。

図３に戻って、特定部１８は、２値画像における第２の行矩形に対応する領域に基づいて文字領域を特定する。第２の抽出部１９は、第２の行矩形に含まれる少なくとも１つの小矩形を抽出する。第２の決定部２０は、各第２の行矩形について、第２の行矩形の縦横比と小矩形の個数との関係が第３の所定条件を満たす場合に、２値画像における第２の行矩形に対応する領域を文字領域として決定する。第３の決定部２１は、各第２の行矩形について、第２の行矩形のサイズと小矩形のサイズとの関係が第４の所定条件を満たす場合に、２値画像における第２の行矩形に対応する領域を文字領域として決定する。

より詳しくは、始めに、特定部１８の第２の抽出部１９は、第１の連結部１７によって形成された第２の行矩形から、行矩形の特徴的形状、たとえばアスペクト比に基づいて文字行候補矩形を抽出する。すなわち、第２の抽出部１９は、文字行方向に長く且つアスペクト比が規定値以上（例えば３）の矩形を文字行候補矩形として抽出する。次に、特定部１８の第２の決定部２０が、抽出された文字行候補矩形内に含まれる小矩形の数を調べる。そして、第２の決定部２０は、文字行候補矩形のアスペクト比と、文字行候補矩形の中に含まれる小矩形の数の組が文字行らしい値であるかによって文字行候補矩形を文字行矩形と背景の一部矩形とに分類し、文字判定を行う。次に、特定部１８の第３の決定部２１が、抽出された文字行候補矩形内に含まれる、小矩形の数、小矩形のサイズも調べる。そして、第３の決定部２１は、文字行候補矩形のアスペクト比と、文字行候補矩形の中に含まれる小矩形の数の組が文字行らしい値であるか、小矩形の大きさが同一サイズであるかによって文字行候補矩形を文字行矩形と背景の一部矩形とに分類し、文字判定を行う。

図１６は、特定部１８における文字領域であるか否かの判断方法を示すイメージ図である。図１６（ａ）に示すように、第２の行矩形の縦横比（Ｘ／Ｙ）と第２の行矩形に含まれる小矩形の個数との関係が第３の所定の条件を満たしており、かつ、第２の行矩形の縦横比（Ｘ／Ｙ）と第２の行矩形に含まれる小矩形のサイズとの関係が第４の所定の条件を満たしている場合には、特定部１８は第２の行矩形を文字領域と判断する。

一方、図１６（ｂ）に示すように、第２の行矩形のサイズと第２の行矩形に含まれる小矩形のサイズとの関係、たとえば第２の行矩形の高さ（縦幅）と小矩形の長さ（横幅）との関係、が第４の所定の条件を満たしていない場合には、特定部１８は第２の行矩形を文字領域でないと判断する。具体的には、第２の行矩形の高さに対する小矩形の長さの割合が１以上である場合に文字領域でないと判断する。また、具体的には、第２の行矩形に含まれる小矩形のサイズにばらつきが大きい、すなわち縦幅もしくは横幅の標準偏差が所定値以上である場合に当該第２の行矩形は文字領域でないと判断する。

また、図１６（ｃ）に示すように、第２の行矩形の縦横比（Ｘ／Ｙ）と第２の行矩形に含まれる小矩形の個数との関係が第３の所定の条件を満たしていない場合、たとえば縦横比が１０である場合において、小矩形の個数が１０未満である場合（縦横比に対する小矩形の個数の割合が１未満である場合）や、小矩形の個数が５０以上である場合（縦横比に対する小矩形の割合が５以上である場合）には、特定部１８は第２の行矩形を文字領域でないと判断する。

上記の判断によって、第２の行矩形のうちから文字行である可能性が高い行矩形が特定される。つまり、文字行矩形の特定がより正確になって、文字行の誤抽出が少なくなる。

第２の連結部２２は、特定部１８によって文字領域として特定された領域以外の前記第１の行矩形同士を、判定部１４により判定された文字行方向と垂直な方向に連結することによって第３の行矩形を生成する。つまり、第２の連結部２２は、文字行と垂直方向への連結を行う。ここでは、２値画像から特定部１８にて文字領域と判定された行矩形エリアを省いた画像について、規定しきい値範囲のサイズを持った第１の矩形毎に、判定部１４にて判定された文字行方向と垂直な方向に同一のサイズ（文字幅）の矩形があるかを判定し、同一サイズの矩形を順次連結を行うことで、再度新たな文字方向へ向かって行矩形を生成する。この処理を含めることにより、縦横両方向に文字行が含まれているような画像であっても文字領域をより正確に抽出することが可能である。

そして、第２の特定部２３は、前記２値画像における第３の行矩形に対応する領域に基づいて文字領域を特定する。そして、上記の各部は、生成された各２値画像に対して処理を行い、第１の特定部１８および第２の特定部２３は、それぞれの前記２値画像における前記第２の行矩形に対応する領域の和集合に基づいて文字領域を特定する。

文字色決定部は、ここでは、文字と判定された部分の色を決定する。決定方法は、各文字行内のＲＧＢ値をそれぞれ平均して算出する。

＜ＰＤＦ化処理＞
図１７は、本実施の形態にかかるＭＦＰ１０において画像データの圧縮を行ってＰＤＦファイルを作成する処理手順を示すフローチャートである。図１７のフローチャートに示される処理は、主にＣＰＵ４が記憶部３に記憶されるプログラムを実行して図２および図３に示される各部を制御することで実現される処理である。

すなわち、図１７を参照して、本実施の形態にかかるＭＦＰ１０においては、まず画像データ取得部１０１において画像データが取得される（ステップ１００、以下ステップをＳと略す。）。そして、取得された画像データに対して、前処理部１０３での前処理を経てから領域特定部１０５において領域特定処理が施される（Ｓ３００）。画像データにはその判別結果に応じて領域ごとに適した圧縮処理が行われて、ＰＤＦ化部１１３においてＰＤＦ化処理が実行されることで（Ｓ５００）、その画像データが圧縮されてＰＤＦファイルが作成される。

すなわち、Ｓ５００では、Ｓ３００において文字領域と判定された領域を構成する画像データについては、解像度を低下させずに可逆圧縮部１０７でＭＭＲ圧縮方式のような可逆圧縮処理が施される。また、Ｓ３００において背景領域と判定された領域を構成する画像データについては、Ｓ５００において、低解像度化部１０９で解像度を低下させるように解像度変換された後に非可逆圧縮部１１１でＪＰＥＧ圧縮方式のような非可逆圧縮処理が施される。なお、Ｓ５００において、背景領域と判定された領域を構成する画像データについて解像度を低下させずに非可逆圧縮処理が施されてもよい。

上記Ｓ５００でのＰＤＦ化処理については、上述したような、いわゆるコンパクトＰＤＦファイルを作成する一般的な処理が採用され、本発明において限定される処理ではない。以下においては、本発明の特徴とする領域特定処理（Ｓ３００）の処理手順について詳細に説明する。

＜文字領域特定処理＞
図１８は、文字領域特定処理Ｓ３００の処理手順を示すフローチャートである。図１８を参照して、ＣＰＵ４もしくは入力画像処理部２は、まず、入力された画像データに対して、２値画像生成処理を行う（Ｓ３１０）。より詳細には、ＣＰＵ４もしくは入力画像処理部２は、入力された画像データに対して、減色処理を施してから、複数種類のしきい値に基づいて２値化処理を施す（Ｓ３１０）。ここでの２値画像生成処理においては、ＣＰＵ４もしくは入力画像処理部２が、１つの画像データに対して、複数種類の色毎に２値画像を生成する。本実施の形態に係るＭＦＰ１０においては、記憶部３に記憶された図１９に示すカラーの画像に基づき、ＣＰＵ４もしくは入力画像処理部２が、４種類のしきい値に基づいて、図２０（ａ）から図２０（ｄ）に示す４種類の２値画像を生成する。そして、余白領域抽出処理Ｓ３２０へと移行する。

図２１は、余白領域抽出処理Ｓ３２０の処理手順を示すフローチャートである。図２１に示すように、ＣＰＵ４が、対象領域について、主走査方向（ｘ方向）に連続する文字を構成していない画素としての特定色の画素（ここでは白画素）の数をカウントし、規定数以上連続する白画素を検出すると、その連続する白画素を特定の色にて塗りつぶす（Ｓ３２１）。なお、ここでは文字を構成していない画素が具体的に白画素である特定色の画素であるものとされているが、対象となる画素の色は限定されていなくてもよく、たとえば文字を構成する画素色以外の色の画素等であってもよい。

同様に、副走査方向について、規定数以上連続する白画素が検出され、さらにその白画素の連続に対して主走査方向の連続数がチェックされる（Ｓ３２２）。上記規定数もまた同様に決定されるものであるが、具体的には、主走査方向に２ｄｏｔ、副走査方向に１５０ｄｏｔ以上などが挙げられる。そして、図１８に戻って、膨張処理Ｓ３３０へと移行する。

図２２は、膨張処理Ｓ３３０の処理手順を示すフローチャートである。図２２に示すように、膨張処理Ｓ３３０においては、文字を構成する特定色の画素（ここでは黒画素とする）が膨張され近傍の画素が連結される。なお、ここでは文字を構成する画素が具体的に黒画素である特定色の画素であるものとされているが、対象となる画素の色は限定されていなくてもよく、たとえば背景を構成する画素色以外の色の画素等であってもよい。

図２２を参照して、まず、近傍の画素として、具体的には対象領域の主走査方向について所定の距離以下で隣合う黒画素が検出される（Ｓ３３１）。より詳しくは、画像を主走査方向（ｘ方向）に走査して、あるｘ座標について、そのｘ座標位置の左右最大文字幅（たとえば１９０ｐｉｘｅｌ）の１／２の範囲について黒画素が探索され、黒画素が検出されたそのｙ座標における配列値が１とされて、ｙ座標が０から画像高さから１減じた座標値までについて、順次ｙ方向に、黒画素の探索が繰り返される。

ただし、途中で行間が検出された場合には、それ以上のｙ方向の探索が行われない。さらに、上記あるｘ座標について生成された配列が走査され、配列値０の連続が規定数以下である場合にはその連続の配列値を１に書換えられる。なお、本実施の形態においては、近傍の画素を検出する方法として画素の間隔が所定の距離以下であるか否かで検出する方法が示されているが、その他の方法で近傍の画素が検出されてもよい。

次に、副走査方向（ｙ方向）に黒画素が膨張される（Ｓ３３２）。より詳しくは、画像が主走査方向（ｘ方向）に走査されてあるｘ座標についてｙ方向に走査され、黒画素が探索される。そして、検出された黒画素の上下最大文字幅（たとえば１９０ｐｉｘｅｌ）の１／２の範囲について、そのｘ座標について生成された配列の配列値が１であるならば、その範囲にある白画素が黒に塗りつぶされる。

次に、対象領域が９０度回転され（Ｓ３３３）、同様に、主走査方向について所定の距離以下で隣り合う黒画素が検出されて（Ｓ３３４）、副走査方向にそれらの黒画素が膨張される（Ｓ３３５）。図２３は、回転前の膨張処理後の画像と、回転後の膨張処理後の画像とを重ね合わせて、第１の行矩形の和集合を取得した状態の画像データを示すイメージ図である。その後、図１８に戻って、文字行方向判定処理Ｓ３４０が実行される。

図２４は、文字行方向判定処理Ｓ３４０の処理手順を示すフローチャートである。図２４に示すように、ＣＰＵ４は、上述の処理によって連結された黒画素群を囲む最小矩形領域を得るためにラベリングを行い、当該ラベリングによって得られた連結された文字を囲む最小矩形の座標値を取得する（Ｓ３４１）。なお、ここでのラベリング方法は一般的な方法を採用するものとする。

次に、上記ラベリングで得られた矩形領域ごとに、短辺の長さ、短辺と長辺との長さの比率を算出し、所定条件を満たす矩形のみを抽出する（Ｓ３４２）。画像全体として縦長と横長の矩形数をカウントする（Ｓ３４３）。そして、縦長の矩形と横長の矩形とどちらが多いかを判断する（Ｓ３４４）。縦長の矩形の方が多い場合（Ｓ３４４にてＹＥＳの場合）、文字行を縦方向に決定する（Ｓ３４５）。縦長の矩形の方が多くない場合（Ｓ３４４にてＮＯの場合）、文字行を横方向に決定する（Ｓ３４６）。その後、図１８に戻って、第１の連結処理Ｓ３５０が実行される。

図２５は、第１の連結処理Ｓ３５０の処理手順を示すフローチャートである。図２５に示すように、ＣＰＵ４は、判定処理において判定された文字行方向に第１の行矩形同士を連結することによって第２の行矩形を生成する。より詳細には、ＣＰＵ４は、まず黒画素を左右方向へ膨張させて画像データを取得する（Ｓ３５１）。そして左右の画像データを重ね合わせて、黒画素の和集合を算出したのちに、文字方向に向かって第２の所定の間隔以内に存在する「１」を連結する（Ｓ３５２）。ここで、第２の所定の間隔は、膨張処理における第１の所定の間隔よりも広い間隔が指定されている。また、膨張処理における連結とは異なり、文字間が余白画素「−１」であっても文字画素「１」によって埋める。その後、図１８に戻って、第１の文字判定処理Ｓ３６０が実行される。

図２６は、第１の文字判定処理Ｓ３６０の処理手順を示すフローチャートである。図２６に示すように、ＣＰＵ４は、矩形領域ごとに、短辺の長さと、短辺と長辺との長さの比率とを算出し、所定条件を満たす第２の行矩形のみを抽出する（Ｓ３６１）。ＣＰＵ４は、第２の行矩形に含まれる少なくとも１つの小矩形を抽出する（Ｓ３６２）。ＣＰＵ４は、各第２の行矩形について、第２の行矩形の縦横比と小矩形の個数との関係が第３の所定条件を満たす場合に、第２の行矩形に対応する領域を文字領域として決定する（Ｓ３６３）。加えて、ＣＰＵ４は、各第２の行矩形について、第２の行矩形のサイズと小矩形のサイズとの関係が第４の所定条件を満たす場合に、第２の行矩形に対応する領域を文字領域として決定してもよい。

図２７は、文字行方向への第１の連結処理後の画像を示すイメージ図である。図２６および図２７に示すように、膨張後の画像の第１の行矩形と比較して、連結後の画像の第２の行矩形には、文字行内に余白が混在する箇所が無くなっている。つまり、より正確な文字行領域が取得されている。その後、図１８に戻って、第２の連結処理Ｓ３７０が実行される。

図２８は、第２の連結処理Ｓ３７０の処理手順を示すフローチャートである。図２８に示すように、ＣＰＵ４は、特定部１８によって文字領域として特定された領域以外の領域において、上述の処理によって連結された黒画素群を囲む矩形領域を得るためにラベリングを行い、当該ラベリングによって得られた連結された文字を囲む最小矩形の座標値を取得する（Ｓ３７１）。なお、ここでのラベリング方法は一般的な方法を採用するものとする。次に、上記ラベリングで得られた矩形領域ごとに、短辺の長さ、短辺と長辺との長さの比率を算出し、所定条件を満たす矩形のみを抽出する（Ｓ３７２）。ここで、ＣＰＵ４は、当該所定条件を満たす矩形を判定された文字行方向と垂直な方向に連結することによって第３の行矩形を生成してもよい。そして、ＣＰＵ４は、第１の文字判定処理Ｓ３６０と同様に、２値画像における第３の行矩形に対応する領域に基づいて文字領域を特定する。

その後、図１８に戻って、全ての２値画像に対して処理が完了したか否かが判断される（Ｓ３８０）。全ての２値画像に対して処理が完了していない場合（Ｓ３８０にてＮＯの場合）、次の２値画像に対してＳ３２０からＳ３７０の処理が繰り返される。一方、全ての２値画像に対して処理が完了した場合（Ｓ３８０にてＹＥＳの場合）、文字色決定処理Ｓ３９０が実行する。

図２９は、文字色決定処理の処理手順を示すフローチャートである。図２９に示すように、文字領域に対応する元画像の色データ（ＲＧＢデータ）が参照されて、文字の色が決定される。ＣＰＵ４が、文字領域と判定された第２の行矩形毎に、すなわちＲＧＢデータの平均値が算出されて（Ｓ３９１）、１つの文字領域に対して１色が割当てられる（Ｓ３９２）。なお、文字領域と判定され隣り合う２つの矩形領域の間隔が所定の間隔以下であり、それらの矩形領域に割当てられた色の差が所定値以下である場合、これらの矩形領域を統合してもよい。このようにすることが文字領域である矩形領域の数を減らすことができ、作成されるＰＤＦデータのサイズを小さくすることができる。また、作成処理の速度を早めることができる。

以上のようにして、全ての２値画像に対して処理が完了して、コンパクトＰＤＦデータ作成における領域特定処理Ｓ３００が終了する。図３０は、コンパクトＰＤＦデータ作成前の最終的な文字領域の画像を示すイメージ図である。

上述のように、本実施の形態にかかる領域特定処理では、原稿に含まれるテキスト領域と図領域とについて文字判定処理を分岐し、テキスト領域については従来からなされている黒画素が連結された矩形単位で文字判定がなされるのに対して、図領域については黒画素が連結されることなくラベリングで得られた矩形領域ごとに文字判定がなされる。

このように図領域内では黒画素を連結しないことによって、図領域にある文字近傍に多く存在すると考えられる線や点が文字を構成する画素と連結されて、文字判定の精度を低下させることが防止される。その結果、図領域中の文字領域が高精度で判定される。また、図領域とテキスト領域とを分けてテキスト領域について従来からなされている文字判定を行うことで、処理速度も確保される。

＜まとめ＞
以下、本実施の形態に係る画像処理装置（ＭＦＰ１０）についての特徴をまとめる。本実施の形態に係る文字行矩形の形成方法は、一度連結を行って行単位に形成された矩形群の情報（縦長の矩形か横長の矩形か）を用い、文字間に余白があると判定してしまった文字行を縦方向か横方向のどちらに最連結を行えば良いか文字行方向を決定し、再度、連結処理を行うことで、正確に行矩形を生成する。また、画像全体を見たときの文字行方向と垂直な方向の文字行を正確に抽出するために、画像全体で見たときの文字行方向と垂直な方向に走査し、規定しきい値以上のサイズを持った矩形について、垂直方向に同一サイズの矩形があるかを判定し、同一サイズの矩形があれば順次連結を行うことで、行矩形を生成する。

そして、本実施の形態に係る文字を判定する方法として、形成された矩形の中からアスペクト比が規定値以上の文字行らしい矩形を抽出した後で、行矩形内に含まれる小矩形（文字単位に相当）の大きさにばらつきがあるような行矩形は、背景の一部分であると判定することで、正確に文字を判定する。また、行矩形内に含まれる小矩形（文字単位に相当）の数と行矩形のアスペクト比の組について、行矩形のアスペクト比に対し、小矩形数が少なすぎたり多すぎたりした矩形は、背景の一部分であると判定することで、正確に文字を判定する。

具体的には、上記の目的を達成するための本実施の形態に係るＭＦＰ１０は以下の機能を実現する構成を備えている。（１）スキャンされた画像を減色し、色毎に２値画像を作成する（文字と文字周辺の背景を分離することを目的とする。）。（２）作成された各画像に対し、主走査方向、副走査方向に画像を走査し、黒画素が全くない余白部分を抽出する。（３）残った各領域に対して、画素を膨張して連結を行う。（４）連結した矩形の中で、縦横比が規定値以上（例えば3）の矩形を行塊となっている矩形とみなし、画像全体として縦横のどちらに長い矩形が多いか、文字行の方向を判定する。（５）求まった方向（文字行方向）について、再度、画素を膨張して連結を行い、文字間に余白が抽出され文字行を形成できなかった文字から文字行を形成する。このとき、上記（２）において余白として抽出された領域をまたいでも良い。（６）連結して出来た矩形から、アスペクト比が規定値（例えば３）以上の矩形を文字行候補矩形として抽出する。（７）抽出された文字行候補矩形内に含まれる、小矩形の数、小矩形のサイズを調べる。（８）文字行候補矩形のアスペクト比と、文字行候補矩形の中に含まれる小矩形の数の組が文字行らしい値であるか、小矩形の大きさが同一サイズであるかによって文字行候補矩形を文字行矩形と背景の一部矩形とに分類し、文字判定を行う。（９）文字行方向と垂直な方向について、（２）にて出来た画像から文字と判定された矩形を省いた各画像について走査し、規定しきい値範囲のサイズを持った矩形について、垂直方向に同一サイズの矩形があるかを判定し、同一サイズの矩形があれば順次連結を行うことで、行矩形を生成する。

＜その他の実施の形態＞
なお、本実施の形態ではＰＤＦファイルを作成する前の画像処理としての文字判定処理に適用した場合を示しているが、本発明はこれに限定されることなく、たとえばＯＣＲ（Optical Character Reader）のような文字認識処理の前処理として文字を誤認識しないように文字判定する処理にも適用できる。

さらに、本実施の形態にかかるＭＦＰ１０で実行される文字判定処理を、ＣＰＵ４を有するコンピュータに実行させるための文字判定プログラムを提供することもできる。このようなプログラムは、コンピュータに付属するフレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）およびメモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。あるいは、コンピュータに内蔵するハードディスクなどの記録媒体にて記録させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。

なお、本発明にかかる文字判定プログラムは、コンピュータのオペレーションシステム（ＯＳ）の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して情報管理処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずＯＳと協働して情報管理処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかる文字判定プログラムに含まれ得る。

提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストール
されて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記録された記録媒体とを含む。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本実施の形態にかかるＭＦＰのハードウェア構成の具体例を示す図である。ＰＤＦファイルを作成するための機能構成を示すブロック図である。文字領域特定部の機能構成を示す機能ブロック図である。主走査方向への画素膨張を示すイメージ図である。右方向へ膨張後の画像データの副走査方向への画素膨張を示すイメージ図である。左方向へ膨張後の画像データの副走査方向への画素膨張を示すイメージ図である。左右方向へ膨張後の画像データの黒画素の和集合を示すイメージ図である。回転後の主走査方向への画素膨張を示すイメージ図である。回転後の右方向へ膨張後の画像データの副走査方向への画素膨張を示すイメージ図である。回転後の左方向へ膨張後の画像データの副走査方向への画素膨張を示すイメージ図である。回転後の左右方向へ膨張後の画像データの黒画素の和集合を示すイメージ図である。画像データの回転を示すイメージ図である。膨張処理を示すイメージ図である。第１の文字行矩形（黒画素）同士の第１の連結処理を示すイメージ図である。膨張処理のみを行った画素データを重ね合わせて得られた画素データを示すイメージ図である。特定部における文字領域であるか否かの判断方法を示すイメージ図である。ＰＤＦファイルを作成する処理手順を示すフローチャートである。文字領域特定処理の処理手順を示すフローチャートである。入力されるカラー画像の一例を示す図である。２値画像を示すイメージ図である。余白領域抽出処理の処理手順を示すフローチャートである。膨張処理の処理手順を示すフローチャートである。回転前の膨張処理後の画像と、回転後の膨張処理後の画像とを重ね合わせて、第１の行矩形の和集合を取得した状態の画像データを示すイメージ図である。文字行方向判定処理の処理手順を示すフローチャートである。第１の連結処理の処理手順を示すフローチャートである。第１の文字判定処理の処理手順を示すフローチャートである。文字行方向への第１の連結処理後の画像を示すイメージ図である。第２の連結処理の処理手順を示すフローチャートである。文字色決定処理の処理手順を示すフローチャートである。コンパクトＰＤＦデータ作成前の最終的な文字領域の画像を示すイメージ図である。

符号の説明

１スキャン処理部、２入力画像処理部、３記憶部、４ＣＰＵ、５ネットワークＩ／Ｆ、６出力画像処理部、７エンジン部、８モデム・ＮＣＵ、９操作部、１０画像処理装置（ＭＦＰ）、１１生成部、１２第１の抽出部、１３膨張部、１４判定部、１５算出部、１６第１の決定部、１７第１の連結部、１８第１の特定部、１９第２の抽出部、２０第２の決定部、２１第３の決定部、２２第２の連結部、２３第２の特定部、１０１画像データ取得部、１０３前処理部、１０５領域特定部、１０７可逆圧縮部、１０９低解像度化部、１１１非可逆圧縮部、１１３ＰＤＦ化部。

Claims

複数の画素からなる画像の中から文字領域を特定する画像処理装置であって、
前記画像に基づいて２値画像を生成する生成手段と、
前記２値画像から余白領域とそれ以外の非余白領域とを抽出する第１の抽出手段と、
前記非余白領域内で膨張処理を行うことにより、少なくとも１つの第１の行矩形を生成する膨張手段と、
前記第１の行矩形の形状に基づいて前記２値画像の文字行方向を判定する判定手段と、
前記判定手段により判定された前記文字行方向に前記第１の行矩形同士を連結することによって第２の行矩形を生成する第１の連結手段と、
前記２値画像における前記第２の行矩形に対応する領域に基づいて文字領域を特定する第１の特定手段とを備える、画像処理装置。
前記判定手段は、
前記第１の行矩形のうち、その縦横比が第１の所定条件を満たす行矩形の個数と、その縦横比が第２の所定条件を満たす行矩形の個数と、を算出する算出手段と、
前記２つの個数に基づいて前記２値画像の文字行方向を決定する第１の決定手段とを含む、請求項１に記載の画像処理装置。
前記第１の特定手段は、
前記第２の行矩形に含まれる少なくとも１つの小矩形を抽出する第２の抽出手段と、
各前記第２の行矩形について、前記第２の行矩形の縦横比と前記小矩形の個数との関係が第３の所定条件を満たす場合に、前記第２の行矩形に対応する領域を文字領域として決定する第２の決定手段とを含む、請求項１または２に記載の画像処理装置。
前記第１の特定手段は、
前記第２の行矩形に含まれる少なくとも１つの小矩形を抽出する第２の抽出手段と、
各前記第２の行矩形について、前記第２の行矩形のサイズと前記小矩形のサイズとの関係が第４の所定条件を満たす場合に、前記第２の行矩形に対応する領域を文字領域として決定する第３の決定手段とを含む、請求項１から３のいずれか１項に記載の画像処理装置。
前記第１の特定手段によって文字領域として特定された領域以外の前記第１の行矩形同士を、前記判定手段により判定された文字行方向と垂直な方向に連結することによって第３の行矩形を生成する第２の連結手段と、
前記２値画像における第３の行矩形に対応する領域に基づいて文字領域を特定する第２の特定手段とをさらに備える、請求項１から４のいずれか１項に記載の画像処理装置。
前記生成手段は、前記画像から複数種類の２値画像を生成し、
前記第１の抽出手段と、前記膨張手段と、前記判定手段と、前記第１の連結手段とは、各前記２値画像に対して処理を行い、
前記特定手段は、それぞれの前記２値画像における前記第２の行矩形に対応する領域の和集合に基づいて文字領域を特定する、請求項１から５のいずれか１項に記載の画像処理装置。
複数の画素からなる画像の中から文字領域を特定するための画像処理装置を用いた文字領域特定方法であって、
前記画像処理装置は、
制御部を備え、
前記画像処理方法は、
前記制御部が、前記画像に基づいて２値画像を生成するステップと、
前記制御部が、前記２値画像から余白領域とそれ以外の非余白領域とを抽出するステップと、
前記制御部が、前記非余白領域内で膨張処理を行うことにより、少なくとも１つの第１の行矩形を生成するステップと、
前記制御部が、前記第１の行矩形の形状に基づいて前記２値画像の文字行方向を判定するステップと、
前記制御部が、前記文字行方向に前記第１の行矩形同士を連結することによって第２の行矩形を生成するステップと、
前記制御部が、前記２値画像における前記第２の行矩形に対応する領域に基づいて文字領域を特定するステップとを備える、文字領域特定方法。
コンピュータに複数の画素からなる画像の中から文字領域を特定させるための文字領域特定プログラムであって、
前記プログラムは、前記コンピュータに、
前記画像に基づいて２値画像を生成するステップと、
前記２値画像から余白領域とそれ以外の非余白領域とを抽出するステップと、
前記非余白領域内で膨張処理を行うことにより、少なくとも１つの第１の行矩形を生成するステップと、
前記第１の行矩形の形状に基づいて前記２値画像の文字行方向を判定するステップと、
前記文字行方向に前記第１の行矩形同士を連結することによって第２の行矩形を生成するステップと、
前記２値画像における前記第２の行矩形に対応する領域に基づいて文字領域を特定するステップとを実行させる、文字領域特定プログラム。