JP4424309B2

JP4424309B2 - 画像処理装置、文字判定プログラム、および文字判定方法

Info

Publication number: JP4424309B2
Application number: JP2006013830A
Authority: JP
Inventors: 俊浩森
Original assignee: Konica Minolta Business Technologies Inc
Current assignee: Konica Minolta Business Technologies Inc
Priority date: 2006-01-23
Filing date: 2006-01-23
Publication date: 2010-03-03
Anticipated expiration: 2026-01-23
Also published as: US8208744B2; US20070172137A1; JP2007193750A

Description

この発明は画像処理装置、文字判定プログラム、および文字判定方法に関し、特に、原稿中の文字部分を判定する画像処理装置、文字判定プログラム、および文字判定方法に関する。

近年、情報の電子化が進み、文書を紙ではなく電子化して保存、または送信する需要が高まっている。そこで、ＭＦＰ（Multi Function Peripherals）等の画像データを取得する画像処理装置において、スキャンして得られた画像データを紙に印刷することなく、メールに添付するなどして直接送信する機能が普及してきている。

ところで、ＭＦＰ等の画像処理装置において取り扱う画像は白黒画像からカラー画像に移行しつつあるため、上記画像データはカラー画像データとなりつつある。ＭＦＰにおいて、いわゆるＡ４サイズと言われる２９７ｍｍ×２１０ｍｍのサイズのフルカラー原稿を解像度３００ｄｐｉでスキャンして得られるカラー画像データのサイズは、約２５ＭＢに達する。そのため、カラー画像データは、メールに添付して送信するにはサイズが大きすぎるという問題が発生してきている。

この問題を解決するために、スキャンして得られた画像データ（スキャンデータと略する）を圧縮してサイズダウンしてから送信することが一般的になされている。しかしながら、画像全体に対して同一の解像度でスキャンデータを圧縮すると、画像に含まれる文字の判読性が損なわれる。画像中の文字の判読性を確保できる程度の高い解像度で圧縮すると、スキャンデータのサイズダウンが十分にできないという問題がある。

この問題を解決するために、本願出願人が先に出願して公開されている以下の特許文献３において、画像中の領域ごとに異なる解像度や異なる圧縮方法でスキャンデータを圧縮する、いわゆるコンパクトＰＤＦ（Portable Document Format）化と言われる方法などの圧縮方法が提案されている。この方法によると、コンパクトＰＤＦは、
（１）スキャンデータの領域を判別する処理を実行し、文字部分と文字以外の部分とを分離し、
（２）文字部分に対して、高解像度のまま二値化処理し、同じ色の文字を統合して文字の色を決定して、ＭＭＲ（Modified Modified-Read）圧縮等の可逆圧縮し、
（３）文字以外の部分に対して、解像度を下げてＪＰＥＧ（Joint Photographic Experts Group）圧縮等の非可逆圧縮する、
手順で作成される。

図１７は、コンパクトＰＤＦファイルのデータ構成の具体例を示す図である。
図１７を参照して、コンパクトＰＤＦファイルのデータ構成は階層化構造であって、最上層である第１層として、コンパクトＰＤＦファイルには、大きくは、ＰＤＦ使用のバージョンが記されたファイルヘッダと、文書内容が記されたボディと、ボディ内のオブジェクトの位置が記された相互参照表と、ＰＤＦファイルのオブジェクト数やカタログ辞書のオブジェクト番号が記されたトレーラとが含まれる。

第１層の下の第２層として、上記ボディには、日付等の文書情報と、文書を構成する各ページ（子ページ）のデータブロックと、子ページに対応した子ページ辞書と、ページ数や子ページ辞書の番号が記された親ページ辞書と、親ページ辞書の番号が記されたカタログ辞書とが含まれる。

さらに、第２層の下の第３層として、子ページのデータブロックには、ＪＰＥＧ圧縮されたデータが格納された、１つの背景レイヤと、二値化後にＭＭＲ圧縮された、複数の文字レイヤと、各レイヤの位置や文字の色などが記されたレイヤ情報とが含まれる。

特許文献３に提案されている方法でスキャンデータを圧縮することで、文字の判読性の確保と低サイズ化とを両立させることができる。

この方法は上述の手順で実行されるため、スキャンデータから文字部分を正確に抽出することが重要となる。たとえば以下の特許文献１，２に記載されている文字認識装置，画像処理装置においては、スキャンデータから文字部分を抽出するために、次のような領域判別処理がなされている。すなわち、黒画素を膨張させ連結させる処理を行ない、近傍にある黒画素群を単語や行単位の矩形としてまとめた後に（ラベリング）、その領域がテキスト領域か否かを判定する処理がなされている。

上述のように領域判別処理において黒画素群を連結させて単語単位の矩形としてまとめることは、テキスト領域が大部分を占める原稿に対しては、判定の精度を向上させたり、処理時間を短縮させたりでき、効果的である。

このような処理がなされることで、たとえば図１８に示されるように文字と、写真、図形、およびグラフ（これらを総称して図と称するものとする）とが混在する原稿がスキャンされたとき、文字や罫線が付加された文字の領域はテキスト領域として抽出されてＭＭＲ圧縮され、図の領域は背景領域として抽出されてＪＰＥＧ圧縮され、これらがＰＤＦファイルフォーマットに格納されることでコンパクトＰＤＦファイルが作成される。
特開平６−１８７４８９号公報特開平８−３１７１９７号公報特開２００４−３０４４６９号公報

しかしながら、上述の領域判別処理においては、領域の特徴に関わらず一定の条件で黒画素を膨張させて連結させる処理が行なわれるため、原稿内に写真や図形やグラフなどの図が含まれている場合、その近傍の文字を構成する黒画素が図を構成する黒画素と連結されてしまい、その文字の領域を判定できない場合があるという問題があった。

また、図に文字が含まれる場合、その文字を構成する黒画素が周囲のノイズ画素と連結されてしまい、その文字の領域を判定できない場合があるという問題があった。

本発明はこのような問題に鑑みてなされたものであって、画像中に写真や図形やグラフなどの図が含まれている場合であっても、高精度かつ高速に画像に含まれる文字部分を判定することのできる画像処理装置、文字判定プログラム、および文字判定方法を提供することを目的とする。

上記目的を達成するために、本発明のある局面に従うと、画像処理装置は、画像データを得る画像データ取得手段と、画像データに含まれる領域について、テキスト領域か図領域かを判別する判別手段と、判別手段によってテキスト領域と判別された領域に対して第１の文字判定方法で文字判定を行なう第１の文字判定手段と、判別手段によって図領域と判別された領域に対して、第１の文字判定方法とは異なる第２の文字判定方法で文字判定を行なう第２の文字判定手段とを備える。

より詳しくは、第２の文字判定手段は、図領域についてラベリングを行なって、連続する画素を囲む最小矩形領域を得る最小矩形領域取得手段と、その最小矩形領域が文字部分であるか否かを判定する判定手段とを含むことが好ましい。

また、第１の文字判定手段は、テキスト領域に含まれる第１の画素と第２の画素とを連結する連結手段と、テキスト領域についてラベリングを行なって、連結された第１の画素および第２の画素を囲む最小矩形領域を得る最小矩形領域取得手段と、その最小矩形領域が文字部分であるか否かを判定する判定手段とを含むことが好ましい。

さらに、第１の文字判定手段は、テキスト領域から行間を検出する行間検出手段を含み、連結手段は、テキスト領域から行間を除いた領域内で、第１の画素と第２の画素とを連結することがより好ましい。

またさらに、連結手段は、第１の画素と第２の画素との距離が所定距離以下である場合に第１の画素と第２の画素とを連結することがより好ましい。

なお、上述の画素は特定色（たとえば黒）の画素であることがより好ましい。
また、判定手段は、最小矩形領域内の特定色の画素の比率を用いて最小矩形領域が文字部分であるか否かを判定することが好ましい。

また、画像処理装置は、第１の文字判定手段および／または第２の文字判定手段における文字判定で文字部分であると判定された第１領域を可逆圧縮する第１の圧縮手段と、第１の文字判定手段および／または第２の文字判定手段における文字判定で文字部分でないと判定された第２領域を非可逆圧縮する第２の圧縮手段とを含むことが好ましい。

さらに、第２の圧縮手段は第２領域の解像度を低下させる手段を含むことが好ましい。
本発明の他の局面に従うと、文字判定プログラムは、コンピュータに文字判定処理を実行させるプログラムであって、画像データを得る画像データ取得ステップと、画像データに含まれる領域について、テキスト領域か図領域かを判別する判別ステップと、判別ステップにおいてテキスト領域と判別された領域に対して第１の文字判定方法で文字判定を行なう第１の文字判定ステップと、判別ステップにおいて図領域と判別された領域に対して第１の文字判定方法とは異なる第２の文字判定方法で文字判定文字判定を行なう第２の文字判定ステップとを実行させる。

より詳しくは、第２の文字判定ステップは、図領域についてラベリングを行なって、連続する画素を囲む最小矩形領域を得る最小矩形領域取得ステップと、その最小矩形領域が文字部分であるか否かを判定する判定ステップとを含むことが好ましい。

また、第１の文字判定ステップは、テキスト領域に含まれる第１の画素と第２の画素とを連結する連結ステップと、テキスト領域についてラベリングを行なって、連結された第１の画素および第２の画素を囲む最小矩形領域を得る最小矩形領域取得ステップと、その最小矩形領域が文字部分であるか否かを判定する判定ステップとを含むことが好ましい。

また、文字判定プログラムは、第１の文字判定ステップおよび／または第２の文字判定ステップにおける文字判定で文字部分であると判定された第１領域を可逆圧縮する第１の圧縮ステップと、文字部分でないと判定された第２領域を非可逆圧縮する第２の圧縮ステップとをさらに実行させることが好ましい。

本発明のさらに他の局面に従うと、文字判定方法は画像処理装置において画像データに含まれる文字を判定する方法であって、画像データを得る画像データ取得ステップと、画像データに含まれる領域について、テキスト領域か図領域かを判別する判別ステップと、判別ステップにおいてテキスト領域と判別された領域に対して第１の文字判定方法で文字判定を行なう第１の文字判定ステップと、判別ステップにおいて図領域と判別された領域に対して第２の文字判定方法で文字判定文字判定を行なう第２の文字判定ステップとを含む。

また、文字判定方法は、第１の文字判定ステップおよび／または第２の文字判定ステップにおける文字判定で文字部分であると判定された第１領域を可逆圧縮する第１の圧縮ステップと、文字部分でないと判定された第２領域を非可逆圧縮する第２の圧縮ステップとをさらに含むことが好ましい。

本発明にかかる画像処理装置が、テキスト領域については連結された画素を囲む矩形単位で文字判定を行ない、図領域については画素が連結されることなくラベリングで得られた連続する画素を囲む矩形領域ごとに文字判定を行なうことで、処理速度を確保しつつ、図領域に含まれる文字部分を高精度で検出することができる。

以下に、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。

本実施の形態においては、本発明にかかる画像処理装置がＭＦＰ（Multi Function Peripherals）であるものとするが、本発明にかかる画像処理装置はＭＦＰに限定されず、画像データを取得する手段と、その画像データを処理する手段とを備える装置であれば他の装置であってもよく、たとえば一般的なパーソナルコンピュータやファクシミリ装置などであってもよい。

図１は、本実施の形態にかかるＭＦＰ１０のハードウェア構成の具体例を示す図である。

図１を参照して、本実施の形態にかかるＭＦＰ１０は、スキャン処理部１と、入力画像処理部２と、記憶部３と、ＣＰＵ（Central Processing Unit）４と、ネットワークＩ／Ｆ（インタフェース）５と、出力画像処理部６と、エンジン部７と、モデム・ＮＣＵ（Network Control Unit）８と、操作部９とを含んで構成される。

操作部９は操作キーと表示部とを含んで構成され、ユーザＩ／Ｆとして機能して、ユーザからの宛先の入力、スキャン条件の選択、画像ファイルフォーマットの選択、処理の開始／中断等の操作を受付ける。操作部９は、操作に基づいた操作信号を、ＣＰＵ４に対して出力する。

記憶部３は、ＤＲＡＭ（Dynamic Random Access Memory）等の電子メモリと、ハードディスク等の磁気メモリとを含んで構成され、プログラムや画像データを保持する。ＣＰＵ４は、記憶部３に記憶されるプログラムを実行し、操作部９から入力された操作信号に基づいて、必要な制御信号を各部に対して出力してＭＦＰ１０全体を制御する。なお、記憶部３は、ＣＰＵ４においてプログラムが実行される際の作業領域としても用いられる。

スキャン処理部１は、上記制御信号に従ってセットされた原稿をスキャンして読取り、入力画像処理部２に対して画像データを出力する。入力画像処理部２は、上記制御信号に従って、入力された画像データに対して色変換、色補正、解像度変換、領域判別等の処理を実行する。処理後のデータは記憶部３に保持される。

出力画像処理部６は、上記制御信号に従って記憶部３に保持される画像データを読出し、その画像に対してスクリーン制御、スムージング処理、ＰＷＭ（Pulse Wide Modulation）制御等を施し、処理後の画像データをエンジン部７に対して出力する。

エンジン部７は、上記制御信号に従って、出力画像処理部６から入力された画像データに基づいてトナー画像を生成し、トナー画像をセットされた印刷用紙に転写することで画像を印刷する。ここでＭＦＰ１０がカラー画像を出力するカラーＭＦＰである場合にはエンジン部７はイエロー、マゼンタ、シアン、ブラックの４色のトナーを用いてトナー画像を生成する。

また、ＣＰＵ４は、記憶部３に記憶されるプログラムを実行し、記憶部３に保持される画像データに対して画像処理を施し、記憶部３、ネットワークＩ／Ｆ部５、またはモデム・ＮＣＵ８に対して出力する。

ネットワークＩ／Ｆ部５は、電子メール等を、ネットワークを介して他の装置に送信するためのＩ／Ｆであり、プロトコルの作成などを行なう。ネットワークＩ／Ｆ部５は、上記制御信号に従って、ＣＰＵ４から入力された画像データ、または記憶部３から読出した画像データを、ネットワークを介して他の装置に送信する。

モデム・ＮＣＵ８は、ファクシミリ送受信のための変復調、ファクシミリの通信プロトコルの生成などを行なって電話回線を介した通信を制御する。モデム・ＮＣＵ８は、上記制御信号に従って、ＣＰＵ４から入力された画像データ、または記憶部３から読出した画像データを、電話回線を介して他の装置に送信する。

図２は、本実施の形態にかかるＭＦＰ１０において画像データの圧縮を行なってＰＤＦ（Portable Document Format）ファイルを作成するための機能構成の具体例を示すブロック図である。図２に示される各部は、主にＣＰＵ４が記憶部３に記憶されるプログラムを実行することによってＣＰＵ４に形成される機能であるが、いくつかの機能はたとえば入力画像処理部２などの他のハードウェア構成に形成されてもよい。

図２を参照して、本実施の形態にかかるＭＦＰ１０においてＰＤＦファイルを作成するための機能は、画像データ取得部１０１と、前処理部１０３と、領域判別部１０５と、可逆圧縮部１０７と、低解像度化部１０９と、非可逆圧縮部１１１と、ＰＤＦ化部１１３とを含んで構成される。

画像データ取得部１０１は、上記スキャン処理部１において生成された画像データを取得し、ＴＩＦＦ（Tagged Image File Format）、ＪＰＥＧ（Joint Photographic Experts Group）、ＢＭＰ（Bit MaP）などのデータフォーマットで前処理部１０３に入力する。

前処置部１０３は、画像データ取得部１０１から入力された画像データに対して、領域判別のための前処理として、画像形式の変換、解像度変換、下地除去などの処理を施し、領域判別部１０５に入力する。

領域判別部１０５は、前処理部１０３から入力された画像データに対して領域判別処理を施す。領域判別処理には、文字判定処理、図や写真や下地を判定する処理、網点除去処理、二値化処理、および文字色決定処理等が含まれる。領域判別部１０５はこのような領域判別処理を実行して、画像中の文字（文字および罫線）部分を抽出し、文字部分と文字以外の写真や図形やグラフなどの背景部分とを分離する。ここでいう文字部分には、以降に説明されるように、写真や図形やグラフなど図の中に存在する文字も含まれる。

分離された背景部分を構成する画像データは低解像度化部１０９を経て非可逆圧縮部１１１に、文字部分を構成する画像データは低解像度化部１０９を経ることなく可逆圧縮部１０７に直接、各々入力される。

可逆圧縮部１０７は、領域判別部１０５から入力された文字部分を構成する画像データに対して、ＭＭＲ（Modified Modified-Read）圧縮方式のような可逆性の圧縮を行なう。また、非可逆圧縮部１１１は、低解像度化部１０９で低解像度化された背景部分を構成する画像データに対して、ＪＰＥＧ圧縮方式のような非可逆圧縮を行なう。可逆圧縮部１０７および非可逆圧縮部１１１において圧縮された文字部分を構成する画像データおよび背景部分を構成する画像データはＰＤＦ化部１１３に入力され、これらに基づいてＰＤＦファイルが作成される。

なお、図２に示されるＭＦＰ１０の機能構成はＰＤＦファイルを作成する際に画像データのうち背景部分を構成する画像データについて解像度を低下させて非可逆圧縮する場合の構成であるが、背景部分を構成する画像データについて解像度を低下させずに非可逆圧縮してもよい。その場合、ＭＦＰ１０の機能には低解像度化部１０９が含まれていなくてもよい。

図３は、本実施の形態にかかるＭＦＰ１０において画像データの圧縮を行なってＰＤＦファイルを作成する処理の流れを示すフローチャートである。図３のフローチャートに示される処理は、主にＣＰＵ４が記憶部３に記憶されるプログラムを実行して図２に示される各部を制御することで実現される処理である。すなわち、図３を参照して、本実施の形態にかかるＭＦＰ１０においては、まず画像データ取得部１０１において画像データが取得され（ステップＳ１）、取得された画像データに対して、前処理部１０３での前処理を経てから領域判別部１０５において領域判別処理が施される（ステップＳ３）。画像データにはその判別結果に応じて領域ごとに適した圧縮処理が行なわれて、ＰＤＦ化部１１３においてＰＤＦ化処理が実行されることで（ステップＳ５）、その画像データが圧縮されてＰＤＦファイルが作成される。すなわち、ステップＳ５では、ステップＳ３において文字部分と判定された領域を構成する画像データについては、解像度を低下させずに可逆圧縮部１０７でＭＭＲ圧縮方式のような可逆圧縮処理が施される。また、ステップＳ３において背景部分と判定された領域を構成する画像データについては、上記ステップＳ５において、低解像度化部１０９で解像度を低下させるように解像度変換された後に非可逆圧縮部１１１でＪＰＥＧ圧縮方式のような非可逆圧縮処理が施される。なお、ステップＳ５において、背景部分と判定された領域を構成する画像データについて解像度を低下させずに非可逆圧縮処理が施されてもよい。

上記ステップＳ５でのＰＤＦ化処理については、上述のしたような、いわゆるコンパクトＰＤＦファイルを作成する一般的な処理が採用され、本発明において限定される処理ではない。以下においては、本発明の特徴とする、上記ステップＳ３の領域判定処理について詳細に説明する。

図４は、上記ステップＳ３における領域判別処理の流れを示すフローチャートであり、具体的に図５に示される原稿に対して領域判別処理が実行されるものとして説明する。

図４を参照して、始めに、ステップＳ１０１〜Ｓ１０７において、原稿内の写真や図形やグラフなどの図が主に含まれている領域（以下、この領域を図領域と称する）を判別するための処理が実行される。詳しくは、ステップＳ１０１において、入力された画像データ全体の明度が算出され、明度画像が生成される。ここでは、入力された画像データがフルカラーの２４ｂｉｔの画像である場合、モノクロの８ｂｉｔの明度画像が生成される。

次に、ステップＳ１０３で、生成された明度画像に対してスムージング処理が施される。スムージング処理が施されることで明度画像からノイズが除去され、以降の判別の精度が向上する。

次に、ステップＳ１０５で、スムージング処理された明度画像に対して二値化処理およびラベリング処理が施される。二値化処理およびラベリング処理が施された明度画像のうち一定の大きさ以上のもの（一般的な文字の大きさを越える大きさのもの）が図領域の候補である図ブロックとして抽出される。さらにステップＳ１０７で、抽出されたブロックが、その図ブロック内の画像の特性に応じてより詳細に分類され、その図ブロックが図領域中の写真の小領域であるか、図形の小領域であるか、グラフの小領域であるか、文字部分を含む小領域であるか、などが判別される。

次に、ステップＳ１０９〜Ｓ１２５において、原稿内の文字や文字列などから構成されている領域（以下、この領域をテキスト領域と称する）を判別するための処理が実行される。詳しくは、ステップＳ１０９，Ｓ１１１において明度算出処理およびスムージング処理が施される。これらの処理は上記ステップＳ１０１，Ｓ１０３での背景領域を判別するための明度算出処理およびスムージング処理と同様であり、上記ステップＳ１０１，Ｓ１０３での処理結果がそのまま用いられてもよいが、好ましくは、背景領域を判別するための明度算出処理およびスムージング処理（ステップＳ１０１，Ｓ１０３）と、テキスト領域を判別するための明度算出処理およびスムージング処理（ステップＳ１０９，Ｓ１１１）とは、それぞれの判別において最適な判別結果が得られるようにパラメータが異なる。

次に、ステップＳ１１３において、スムージング処理された画像データからエッジが抽出され、エッジ画像が生成される。図５に具体例が示される原稿に対して処理がなされた場合、図６に示されるようなエッジ画像が生成される。このようにエッジ画像が生成されることで、明度の高い領域の文字や反転文字が検出されやすくなる。さらに、ステップＳ１１５において、生成されたエッジ画像から罫線が抽出され、分離される。エッジ画像から罫線を分離する技術は本発明において限定されるものではなく、すでに提案されているいずれの技術が用いられてもよい。

以上の処理によって、図５に具体例が示される原稿は、図７に示されるように、図領域とテキスト領域とに分離される。

次に、ステップＳ１１７〜Ｓ１２５において文字判定処理が施される。詳しくは、ステップＳ１１７において、判定対象とする領域が図領域かテキスト領域かによって、以降の処理が分岐され、テキスト領域については（ステップＳ１１７でＹＥＳ）、ステップＳ１１９で、文字でない領域である行間が検出されて分離される。ここでの行間を検出する処理は、比較的緩やかな条件を用いて幅の広い行間など、文字が含まれないラインをテキスト領域から除く処理である。

図８はステップＳ１１９での行間検出処理を示すフローチャートである。図８を参照して、ステップＳ１１９では、まず、対象領域について、主走査方向（ｘ方向）に連続する、文字を構成していない画素としての特定色の画素（ここでは白画素）の数がカウントされ、規定数以上連続する白画素が検出されると、その連続する白画素が特定の色（ＳＴＯＰＰＩＸＥＬ）に塗りつぶされる（ステップＳ２０１）。なお、ここでは文字を構成していない画素が具体的に白画素である特定色の画素であるものとされているが、対象となる画素の色は限定されていなくてもよく、たとえば文字を構成する画素色以外の色の画素等であってもよい。

次に、ＳＴＯＰＰＩＸＥＬの画素の副走査方向（ｙ方向）の連続数がカウントされ、規定数に達していない場合にはそれらの画素群の色が白に戻される（ステップＳ２０３）。上記規定数は、対象画像の解像度と、検出しようとする文字のサイズとに応じて決定されるものであるが、具体的には、主走査方向に１５０ｄｏｔ、副走査方向に２ｄｏｔ以上などが挙げられる。ここまでの処理によって、対象画像が図５に示される原稿である場合、図９に示されるように主走査方向の行間が検出される。

同様に、副走査方向について、規定数以上連続する白画素が検出され（ステップＳ２０５）、さらにその白画素の連続に対して主走査方向の連続数がチェックされる（ステップＳ２０７）。上記規定数もまた同様に決定されるものであるが、具体的には、主走査方向に２ｄｏｔ、副走査方向に１５０ｄｏｔ以上などが挙げられる。ここまでの処理によって、対象画像が図５に示される原稿である場合、図１０に示されるように副走査方向の行間が検出される。

次に、ステップＳ１２１で、文字を構成する特定色の画素（ここでは黒画素とする）が膨張され近傍の画素が連結される。なお、ここでは文字を構成する画素が具体的に黒画素である特定色の画素であるものとされているが、対象となる画素の色は限定されていなくてもよく、たとえば背景を構成する画素色以外の色の画素等であってもよい。

図１１はステップＳ１２１での文字膨張処理を示すフローチャートである。図１１を参照して、まず、近傍の画素として、具体的には対象領域の主走査方向について所定の距離以下で隣合う黒画素が検出される（ステップＳ３０１）。より詳しくは、画像を主走査方向（ｘ方向）に走査して、あるｘ座標について、そのｘ座標位置の左右最大文字幅（たとえば１９０ｐｉｘｅｌ）／２の範囲について黒画素が探索され、黒画素が検出されたそのｙ座標における配列値が１とされて、ｙ座標が０から画像高さから１減じた座標値までについて、順次ｙ方向に、黒画素の探索が繰返され。ただし、途中でＳＴＯＰＰＩＸＥＬ（行間）が検出された場合には、それ以上のｙ方向の探索が行なわれない。さらに、上記あるｘ座標について生成された配列が走査され、配列値０の連続が規定数以下である場合にはその連続の配列値を１に書換えられる。なお、上の具体例ではステップＳ１２１で近傍の画素を検出する方法として画素の間隔が所定の距離以下であるか否かで検出する方法が示されているが、その他の方法で近傍の画素が検出されてもよい。

次に、副走査方向（ｙ方向）に黒画素が膨張される（ステップＳ３０３）。より詳しくは、画像が主走査方向（ｘ方向）に走査されてあるｘ座標についてｙ方向に走査され、黒画素が探索される。そして検出された黒画素の上下最大文字幅（たとえば１９０ｐｉｘｅｌ）／２の範囲についてそのｘ座標について生成された配列の配列値が１であるならば、その範囲にある白画素を黒に塗りつぶされる。

次に、対象領域が９０度回転され（ステップＳ３０５）、同様に、主走査方向について所定の距離以下で隣合う黒画素が検出されて（ステップＳ３０７）、副走査方向にそれらの黒画素が膨張される（ステップＳ３０９）。図５に示される原稿がこのように処理される場合、図１２に示されるように、行間を除いて、近傍にある黒画素が連結される。

次に、ステップＳ１２３で、テキスト領域における文字判定処理が実行される。
図１３はステップＳ１２３でのテキスト領域における文字判定処理を示すフローチャートである。図１３を参照して、始めに、上述の処理によって連結された黒画素群を囲む最小矩形領域を得るためにラベリングが行なわれ、ラベリングによって得られた、連結された文字を囲む最小矩形の座標値が得られる（ステップＳ４０１）。なお、ここでのラベリング方法は一般的な方法が用いられ、本発明において限定されない。図５に示される原稿がこのように処理される場合、図１４に示されるように連結された黒画素の矩形が得られ、その矩形が以下の処理に用いられる。

次に、上記ラベリングで得られた矩形領域ごとに、短辺の長さ、短辺と長辺との長さの比率、および矩形領域内に存在する黒画素の割合などの条件に基づいて、その矩形領域が文字部分であるか否かを判定する文字判定が行なわれる（ステップＳ４０３）。

図領域については（ステップＳ１１７でＮＯ）、上記ステップＳ１１９，Ｓ１２１の処理が行なわれることなく、ステップＳ１２５で図領域内の文字を判定する文字判定処理が実行される。

図１５はステップＳ１２５での図領域における文字判定処理を示すフローチャートである。図１５を参照して、始めに、テキスト領域における文字判定処理と同様に、連続する黒画素群を囲む最小矩形領域を得るために、一般的な方法でラベリングが行なわれる（ステップＳ５０１）。

次に、上記ラベリングで得られた矩形領域について、その矩形領域が文字部分であるか否かの判定を行なう（ステップＳ５０３）。具体的には、矩形領域の横幅、高さ、矩形領域内の黒画素の比率、および当該矩形領域をさらに分割（たとえば縦横各５分割）したときの各領域における黒画素の比率などに着目して特徴ベクトルを算出し、この特徴ベクトルを用いてその矩形領域が文字部分であるか否かの判定を行なう。たとえば、判定対象の領域が図１６に示される矩形領域である場合、図１６に示されるように、横幅（Ａ）、高さ（Ｂ）、矩形領域全体における黒画素の比率（Ｃ）、および縦横各５分割して２５分割したときの各分割された小領域における黒画素の比率（Ｄ）を用いて、当該矩形領域が文字部分であるか否かが判定される。

なお、特徴ベクトルを算出する際の着目点は上述の５項目のみに限定されず、その他の項目が含まれていてもよいし、また上記４項目のうちの少なくとも１つであってもよい。上記判定の一例としては、予め各文字について上述の項目に着目した特徴ベクトルを記述する辞書データを記録（または作成）しておき、その辞書データと算出された特徴ベクトルとを比較してその矩形領域が文字部分であるか否かを判定する方法が挙げられる。また、上記文字判定を行なう際、上記ステップＳ１０７での図領域の図ブロックが文字部分を含む小領域であるかそれ以外（写真等）の小領域であるかの判別結果が用いられ、文字部分を含む小領域と判別された図ブロックについて上記文字判定が行なわれてもよい。

次に、ステップＳ１２７〜Ｓ１３１において、原稿内の文字を二値化する処理が実行される。詳しくは、ステップＳ１２７において、上記ステップＳ１２３またはステップＳ１２５の文字判定処理によって文字部分と判定された矩形領域から網点を除去する処理が実行される。ここで網点除去処理が実行されることで、文字の背景に含まれる網点が除去され、網点が文字として二値化されることが防がれる。

次に、ステップＳ１２９において、網点が除去された文字部分である矩形領域に対して二値化処理が実行され、各矩形領域内で文字と背景とが分離される。このように文字部分が二値化されることで、画像データのサイズを小さくすることができる。

次に、ステップＳ１３１において、文字部分に対応する元画像の色データ（ＲＧＢデータ）が参照されて、文字の色が決定される。ステップＳ１３１での文字の色の決定は、上記ステップＳ１２３またはステップＳ１２５で文字部分と判定された矩形領域ごとに行なわれ、１つの文字部分に対して１色が割当てられる。なお、文字部分と判定された隣合う２つの矩形領域の間隔が所定の間隔以下であり、それらの矩形領域に割当てられた色の差が所定値以下である場合、これらの矩形領域を統合してもよい。このようにすることが文字部分である矩形領域の数を減らすことができ、作成されるＰＤＦデータのサイズを小さくすることができる。また、作成処理の速度を早めることができる。

以上で、コンパクトＰＤＦデータ作成のための上記ステップＳ３での領域判定処理が終了する。

上述のように、本実施の形態にかかる領域判定処理では、原稿に含まれるテキスト領域と図領域とについて文字判定処理を分岐し、テキスト領域については従来からなされている黒画素が連結された矩形単位で文字判定がなされるのに対して、図領域については黒画素が連結されることなくラベリングで得られた矩形領域ごとに文字判定がなされる。

このように図領域内では黒画素を連結しないことによって、図領域にある文字近傍に多く存在すると考えられる線や点が文字を構成する画素と連結されて、文字判定の精度を低下させることが防止される。その結果、図領域中の文字部分が高精度で判定される。また、図領域とテキスト領域とを分けてテキスト領域について従来からなされている文字判定を行なうことで、処理速度も確保される。

なお、本実施の形態ではＰＤＦファイルを作成する前の画像処理としての文字判定処理に適用した場合を示しているが、本発明はこれに限定されることなく、たとえばＯＣＲ（Optical Character Reader）のような文字認識処理の前処理として文字を誤認識しないように文字判定する処理にも適用できる。

さらに、本実施の形態にかかるＭＦＰ１０で実行される文字判定処理をコンピュータに実行させるための文字判定プログラムを提供することもできる。このようなプログラムは、コンピュータに付属するフレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）およびメモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。あるいは、コンピュータに内蔵するハードディスクなどの記録媒体にて記録させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。

なお、本発明にかかる文字判定プログラムは、コンピュータのオペレーションシステム（ＯＳ）の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して情報管理処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずＯＳと協働して情報管理処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかる文字判定プログラムに含まれ得る。

提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記録された記録媒体とを含む。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

ＭＦＰ１０のハードウェア構成の具体例を示す図である。ＭＦＰ１０において画像データの圧縮を行なってＰＤＦファイルを作成するための機能構成の具体例を示すブロック図である。ＭＦＰ１０において画像データの圧縮を行なってＰＤＦファイルを作成する処理の流れを示すフローチャートである。ステップＳ３での領域判別処理の流れを示すフローチャートである。原稿の具体例を示す図である。エッジ画像の具体例を示す図である。図領域とテキスト領域とに分離された画像データの具体例を示す図である。ステップＳ１１９での行間検出処理を示すフローチャートである。テキスト領域中の主走査方向の行間が検出された画像データの具体例を示す図である。テキスト領域中の副走査方向の行間が検出された画像データの具体例を示す図である。ステップＳ１２１での文字膨張処理を示すフローチャートである。テキスト領域中の黒画素が連結された画像データの具体例を示す図である。ステップＳ１２３でのテキスト領域における文字判定処理を示すフローチャートである。ラベリングによって文字を囲む最小矩形が連結された画像データの具体例を示す図である。ステップＳ１２５での図領域における文字判定処理を示すフローチャートである。図領域中の文字判定を行なうブロックの具体例を示す図である。コンパクトＰＤＦファイルのデータ構成の具体例を示す図である。コンパクトＰＤＦファイルの作成方法を説明する図である。

符号の説明

１スキャン処理部、２入力画像処理部、３記憶部、４ＣＰＵ、５ネットワークＩ／Ｆ、６出力画像処理部、７エンジン部、８モデム・ＮＣＵ、９操作部、１０ＭＦＰ、１０１画像データ取得部、１０３前処理部、１０５領域判別部、１０７可逆圧縮部、１０９低解像度化部、１１１非可逆圧縮部、１１３ＰＤＦ化部。

Claims

画像データを得る画像データ取得手段と、
前記画像データに含まれる領域について、テキスト領域か図領域かを判別する判別手段とを備え、
前記判別手段によってテキスト領域であると判別された場合には、
前記テキスト領域から行間を検出する行間検出手段と、
前記テキスト領域から前記行間を除いた領域内で、前記テキスト領域に含まれる前記第１の画素と前記第２の画素とを連結する連結手段と、
前記テキスト領域についてラベリングを行なって、連結された前記第１の画素および前記第２の画素を囲む最小矩形領域を得る第１の最小矩形領域取得手段と、
前記最小矩形領域が文字部分であるか否かを判定する第１の判定手段とを用いて第１の文字判定を行ない、
前記判別手段によって図領域であると判別された場合には、
行間を検出する処理および画像を連結する処理を行なうことなく、前記図領域についてラベリングを行なって、連続する画素を囲む最小矩形領域を得る第２の最小矩形領域取得手段と、
前記最小矩形領域が文字部分であるか否かを判定する第２の判定手段とを用いて第２の文字判定を行なう、画像処理装置。
前記連結手段は、前記第１の画素と前記第２の画素との距離が所定距離以下である場合に、前記第１の画素と前記第２の画素とを連結する、請求項１に記載の画像処理装置。
前記第１および第２の画素は特定色の画素である、請求項１または２に記載の画像処理装置。
前記第１および第２の判定手段は、前記最小矩形領域内の前記特定色の画素の比率を用いて前記最小矩形領域が文字部分であるか否かを判定する、請求項１〜３のいずれかに記載の画像処理装置。
前記第２の判定手段が用いる前記特定色の画素の比率は、前記最小矩形領域全体における比率と、前記最小矩形領域をさらに分割した小領域における比率とを含む、請求項４に記載の画像処理装置。
前記第１の文字判定および／または前記第２の文字判定で文字部分であると判定された第１領域を可逆圧縮する第１の圧縮手段と、
前記第１の文字判定および／または前記第２の文字判定で文字部分でないと判定された第２領域を非可逆圧縮する第２の圧縮手段とを含む、請求項１〜５のいずれかに記載の画像処理装置。
前記第２の圧縮手段は、前記第２領域の解像度を低下させる手段を含む、請求項６に記載の画像処理装置。
コンピュータに文字判定処理を実行させるプログラムであって、
画像データを得る画像データ取得ステップと、
前記画像データに含まれる領域について、テキスト領域か図領域かを判別する判別ステップとを実行させる文字判定プログラムであって、
前記判別ステップにおいてテキスト領域と判別された場合には、
前記テキスト領域から行間を検出する行間検出ステップと、
前記テキスト領域から前記行間を除いた領域内で、前記テキスト領域に含まれる前記第１の画素と前記第２の画素とを連結する連結ステップと、
前記テキスト領域についてラベリングを行なって、連結された前記第１の画素および前記第２の画素を囲む最小矩形領域を得る第１の最小矩形領域取得ステップと、
前記最小矩形領域が文字部分であるか否かを判定する第１の判定ステップとからなる第１の文字判定処理を前記コンピュータに実行させ、
前記判別ステップにおいて図領域と判別された場合には、
行間を検出する処理および画像を連結する処理を行なうことなく、前記図領域についてラベリングを行なって、連続する画素を囲む最小矩形領域を得る第２の最小矩形領域取得ステップと、
前記最小矩形領域が文字部分であるか否かを判定する第２の判定ステップとからなる第２の文字判定処理を前記コンピュータに実行させる、文字判定プログラム。
前記第１の文字判定処理および／または前記第２の文字判定処理で文字部分であると判定された第１領域を可逆圧縮する第１の圧縮ステップと、
前記第１の文字判定処理および／または前記第２の文字判定処理で文字部分でないと判定された第２領域を非可逆圧縮する第２の圧縮ステップとをさらに実行させる、請求項８に記載の文字判定プログラム。
画像処理装置において画像データに含まれる文字を判定する方法であって、
前記画像データを得る画像データ取得ステップと、
前記画像データに含まれる領域について、テキスト領域か図領域かを判別する判別ステップとを含む文字判定方法であって、
前記判別ステップにおいてテキスト領域と判別された場合には、
前記テキスト領域から行間を検出する行間検出ステップと、
前記テキスト領域から前記行間を除いた領域内で、前記テキスト領域に含まれる前記第１の画素と前記第２の画素とを連結する連結ステップと、
前記テキスト領域についてラベリングを行なって、連結された前記第１の画素および前記第２の画素を囲む最小矩形領域を得る第１の最小矩形領域取得ステップと、
前記最小矩形領域が文字部分であるか否かを判定する第１の判定ステップとからなる第１の文字判定処理を実行し、
前記判別ステップにおいて図領域と判別された場合には、
行間を検出する処理および画像を連結する処理を行なうことなく、前記図領域についてラベリングを行なって、連続する画素を囲む最小矩形領域を得る第２の最小矩形領域取得ステップと、
前記最小矩形領域が文字部分であるか否かを判定する第２の判定ステップとからなる第
２の文字判定処理を実行する、文字判定方法。
前記第１の文字判定処理および／または前記第２の文字判定処理で文字部分であると判定された第１領域を可逆圧縮する第１の圧縮ステップと、
前記第１の文字判定処理および／または前記第２の文字判定処理で文字部分でないと判定された第２領域を非可逆圧縮する第２の圧縮ステップとをさらに含む、請求項１０に記載の文字判定方法。