JP4960817B2

JP4960817B2 - 画像処理装置、および画像処理方法

Info

Publication number: JP4960817B2
Application number: JP2007242667A
Authority: JP
Inventors: 修飯沼
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-09-19
Filing date: 2007-09-19
Publication date: 2012-06-27
Anticipated expiration: 2027-09-19
Also published as: US20090074291A1; JP2009077048A; US8126270B2

Description

本発明は、画像処理装置、および画像処理方法に関し、より詳細には、原稿画像の領域分離を実行可能な画像処理装置、および画像処理方法に関する。

近年の複写機は、内部画像処理のデジタル化によって、目覚しいスピードで多機能化が進んでいる。基本的な機能を挙げるだけでも、原稿を複写するコピー機能、ホストコンピュータで作成した文書のプリントが可能なＰＤＬ機能に加え、ネットワークを介して原稿を複写機外部に送るＳＥＮＤ機能を有している。さらには、コピー機能やＰＤＬ機能によって生成される原稿画像を複写機内部に保存・再利用を可能とするＢＯＸ機能、ＢＯＸ機能によって複写機内部に保存した原稿画像を利用する合成や製本といった編集機能など、数え切れないほどの機能を有している。

一方で、画像の品質に対する要求も高く、原稿の高い再現性を求めるあまり、複写機内部の画像処理解像度は６００ｄｐｉから１２００ｄｐｉ、２４００ｄｐｉへ、信号のビット数は８ｂｉｔから１０ｂｉｔ、１２ｂｉｔへと増加の一途を辿っている。よって、膨れ上がった情報量を持つ内部処理用のビットマップデータに耐えるだけのメモリやストレージの追加、高性能なＣＰＵへの置き換えなどによって、機器や開発のコストの増加が無視できない状況になっている。

こうした中で、読み取った原稿を領域単位に分離し、再利用しやすいように保存し、編集機能で使用するという技術が考えられている。この技術は特許文献１に開示されており、原稿に含まれる各領域を例えば、テキスト、グラフィックス、イメージといった領域に分け、領域の属性に適した処理を行うものである。例えば、テキストとグラフィック領域とに関しては、ベクトル化処理を行うことによって、ベクトルデータとして保存し、イメージに関しては、ＪＰＥＧに変換して保存し、編集機能で使用する。この技術によれば、非常に情報量の多い高解像度、多ビット数のビットマップデータを扱うことなく、また編集や変形が容易なベクトルデータを用いることで、コストの低下と操作性の向上が期待できるため、画質と利便性の向上を図ることができる。

一方、領域分離は、白黒２値となる２値化された画像に基づいて行われることが多い（特許文献２参照）。この２値化画像中の所定の黒画素の塊の集合と、所定の白画素の塊の集合とを抽出し、その集合体の形状、大きさ、集合状態から、テキスト領域、グラフィクス領域、イメージ領域等の抽出を行う。

このように、領域分離は２値化画像に対して行われるので、原稿画像がカラー画像の場合は、該カラー画像に対して予め２値化が行われる。このカラー画像に対する２値化においては、まず原稿画像のヒストグラムを求めて画素の明るさ（輝度）の分布から閾値を求める。次いで、原稿画像の各画素について、輝度と上記求められた閾値とを比較して白または黒への変換を行うことで、上記２値化が行われる。

ただし、スキャンしたり、ＰＣから送信されたりして入力された原稿データからオブジェクト単位の領域分離の際に、場合によっては正しく分離できない問題がある。

この問題は、上述のように領域分離を２値化して行うので、例えば、図３（ａ）のような分離対象の領域に下地部分（色がついた部分領域）がある場合などに多く見られる。この問題に対して、特許文献２では、原稿の下地レベルを領域毎に調べて、それに応じて上記２値化の閾値を変更する構成が開示されている。

特開２００５−１５９５１７号公報特開２００２−１９０９５７号公報

しかしながら、特許文献２では、以下のような課題が残る。
特許文献２では、カラー画像を２値化する際に、カラー画像から得られる輝度値のヒストグラムに基づいて、下地色の数だけ閾値を決定する。そして、該下地色分だけ求められた複数の閾値から下地色分の２値画像を作成している。よって、
［１］複数の下地レベルを持ち、処理するためには、下地の数分のページメモリが必要になる。すなわち、下地を飛ばし、分離を行うためのメモリと、分離した結果を保存するためのメモリとについて、Ａ４原稿なら、Ａ４原稿×下地の数分のメモリが必要になる。
［２］分離された結果を領域毎に別々に表示することを考えていない。したがって、ドキュメント単位でのプレビューでは、誤りがあっても目立たないあるいは気づかないが、領域単位で別々にＵＩ表示すると、領域分割の誤りが非常に目立ってしまう。
［３］領域分離処理には、完璧はなく、自動的に分離できなかったケースでの解決策が望まれる。例えば、下地の色と重なっている領域の色が下地の色と近い場合には、自動的に分離するのは難しいため、この分離結果を修正できるようにすることが必要と考えられる。

本発明は、このような問題を鑑みてなされたものである。その目的とするところは、第１の属性の領域（例えばテキスト領域）と第２の属性の領域とが重なっている場合でも、要するメモリ量を低減し、良好に領域分離が可能な画像処理装置、および画像処理方法を提供することにある。

このような目的を達成するために、本発明は、画像処理装置であって、原稿画像を取得する取得手段と、前記取得された原稿画像から該原稿画像を構成する領域を分離する第１の領域分離手段と、前記第１の領域分離手段にて分離された領域から、誤った文章を含むテキスト領域を検出する検出手段と、前記誤った文章の元文章の一部が重なっている第２の属性の領域を検出し、該検出された領域から、前記元文章の一部と前記第２の属性の領域とを分離する第２の領域分離手段と、前記第２の領域分離手段にて分離された元文章の一部を前記誤った文章を含むテキスト領域に合成する合成手段とを備えることを特徴とする。

また、本発明は、画像処理装置であって、原稿画像を取得する取得手段と、前記取得された原稿画像から該原稿画像を構成する領域を分離する第１の領域分離手段と、前記第１の領域分離手段にて分離された領域を表示する表示手段と、前記表示手段に表示された領域に基づいてユーザが選択した、第１の属性の領域の少なくとも一部が重なっている第２の属性の領域に関する情報を入力する手段と、前記入力された情報に基づいて、前記第１の属性の領域の少なくとも一部が重なっている第２の属性の領域を検出し、該検出された領域から、前記第１の属性の領域の少なくとも一部と前記第２の属性の領域とを分離する第２の領域分離手段とを備えることを特徴とする。

また、本発明は、画像処理方法であって、原稿画像を取得する取得工程と、前記取得された原稿画像から該原稿画像を構成する領域を分離する第１の領域分離工程と、前記第１の領域分離工程にて分離された領域から、誤った文章を含むテキスト領域を検出する検出工程と、前記誤った文章の元文章の一部が重なっている第２の属性の領域を検出し、該検出された領域から、前記元文章の一部と前記第２の属性の領域とを分離する第２の領域分離工程と、前記第２の領域分離手段にて分離された元文章の一部を前記誤った文章を含むテキスト領域に合成する合成工程とを有することを特徴とする。

また、本発明は、画像処理方法であって、原稿画像を取得する取得工程と、前記取得された原稿画像から該原稿画像を構成する領域を分離する第１の領域分離工程と、前記第１の領域分離工程にて分離された領域を表示する表示工程と、前記表示工程にて表示された領域に基づいてユーザが選択した、第１の属性の領域の少なくとも一部が重なっている第２の属性の領域に関する情報を入力する工程と、前記入力された情報に基づいて、前記第１の属性の領域の少なくとも一部が重なっている第２の属性の領域を検出し、該検出された領域から、前記第１の属性の領域の少なくとも一部と前記第２の属性の領域とを分離する第２の領域分離工程とを有することを特徴とする。

本発明によれば、領域毎にかつ、各領域に対応したメタデータを記憶装置に保存することが可能である。また、その領域を再利用することが可能なカラーＭＦＰにおいて、領域分離に失敗した箇所を自動的に発見し、その箇所を条件を変更して再度、領域分離することによって、領域分離の誤りを自動的に直すことが可能となる。

また、自動的に領域分離することができなかった場合にも、手動でユーザが分離したい領域を指定することにより、ユーザが望む領域分離方法を提供することが可能となる。

以下、図面を参照して本発明の実施形態を詳細に説明する。なお、以下で説明する図面で、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
本発明の一態様は、領域毎に記憶装置に保存することが可能で、その領域を再利用することが可能な画像処理装置（例えば、カラーＭＦＰやパーソナルコンピュータなど）に適用することができる。本発明の一実施形態に係る画像処理装置は、原稿画像を領域分離した後に、テキスト領域に対して文章解析を行う。すなわち、原稿画像から各領域を分離する第１の領域分離処理を行い、各分離された領域のうちテキスト領域に含まれる文章に対して文章解析を行う。

そして、上記画像処理装置は、文章解析結果から文章の誤りが予想できた場合、あるいは文章の誤りを検出できた場合には、そのテキスト領域の周囲にある領域に対して、第２の領域分離処理を行う。上記文章の誤りが予想されたり検出されたりする際は、テキスト領域に含まれる元文章の一部が、イメージ領域やグラフィクス領域に重なっている場合である。よって、上記元文章の一部が重なっている他の属性の領域を検出し、該他の属性の領域について第２の領域分離を行い、上記元文章の一部と他の属性の領域とを分離するのである。具体的には例えば、上記周囲にある領域について下地レベルを調べ、十分な下地飛ばしを行い、領域分離が容易になるようにしてから、再度、領域分離を行う。

上記再度行った領域分離（第２の領域分離）でテキスト領域が分離された場合、画像処理装置は、該分離されたテキスト領域に、領域情報としてテキスト領域情報を付加する。この付加と共に、上記文章解析により誤りがあると判断されたテキスト領域（誤った文章を含むテキスト領域）に合成することにより、文章解析も正しくなり、ＵＩ表示上も正確に表示できるようにすることができる。すなわち、第２の領域分離により分離された元文章の一部を、誤りがあると判断された文章を含むテキスト領域（誤った文章を含むテキスト領域）に合成することによって、正しい文章に直すことができる。

また、本発明の一実施形態では、第１の領域分離処理により得られた各領域において、修正すべき領域をユーザが選択するようにしても良い。例えば、領域分離結果を領域毎に表示するモードにした場合、図４のように分離された領域ごとに別個に表示されるので、領域分離処理が誤っている場合、ユーザはその誤りを視認しやすい。この場合は、領域分離されたオブジェクト（領域）を表示部等のＵＩ上に表示し、その中で、ユーザが、分離に誤りのある領域を選択し、選択された領域に対して、分離したい箇所と下地部分を選択する。これにより、分離したい箇所の支配的な色のみが残るような処理を施し、領域分離が容易になるようにし、上記第２の領域分離処理を行う。

また、このようにユーザが修正すべき領域を選択することは第２の領域分離処理の前に行うことに限らず、場合によっては第２の領域分離処理の後に行うようにしても良い。すなわち、第２の領域分離処理が正常に終わらなかった場合にも有効である。例えば、第２の領域分離処理を行った場合であっても、領域分離の設定によっては図４に示すような分離結果を示す場合があるかもしれない。この場合、ユーザが上記選択処理の指示を入力することによって、上記修正すべき領域を選択することができ、画像処理装置は、再度、領域分離（第３の領域分離）を行う。

また、上記選択処理は、第２の領域分離の対象がテキスト領域以外の領域にも有効である。

上述の第１の領域分離の結果を、ディスプレイ等の表示部にＵＩ表示等してユーザに提示することが好ましい。例えば、図３（ａ）のような原稿画像３０１を領域分離すると図３（ｂ）のようになる。すなわち、原稿画像３０１において、イメージ領域３０２（色の付いた下地領域）に文字である“あ”が一部重なっており、領域分離を行うと図３（ｂ）に示すように、“あ”は、イメージ領域に含まれてしまう場合がある。このような場合に領域分離結果を領域毎に表示するモードにしていると、表示部のＵＩ画面には、図４のような分離結果が表示されることになる。図４のように分離結果をＵＩ表示することによって、分離された領域の誤り（例えば、テキスト領域に含まれる文章の誤りなど）をユーザは容易に認識することができる。このようにユーザが容易に領域分離の誤りを認識できることは、上記ユーザの選択の際に威力を発揮する。すなわち、ユーザが領域分離の誤りを容易に認識できるので簡単に上記ユーザによる選択を行うことができ、その結果、良好な領域分離を容易に行うことができる。

上述のように、本発明の一実施形態によれば、第１の領域分離の結果、２つの領域が重なっている場合であっても、該２つの領域が重なっている領域に対して再度、第２の領域分離を行う。よって、例えば原稿画像３０１のように、下地色が２個（図３（ａ）中の白と、イメージ領域３０２の色）ある場合であっても、従来のように２ページ分のメモリを必要としない。従って、使用するメモリを低減しつつ、良好に領域分離を行うことができる。

また、本発明の一実施形態では、上記ユーザによる選択を行うことにより、第１の属性の領域が第２の属性の領域に完全に含まれる場合であっても、第１の属性の領域と第２の属性の領域とを良好に分離することができる。すなわち、第１の属性の領域の少なくとも一部が重なっている第２の属性の領域をユーザが選択し、該ユーザが選択した領域について第２の領域分離を行うのである。

なお、本明細書において、「領域」とは、テキスト（文字）、グラフィクス、イメージなど、原稿画像を構成する、所定の特徴を有するオブジェクト部分である。よって、原稿画像において、テキストに対応する部分はテキスト領域となり、グラフィクスに対応する部分はグラフィクス領域となり、イメージに対応する部分はイメージ領域となる。

また、本明細書において、「属性（領域属性）」とは、領域がどのようにカテゴライズされたオブジェクトであるのかを示すものである。よって、属性が、テキストである領域はテキスト領域となり、グラフィクスである領域はグラフィクス領域となり、イメージである領域はイメージ領域となる。

（第１の実施形態）
図１は本実施形態の画像処理システムの構成を示すブロック図である。
この画像処理システムは、オフィス１０がインターネット等のネットワーク１０４で接続された環境で実現することができる。

オフィス１０内に構築されたＬＡＮ１０７には、複数種類の機能（複写機能、印刷機能、送信機能等）を実現する複合機であるＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）１００が接続されている。また、ＬＡＮ１０７には、ＭＦＰ１００を利用するクライアントＰＣ１０２、データベース１０５、及びプロキシサーバ１０３が接続されている。さらに、オフィス１０内のＬＡＮ１０７は、それぞれのオフィスのプロキシサーバ１０３を介してネットワーク１０４に接続されている。

尚、図１の構成は一例であり、オフィスはもっと複数存在してもよいし、ネットワーク１０４は、典型的にはインターネットやＬＡＮやＷＡＮや電話回線、専用デジタル回線、ＡＴＭやフレームリレー回線により実現することができる。また、この他に、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等のいずれか、またはこれらの組み合わせにより実現されるいわゆる通信ネットワークである。すなわち、データの送受信が可能であればいずれの形態を用いても良い。

また、クライアントＰＣ１０２の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素（例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等）を有している。

次に、ＭＦＰ１００の詳細構成について、図２を用いて説明する。図２は本実施形態のＭＦＰの詳細構成を示すブロック図である。
図２において、データ処理部２０６は、種々の演算、制御、判別などの処理動作を実行するＣＰＵ（不図示）を有する制御部（不図示）を備えている。該制御部は、該ＣＰＵによって実行される、図５、１２、１７等にて後述される本発明に係る処理などの制御プログラムなどを格納するＲＯＭ（不図示）を有している。さらに、制御部は、上記ＣＰＵの処理動作中のデータや入力データなどを一時的に格納するＲＡＭ（不図示）などを有する。

データ処理部２０６には、画像読取部２０１、記憶部２０２、印刷部２０３、入力部２０４、ネットワークＩ／Ｆ２０５、および表示部２０７が接続されており、上記制御部は上記各構成を統合して制御する。

オートドキュメントフィーダ（ＡＤＦ）を含む画像読取部２０１は、例えばスキャナとすることができる。画像読取部２０１は、束状のあるいは１枚の原稿画像を光源（不図示）で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からビットマップ状の画像読取信号を所定解像度（６００ｄｐｉ等）のビットマップデータとして得る。

また、ＭＦＰ１００は、画像読取信号に対応する画像を印刷部２０３で記録媒体に印刷する複写機能を有する。原稿画像を１つ複写する場合には、この画像読取信号をデータ処理部２０６で画像処理して記録信号を生成し、これを印刷部２０３によって記録媒体上に印刷させる。一方、原稿画像を複数複写する場合には、記憶部２０２に一旦一ページ分の記録信号を記憶保持させた後、これを印刷部２０３に順次出力して記録媒体上に印刷させる。このようにして、画像読取部２０１にて読取った画像に基づいて、データ処理部２０６は原稿画像を取得する。

また、ネットワークＩ／Ｆ２０５を介する通信機能においては、画像読取部２０１から得られるビットマップデータを後述する処理によってオブジェクトデータに変換してデータベース１０５に送信することができる。また、ネットワークＩ／Ｆ２０５を介して、データベース１０５に保存されているオブジェクトデータを再利用のため受信することもできる。さらに、ベクトルデータを格納可能なＸＰＳやＰＤＦ等のファイル形式の画像ファイルへと変換してクライアントＰＣ１０２に転送することもできる。この場合、ネットワークを介して、クライアントＰＣ１０２等の外部装置から画像が入力され、データ処理部２０６は、該入力されたデータに基づいて原稿画像を取得する。

すなわち、本実施形態では、ＭＦＰ１００は、自身が有する画像読取部によって読取ったり、ネットワークや、磁気ディスク、光ディスク、フラッシュメモリ等の可搬メディアを介して入力された画像に基づいて、原稿画像を取得するのである。

また、印刷部２０３による印刷機能においては、例えば、クライアントＰＣ１０２から出力された印刷データをネットワークＩ／Ｆ２０５経由でデータ処理部２０６が受信することができる。この場合、データ処理装置２０６は、その印刷データを印刷部２０３で印刷可能な記録信号に変換した後、印刷部２０３によって印刷媒体上に画像を形成する。

このように、本実施形態では、印刷部２０３を、プリンタ等の画像形成装置とすることができる。この画像形成方式も、感光体ドラムや感光体ベルトを用いた電子写真方式や、微少ノズルアレイからインクを吐出して用紙上に印字するインクジェット方式など、記録媒体に画像形成可能であればいずれの方式を用いても良い。

ＭＦＰ１００への操作者の指示は、ＭＦＰ１００に装備された入力部２０４から行われ、これらの動作はデータ処理部２０６内の制御部で制御される。また、操作入力の状態表示及び処理中の画像データの表示は、表示部２０７で行われる。

また、記憶部２０２は、後述する処理によって得られる領域データ（領域情報）を記憶する記憶領域と、データ処理部２０６において各種画像処理の際に利用される画像処理用バッファとが確保されている。さらに、記憶部２０２は、上記領域データに基づく画像編集を行う場合に領域データをコピーしたデータを画像編集用データとして記憶する画像編集用バッファが確保されている。

＜原稿画像の領域分離＞
図５は、本実施形態に係る原稿画像の第１の領域分離に関する処理を示すフローチャートである。
例えば、図６（ａ）のような原稿画像６０４がＭＦＰ１００の画像読取部２０１で読み込まれたとする。

ステップＳ５０１では、データ処理部２０６は、画像読取部２０１にて読み込まれたビットマップ画像に対してスキャナ画像処理を施すことにより、原稿画像（スキャン画像）が得られる。スキャナ画像処理とは、色処理やフィルタ処理を指し、ノイズの低減等が行われる。

次にステップＳ５０２において、データ処理部２０６は、原稿画像の色値分布を調べるためにヒストグラムを生成する。生成されたヒストグラムから、次のステップＳ５０３において、データ処理部２０６は、ステップＳ５０４で使用する２値化閾値を所定の基準に従って決定する。このヒストグラム分布に基づく２値化閾値決定処理は、公知の技術を用いることが可能である。

ステップＳ５０４において、データ処理部２０６は、原稿画像に対して２値化処理して２値化画像を生成する。

ステップＳ５０５において、データ処理部２０６は、２値化画像から、上記２値化処理により黒く塗りつぶされた部分（黒領域）を検出する。この黒領域の検出は、黒画素が連結した領域である。

さらにステップＳ５０６では、データ処理部２０６は、その黒領域内部を解析する。この解析とは、黒下地に白文字の反転文字になっていないかを解析する。例えば、黒画素の画素密度を解析したり、黒領域内部に存在する白領域を調べたり、黒領域の大きさを調べたりすることにより、領域の属性などを決定することができる。領域の属性は、例えば、文字、イメージ、グラフィックス、表領域などであり、また反転文字領域であるかどうかも解析できる。

そして、ステップＳ５０７において、データ処理部２０６は、最終的な２値化画像（ビットマップ画像）を生成する。このとき、反転文字領域内部を白黒反転することで、ＯＣＲ処理に適した文字画像に変換することができる。

ステップＳ５０８では、データ処理部２０６は、ステップ５０７にて取得された最終的な２値化画像から、各領域を分割して第１の領域分割を行う。なお、Ｓ５０６で文字属性と判断された黒連結画素は、行方向・列方向で近くに文字属性の黒連結画素があれば、これらは同じ文字領域に属すると判断し、１つの文字領域として分離する。例えば、図６（ａ）の画像に対して領域分離処理を行った場合、図６（ｂ）に示すように、テキスト領域６０３とグラフィックス領域６０１とイメージ領域６０２とに分ける。なお、領域分離処理（領域分割処理）の手法はこれに限るものではない。

ステップＳ５０９では、データ処理部２０６は、ステップＳ５０８にて分離された領域に対して、それぞれの領域情報と領域に関連する情報とをメタデータとして生成し、該メタデータを最終的な２値化画像に付加する。すなわち、領域情報と領域に関連する情報とを関連付ける。

なお、本明細書において、「領域情報」とは、その領域がどの属性かを示す情報である。よって、例えば、ステップＳ５０８にて分離されたある領域がテキスト領域である場合は、領域情報は、対象となる領域がテキスト領域であることを示す情報となる。

また、本明細書において、「領域に関連する情報」とは、対象となる領域の原稿画像中の座標や、対象となる領域の大きさなど、領域の位置や特徴を示す情報である。

ステップＳ５１０において、データ処理部２０６は、上記メタデータを参照して、第１の領域分離された領域の各々について、該領域がテキスト領域なのか、イメージ領域なのか、グラフィクス領域なのかを判断する。

イメージ領域に関しては、ステップＳ５１４において、データ処理部２０６は、上記メタデータ中の領域に関連する情報に基づいて、ステップＳ５０１で得た元の原稿画像の対応する位置からイメージ領域を抽出する。そして、該抽出されたイメージ領域に対してＪＰＥＧ圧縮を施す。次いで、ステップＳ５１５において、データ処理部２０６は、ＪＰＥＧ圧縮されたイメージ領域データを、保存ファイルに関連付けてＢＯＸ（記憶部２０２）に保存する。

ステップＳ５１０にて、グラフィックス領域と判断された領域に関しては、ステップＳ５１３において、データ処理部２０６は、ベクトル化処理を施す。すなわち、データ処理部２０６は、上記メタデータ中の領域に関連する情報に基づいて、上記最終的な２値化画像からグラフィクス領域を抽出し、該抽出されたグラフィクス領域に対してベクトル化処理を行う。このベクトル化処理は、公知の技術を使用することが可能であり、例えば、２値画像内の黒画素の輪郭に基づいてベクトルデータ（パス化されたデータ）へ変換する。また、当該グラフィックス領域の位置に対応する原稿画像の色に基づいて、代表色を決定して、当該ベクトルデータの色として採用する。データ処理部２０６は、該ベクトル化処理が施されたグラフィクス領域をパス化されたデータとして、ステップＳ５１５において、ＢＯＸに保存する。

ステップＳ５１０にて、テキスト領域と判断された領域に関しては、ステップＳ５１１において、データ処理部２０６は、図７に示すように、文字を一つずつ切り離す、文字切り（文字抽出）という作業を行う。すなわち、データ処理部２０６は、上記メタデータ中の領域に関連する情報に基づいて、上記最終的な２値化画像からテキスト領域を抽出し、該抽出されたテキスト領域に対して上記文字切り作業を行う。

次いで、ステップＳ５１２において、データ処理部２０６は、ステップＳ５１１にて文字切りされたテキスト領域（ビットマップ画像）に対してＯＣＲ処理を施し、文字コード情報を得る。データ処理部２０６は、ステップＳ５１２にてＯＣＲ処理されて得られたコード情報を、後にステップＳ５１５でＢＯＸに保存することになる。更に、データ処理部２０６は、ステップＳ５１１にて文字きりされたテキスト領域に対して、ステップＳ５１３でベクトル化処理を施す。データ処理部２０６は、該ベクトル化処理が施されたテキスト領域をパス化されたデータとしてステップＳ５１５において、ＢＯＸに保存する。なお、テキスト領域をベクトル化する際は、以下の２つの方法を併用することとする。すなわち、該併用する第１の方法は、フォントの種類を認識してフォント情報（ベクトルフォント）と文字認識結果の文字コードとを対応付けることによりベクトルデータを生成する方法である。また、上記併用する第２の方法は、グラフィックス領域と同様に、文字画像の輪郭に基づいてベクトルデータを生成する方法である。

最後にステップＳ５１６において、データ処理部２０６は、領域分離された領域を領域別に表示部２０７に示す。表示部２０７に表示したＵＩ画面の一例を図８に示す。

なお、本実施形態では、テキスト領域、グラフィクス領域についてはベクトル化処理を行い、イメージ領域についてはＪＰＥＧ圧縮を行っているので、編集機能を行う際等、データ量が少なくて済むので、コスト削減、および操作性の向上が実現できる。

なお、本発明で特に重要なことは、領域分離に用いるメモリを低減し、効率よく領域分離を行うことである。すなわち、上記ベクトル化処理や圧縮処理を行わない場合にも本発明を適用することができる。この場合は、ステップＳ５１０において、データ処理部２０６が、メタデータに基づいて、最終的な２値化画像から各領域を抽出し、該抽出されたデータを記憶部２０２に保存すれば良い。

＜領域分離（ステップＳ５０４〜ステップＳ５０８）の詳細＞
まず、データ処理部２０６は、原稿画像を白黒に二値化し、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行って白画素の塊を抽出、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。

データ処理部２０６は、このようにして得られた黒画素の塊を、大きさ及び形状で分類し、異なる属性を持つ領域へ分類していく。例えば、縦横比が１に近く、大きさが一定の範囲の領域はテキスト相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分をテキスト領域とする。また、不定形の画素塊が散在している領域をイメージ領域、それ以外の任意形状の画素塊をグラフィックス領域とする。このようにして、原稿画像から該原稿画像を構成する領域を分離する（第１の領域分離処理）。

＜ＯＣＲ処理（ステップＳ５１２）の詳細＞
ここでは公知のＯＣＲ処理技術を使用して、文字認識処理を行う。

『文字認識処理』
テキスト領域に対して文字認識処理を行う場合は、まず、該当文字ブロックに対し、横書き／縦書きの判定を行い、各々対応する方向に文字列を切り出し、その後、文字列から文字を切り出して文字画像を取得する。

横書き／縦書きの判定は、該当文字ブロック内で画素値に対する水平／垂直の射影を取り、水平射影の分散が大きい場合は横書き、垂直射影の分散が大きい場合は縦書きと判定する。文字列及び文字への分解は、横書きのテキスト領域である場合には、その水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことで行う。一方、縦書きのテキスト領域に対しては、水平と垂直を逆にすれば良い。なお、このときに、文字のサイズを検出することもできる。

文字認識処理では、データ処理部２０６は、テキスト領域から文字単位で切り出された文字画像に対し、パターンマッチの一手法を用いて文字認識を行い、対応する文字コードを取得する。特に、この文字認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルとを比較し、最も距離の近い字種を認識結果とするものである。

観測特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュブロック内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。

＜ベクトル化処理（ステップＳ５１３）の詳細＞
まず、文字領域に対するベクトル化処理について説明する。文字領域のベクトル化処理は、フォント認識を利用したベクトル化と文字画像の輪郭を利用したベクトル化とを併用することが可能である。

『フォント認識処理』
データ処理部２０６は、文字認識処理の際に用いる、字種数分の辞書特徴ベクトルを、文字形状種、即ち、フォント種に対して複数用意し、マッチングの際に文字コードとともにフォント種を出力することで、文字のフォントを認識することができる。

『文字のベクトル化処理』
データ処理部２０６は、上記文字認識処理及びフォント認識処理によって得られた、文字コード及びフォント情報を用いて、各々あらかじめ用意されたフォント毎のアウトラインデータ（ベクトルフォント）を用いて、文字部分の情報をベクトルデータに変換する。すなわち、文字コードとフォント種別とベクトルフォントとに基づいて、文字領域を再現することが可能である。尚、原稿画像がカラー画像の場合は、そのカラー画像から各文字の色を抽出してベクトルデータとともに記録する。

一方、文字認識結果が間違っている可能性が高い（類似度が低い）場合などは、フォントのアウトラインデータを使わずに、文字画像の輪郭に基づいてベクトルデータへ変換した方が正確に再現できる。文字画像の輪郭に基づくベクトル化処理は、グラフィックス領域のベクトル化処理と同様の処理であるので、以下では、グラフィックス領域のベクトル化処理について説明する。

『グラフィックス領域のベクトル化処理の詳細』
グラフィックス領域については、データ処理部２０６は、そのブロック中で抽出された画素塊の輪郭に基づいてベクトルデータに変換する。

具体的には、輪郭をなす画素列から所定間隔の点列を得て、その点列のうち角と看倣される点で区切って、各区間を部分的な直線あるいは曲線で近似する。角とは曲率が極大となる点であり、曲率が極大となる点は、図９に示すように、任意点Ｐｉに対し左右ｋ個の離れた点Ｐｉ−ｋ、Ｐｉ＋ｋの間に弦Ｌを引いたとき、この弦ＬとＰｉの距離ｌが極大となる点として求められる。

また、Ｐｉ−ｋ、Ｐｉ＋ｋ間の｛（弦の長さ）／（弧の長さ）｝をＲとし、Ｒの値が閾値以下である点を角とみなすことができる。角によって分割された後の各区間は、直線は点列に対する最小二乗法等の計算式を用いて、また、曲線は３次スプライン関数等の関数を用いてベクトル化することができる。

また、対象が内輪郭を持つ場合（すなわち、黒画素塊の内部に白画素塊がある場合）、領域分離処理で抽出した白画素輪郭の点列を用いて、同様に部分的直線あるいは曲線で近似する。

以上のように、輪郭の区分線近似を用いれば、任意形状の図形のアウトラインをベクトル化することができる。尚、原稿画像がカラー画像の場合は、そのカラー画像から図形の色を抽出してベクトルデータとともに記録する。

また、図１０に示すように、ある区間で外輪郭と、内輪郭あるいは別の外輪郭が近接している場合、２つの輪郭線をひとまとめにし、太さを持った線（線幅情報と１本の輪郭線）として表現することができる。

具体的には、ある輪郭の各点Ｐｉから別輪郭上で最短距離となる点Ｑｉまで線を引き、各距離ＰＱｉが平均的に一定長以下の場合、注目区間はＰＱｉ中点を点列として直線あるいは曲線で近似し、その太さ（線幅）はＰＱｉの平均値とする。線や線の集合体であるグラフィックス領域や表罫線などは、このような太さを持つ線の集合として効率よくベクトル表現することができる。

尚、前述したように、テキスト領域に対してベクトル化処理を行う場合、文字認識処理を用いたベクトル化を説明した。ここでは、該文字認識処理の結果、辞書からの距離が最も近い文字を認識結果として用いるが、この距離が所定値以上の場合（類似度が低い場合）は、形状が類似する他の文字として誤認識している場合が多い。

従って、本実施形態では、このようなテキスト領域に対しては、一般的なグラフィックス領域（線画）と同じに扱い、そのテキスト領域を文字画像の輪郭に基づいてアウトラインベクトル化する。即ち、従来の文字認識処理で誤認識を起こす文字に対しても誤った文字にベクトル化されず、可視的にイメージデータに忠実なアウトライン化によるベクトル化が行える。
なお、写真などのイメージ領域に対しては、複雑な形状をしていることが多く、ベクトル化するとデータ量が大きくなってしまう可能性が高いので、そのままイメージデータとしてＪＰＥＧ圧縮等を扱い、ベクトル化は実行しない。

＜メタデータ＞
図１１に示すように、メタデータの構成は、階層的とすることができる。例えば、基礎情報１１０１には、原稿画像が作成された日時や作成者等が記載されている。また、付加情報１１０２には、その原稿画像がどのような形をしているのか等が記載されている。本実施形態では、ステップＳ５０９にて作成された領域情報、領域に関連する情報は、付加情報としてメタデータに付加される。

メタデータを階層的な構成にするのは、階層に応じてセキュリティのレベルを変えることができ、誰でも見える情報や特定のユーザにしか見えない情報を区別するのに便利であるためである。

なお、メタデータの記載に関しては、ＸＭＬ等の記述言語が使用され、記述方式は、自由である。

＜オブジェクト（領域）別ＵＩ画面表示＞
図８に図６（ａ）の原稿画像６０４を領域分離して、メタデータを付加して、ベクトル化して、ＢＯＸ保存された場合に分離された領域を表示しているＭＦＰにおけるＵＩ画面の一例を示す。

原稿画像６０４を構成している領域は３つで、テキスト領域６０３、イメージ領域６０２、グラフィックス領域６０１である。それぞれの領域をＵＩ画面８０１に個別に表示する。個別に表示された領域を選択することにより、その領域が持っているメタデータに表記されている内容を参照することが可能である。

また、領域を複数選択し、編集ボタン８０２を押下すると自動的にレイアウトされ、再構成されたドキュメントを作成することが可能である。また、自分のＰＣに領域を送付したい時には、送信ボタン８０３を押下することにより、可能となる。

＜本実施形態に係る領域分離の説明＞
図１２に本実施形態の領域分離の概要を示すフローチャートを示す。
ステップＳ１２０１では、データ処理部２０６は、スキャナ等の画像読取部２０１により読み込まれた原稿画像の画像データを、図５に示した第１の領域分離を行い、領域分離とベクトル化とを行う。

次に、ステップＳ１２０２において、データ処理部２０６は、Ｓ５０９にて付加されたメタデータを参照し、テキスト領域に関して、文章解析を行う。

ステップＳ１２０３において、データ処理部２０６は、上記テキスト領域に含まれる文章について、ステップＳ１２０２にて行われた文章解析の結果が正しいか否かの判断を行う。正しい場合には、領域分離処理が正しく行われたと判断して、ステップＳ１２１４にて、データ処理部２０６は、表示部２０７のＵＩ画面に領域分割した結果を表示して終了する。

一方、ステップＳ１２０３の判断結果が正しくないと判断した場合には、ステップＳ１２０４に進む。例えば、図３（ａ）のような画像に領域分離処理を行ったときに図３（ｂ）のように分離された場合、各領域別に表示すると、図４のテキスト領域４０２に示すように、テキスト領域に含まれる文章に誤りが生じている。このとき、テキスト領域４０２のＯＣＲ結果に対して文章解析を行うと、文章の意味が成立していないので、領域分離処理が正しく行われなかったと判断される。このようにして、データ処理部２０６は、第１の領域分離によって分離された領域のうち、誤った文章を含むテキスト領域を検出する。

ステップＳ１２０４において、データ処理部２０６は、メタデータを参照して、そのテキスト領域の周囲に存在するテキスト領域以外の領域を探索し、その個数をＡとする。すなわち、データ処理部２０６は、メタデータに含まれる領域情報および領域に関連する情報に基づいて、当該テキスト領域の周囲（近傍）にあるテキスト領域以外の領域を抽出し、該領域の個数Ａをデータ処理部２０６が有するＲＡＭに記憶する。例えば、当該テキスト領域の上下左右に他の領域があるか探索し、探索された領域を処理対象領域とする。

検索の結果が０個の場合は、ステップＳ１２１４にて、データ処理部２０６は、表示部２０７のＵＩ画面に領域分離した結果を表示して終了する。１個以上検索した場合は、ステップＳ１２０６に進み、カウンタＮを１にする。なお、ステップＳ１２０６では、２回目以降は、データ処理部２０６は、カウンタＮを１進める。すなわち、データ処理部２０６は、ステップＳ１２０５の次にステップＳ１２０６を行う場合は、“０”であるカウント値を“１”にし、該カウント値をデータ処理部２０６が有するＲＡＭに記憶する。また、後述するステップＳ１２１３の次にステップＳ１２０６を行う場合は、データ処理部２０６は、ＲＡＭに記憶されているカウント値を１ずつ累積し、該累積されたカウント値をＲＡＭに記憶する。なお、処理対象領域は、文字行の方向にある領域から順に選択され、その後、隣の文字行の位置にある領域が順に選択されていく。

なお、本実施形態において、テキスト領域の周囲に存在するテキスト領域以外の領域を抽出することは重要である。本実施形態において、Ｓ１２０４を行うということは、図４のテキスト領域４０２のようにテキスト領域に含まれる文章が正しくないからである。この場合、イメージ領域４０１の文字“あ”のように、上記文章に必要だったはずのテキスト（文字）が周囲の他の属性の領域に含まれていることが考えられる。すなわち、テキスト領域中の文章を構成する一部のテキストが、他の属性の領域に重なることで、第１の領域分離によって、上記重なった一部のテキストが、テキスト領域ではなく、他の属性の領域に含まれることがある。

上記重なったテキストを含む他の属性の領域は、第１の領域分離の結果、正しくない文章を含むテキスト領域の周囲にあるはずである。図３（ｂ）において、イメージ領域３０３はイメージ領域４０１に対応し、テキスト領域３０４はテキスト領域４０２に対応しているが、正しくない文章を含むテキスト領域３０４の周囲に、“あ”が重なっているイメージ領域３０３が存在している。

テキスト領域３０４は文章解析の結果、正しくないと判断されるので、このテキスト領域の文字行方向（横書きなので水平方向）に存在する他の領域を探索し、その結果、イメージ領域３０３が対象領域となる。このように、正しくない文章を含むテキスト領域の周囲の領域を抽出し、この抽出した領域を対象として、後述の第２の領域分離により、文字を抽出し、これらの抽出された文字を合成することにより、正しい文章の復元を行うことができる。

なお、「テキスト領域の周囲に存在するテキスト領域以外の領域の抽出」とは、画像処理装置やシステムの設計に応じて様々な方法が考えられる。例えば、対象となるテキスト領域から所定の距離（所定の画素）内にある領域を、“周囲に存在するテキスト領域以外の領域”として抽出することができる。なお、他のテキスト領域も判断対象に含めて抽出するようにしても構わない。また、対象となるテキスト領域の４方や８方において、すぐ隣にある領域を、“周囲に存在するテキスト領域以外の領域”として抽出しても良い。

このように、データ処理部２０６は、文章解析の結果、正しくないと判断された文章があれば、その周囲の領域を検査することにより、他の領域に重なっている文字を含む領域を抽出して合成することになる。すなわち、データ処理部２０６は、第１の領域分離にて分離された領域のうち、テキスト領域の一部が重なっている、該テキスト領域以外の領域を検出する。

次に、ステップＳ１２０７において、データ処理部２０６は、１つめの対象領域（テキスト領域の周囲に存在するテキスト領域以外の領域のうちの１つ）に対して、図１３（ａ）から図１３（ｂ）になるような強力な下地除去を行う。下地除去は公知技術を用いることが可能であり、例えば、当該対象領域の原稿画像の色に基づいて閾値を変更することにより、下地除去してもよい。この下地除去によって、対象領域とそれ以外の領域の区別がつきやすくなり、第２の領域分離がやりやすくする。例として図４では、上記対象領域はイメージ領域４０１である。

そして、ステップＳ１２０８において、上記下地除去された対象領域について、領域分離（第２の領域分離）を行い、対象領域に含まれる複数の領域の分離を行う。例えば、図４では、イメージ領域４０１に対して第２の領域分離を行い、イメージ領域である正方形部分から、テキスト領域である“あ”を分離する。データ処理部２０６は、この分離されたそれぞれの領域に対してベクトル化を行う。

本実施形態では、一度、第１の領域分離によって得られたイメージ領域４０１に対して、ステップＳ１２０７のような下地除去を行って、再度領域分離を行うので、文字が抽出されやすくなる。よって、下地の色と重なっている文字の色とが近い場合であっても、容易に第２の領域分離を行って文字を抽出することができる。

ステップＳ１２０９において、データ処理部２０６は、第２の領域分離により得られた領域がテキスト領域か、またはそれ以外の領域かの判定を行う。第２の領域分離で得られた領域がテキスト領域で無い場合には、ステップＳ１２１０にて、その領域の属性に応じて新たな領域情報をメタデータに付加する。第２の領域分離により得られた領域がテキスト領域の場合には、ステップＳ１２１１において、データ処理部２０６は、第２の領域分離にて得られた新たなテキスト領域について、テキスト属性の領域情報をメタデータに付加する。また、このテキスト領域に対してＯＣＲ処理をおこなって、文字認識結果を得る。

次にステップＳ１２１２において、データ処理部２０６は、メタデータを参照して、文章解析の結果が正しくなかったテキスト領域と第２の領域分離で得たテキスト領域とを比較して合成するかどうか判断する。各テキスト領域の文字認識結果を繋げて文章会席を行った場合、繋げた後の文章解析結果の方が良くなると判断した場合は、各テキスト領域の合成を行う。ステップＳ１２１３において、ＲＡＭに記憶されたカウント値に基づいて、ステップＳ１２０４で検出された領域の個数Ａとカウンタの個数Ｎとを比較する。カウンタの個数Ｎが個数Ａ以上となっていたら、検出された領域の再領域分離（第２の領域分離）が終了したことを意味するので、ステップＳ１２１４において、データ処理部２０６は、結果を表示部２０７のＵＩ画面に表示する。このとき、データ処理部２０６は、ＲＡＭに累積された個数Ｎを０にリセットする。一方、ステップＳ１２１３において個数Ａが個数Ｎよりも大きい場合は、抽出（検出）された領域の全てに対して処理が終了していないので、ステップＳ１２０６に進み、個数Ｎが個数Ａ以上となるまで、ステップＳ１２０６〜ステップＳ１２１３を繰り返す。

＜文章解析＞
ステップＳ１２０２の文章解析において、通常は文字領域毎に文章解析を行うが、図１４のように段組と判断される文字領域に関しては、段組間で繋げて文章解析を行うことにより、文章解析結果は正しいと判断される。図１４の場合は、段組された文書で領域分離を行うとテキスト領域１４０１とテキスト領域１４０２との２つのテキスト領域として分割される。しかしながら、段組と判断して繋げて解析すると、文章としてのつながりを持っている領域なので、各テキスト領域の文章解析の結果がおかしくても、テキスト領域を再領域分離（第２の領域分離）の対象とはしない。

＜結果の表示＞
ステップＳ１２１４におけるＵＩ画面の一例を図１５に示す。
図４では、イメージ領域４０１において、テキスト領域４０２の一部が下地と重なり、うまく領域分離できず、一つの領域としてＵＩに表示されている。しかしながら、図１５では、イメージ領域１５０１は下地と文字の分離が行われ、更には、テキスト領域１５０２では、正しい文章として、ＵＩに表示することが可能となる。

なお、第１および第２の実施形態では、原稿画像の入力をスキャナ等の画像読取部２０１から行っているが、クライアントＰＣ１０２等の外部装置から入力するようにしても良い。また、上述した可搬メディアを介して原稿画像を入力しても良い。

（第２の実施形態）
本発明は第１の実施形態に限った話ではない。本実施形態では、第２の領域分離を行うべき領域をユーザが選択する形態を説明する。
第２の実施形態に係る処理に関連するフローチャートを図１７に示す。また、ＭＦＰのＵＩ画面上に表示される画面の一例として図１６（ａ）、図１６（ｂ）、図１６（ｃ）を示す。

ステップＳ１７０１において、データ処理部２０６は、図５に示す処理に従って、領域分離（第１の領域分離）された領域を領域毎に表示部２０７のＵＩ画面に表示する。その画面の一例を図４に示す。ユーザは、この画面を見ながら、分離結果が正しいか否かを判断する。分離結果が正しい場合は、ユーザはマウスなどの入力部２０４を操作して、ＵＩ画面の「ＯＫ」ボタンを押す。すると、ユーザによる「ＯＫ」ボタンの押下に応じて、分離結果が正しいことを示す目視結果情報が画像処理装置に入力される。

一方、ユーザがＵＩ画面に表示されている各々の領域から分離結果に誤りがあると判断する場合は、ユーザは入力部２０４を操作してその領域を選択し、再度の領域分離を行いたい領域を指定する。すると、ユーザによる選択に応じて、再度の領域分離をすべき領域を示す目視結果情報が画像処理装置に入力される。

ステップＳ１７０２において、データ処理部２０６は、入力された目視結果情報を解析して、分離結果が正しいか否かを判断する。すなわち、データ処理部２０６は、上記解析により目視結果情報が、分離結果が正しいことを示す情報である場合は、分離結果が正しいと判断し、処理を終了し、ステップＳ１７１１にて図４と同様の画面をＵＩに表示する。

しかし、ステップＳ１７０２において、データ処理部２０６は、目視結果情報が、再度の領域分離をすべき領域を示す情報であると解析した場合は、分離結果に間違いがあると判断する。例えば、目視結果情報の解析結果、ユーザがイメージ領域４０１を指定していると、ステップＳ１７０３において、データ処理部２０６は、図１６（ａ）の再領域分離用ＵＩ（第２の領域分離用ＵＩ）を表示部２０７に表示する。図１６（ａ）において、ユーザは除去したい色（下地の背景色）を指定する。該指定に応じて、除去色情報が画像処理装置に入力される。次に、図１６（ｂ）において、ユーザは残したい色（文字の色）を指定する。該指定に応じて、残したい色情報が画像処理装置に入力される。両者の指定が終了したら、ユーザが図１６（ｃ）のボタン１６０１を押下すると、該押下に応じてデータ処理部２０６は、再領域分離（第２の領域分離）を開始する。

このようにして、データ処理部２０６は、原稿画像に対する第１の領域分離により分離された領域から、ユーザの選択に応じて、再度分離したい領域を選択することになる。

ステップＳ１７０４において、データ処理部２０６は、除去色情報および残したい色情報から、二値化して残したい部分を強調するように色成分をコントロールする。ステップＳ１７０５において、データ処理部２０６は、ステップＳ１２０８と同様にして、イメージ領域４０１について第２の領域分離およびベクトル化を行う。

ステップＳ１７０６において、データ処理部２０６は、上記第２の領域分離により得られた領域がテキスト領域か、テキスト領域以外の領域かを判定する。テキスト領域以外と判定した場合には、ステップＳ１７０７にて、データ処理部２０６は、その領域の属性に応じて領域情報をメタデータに付加する。

テキスト領域と判定した場合には、まず、ステップＳ１７０８において、データ処理部２０６は、第２の領域分離にて得られた新たなテキスト領域について、テキスト属性の領域情報をメタデータに付加する。なお、このとき、文字認識処理を行って、文字認識処理結果をメタデータに付加してもよい。

次にステップＳ１７０９において、データ処理部２０６は、この分離されたテキストを合成したい領域を選択する図１８（ａ）のようなＵＩ画面を表示部２０７に表示する。この場合は、ユーザはテキスト領域１８０１を選択する。該ユーザが選択した、第２の領域分離にて分離されたテキストを合成すべき領域（ここでは、テキスト領域１８０１）を示す情報が画像処理装置に入力される。ユーザは合成したい領域としてテキスト領域１８０１を選択すると、ステップＳ１７１０において、データ処理部２０６は、このテキストと選択されたテキスト領域１８０１とを合成する。その際に、データ処理部２０６は、図１８（ｂ）のようなＵＩ画面を表示し、ユーザがどの方向から合成するかを選択する。この例の場合、ユーザがボタン１８０２を押下することで正常な文章が再構成される。また、領域の合成を行った際、メタデータも合成され、更に文字認識結果も接続合成されてメタデータに格納してもよい。

最後に、ステップＳ１７１１において、データ処理部２０６は、図１５に示すようなＵＩ画面を表示部２０７に表示する。

本実施形態では、第１の実施形態のように、第１の領域分離および第１の領域分離により誤りがある領域の復元を全て自動的に行うわけではないが、ユーザが誤りのある領域（例えば、テキスト領域）を指定している。そして、該ユーザの指定に応じて、画像処理装置が指定された領域について再度領域分離（第２の領域分離）を行い、正しい領域の復元を行っている。よって、より確実に正しい領域分離を行うことができる。

このように、より確実な領域分離が可能ということを考慮すると、第１の実施形態の処理を行った後（図１２のステップＳ１２１４の後）に、選択的に本実施形態２を適用しても良い。例えば、ステップＳ１２１４の結果、ＵＩ画面に図１５のような領域分離結果ではなく、依然として図４のような領域分離結果が表示される場合に特に有効である。このような場合、ユーザに修正すべき領域を選択させれば、正しい領域分離を確実に行うことができる。

なお、本実施形態では、第１の領域分離の後にユーザが選択した領域について、第２の領域分離を行うことで、要するメモリを従来に比べて低減しつつ、良好な領域分離を行っている。よって、本実施形態では、第１の領域分離の結果、第１の属性の領域が第２の属性の領域に完全に含まれる場合でも、良好に領域分離を行うことができる。

例えば、第１の領域分離の結果、テキスト領域に含まれる元文章が、イメージ領域に完全に含まれる場合は以下のように処理すれば良い。

すなわち、画像処理装置に、ユーザが選択した、テキスト領域の全てが重なっているイメージ領域に関する目視結果情報が入力されると、データ処理部２０６は、第１の領域分離により得られた領域から、上記イメージ領域を検出する。次いで、データ処理部２０６は、検出されたイメージ領域から、テキスト領域とイメージ領域とを分離する（第２の領域分離処理）。このようにして、第１の属性の領域の少なくとも一部が重なった第２の属性の領域から、上記第１の属性の領域の少なくとも一部と、第２の属性の領域とを分離することができる。

（第３の実施形態）
本発明は、第１の実施形態、および第２の実施形態に限った話ではない。ＭＦＰ本体のＵＩ画面上での制御のみではなく、接続されているホストコンピュータの画面上で行ってもかまわない。すなわち、第１および第２の実施形態に係る処理を、ＭＦＰ１００に接続された外部装置（例えば、クライアントＰＣ１０２）にて行うようにしても良い。この場合は、クライアントＰＣ１０２等の外部装置が有するＣＰＵが、該外部装置の記憶装置に記憶された、図５、１２、１７に示すような処理を実現させるためのプログラムを実行することにより、本発明に係る領域分離処理を行う。

なお、クライアントＰＣ１０２等の外部装置は、画像読取部２０１を備えていないので、ＬＡＮ１０７に接続されたスキャナ（不図示）や、ＭＦＰ１００により読取られた原稿画像を、ＬＡＮ１０７を介して入力するようにすれば良い。また、原稿画像が記憶された上述した可搬メディアを、上記外部装置が備える専用ドライブし、該専用ドライブから原稿画像を取得するようにしても良い。

（その他の実施形態）
本発明は、複数の機器（例えばコンピュータ、インターフェース機器、リーダ、プリンタなど）から構成されるシステムに適用することも、１つの機器からなる装置（複合機、プリンタ、ファクシミリ装置など）に適用することも可能である。

前述した実施形態の機能を実現するように前述した実施形態の構成を動作させるプログラムを記憶媒体に記憶させることも上述の実施形態の範疇に含まれる。また、該記憶媒体に記憶されたプログラムをコードとして読み出し、コンピュータにおいて実行することにより、該コンピュータを各処理部として機能させることも上述の実施形態の範疇に含まれる。即ちコンピュータ読み取り可能な記憶媒体も実施例の範囲に含まれる。また、前述のコンピュータプログラムが記憶された記憶媒体はもちろんそのコンピュータプログラム自体も上述の実施形態に含まれる。

かかる記憶媒体としてはたとえばフロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ―ＲＯＭ、磁気テープ、不揮発性メモリカード、ＲＯＭを用いることができる。

また前述の記憶媒体に記憶されたプログラム単体で処理を実行しているものに限らず、他のソフトウエア、拡張ボードの機能と共同して、ＯＳ上で動作し前述の実施形態の動作を実行するものも前述した実施形態の範疇に含まれる。

本発明の一実施形態に係る画像処理システムの構成を示すブロック図である。本発明の一実施形態に係るＭＦＰの詳細構成を示すブロック図である。（ａ）は原稿の一例を示す図であり、（ｂ）は、（ａ）の領域分離結果を示す図である。ＭＦＰのＵＩ画面に表示される一例を示す図である。本発明の一実施形態に係る第１の領域分離に関する処理を示すフローチャートである。（ａ）本発明の一実施形態に係る原稿の一例を示す図であり、（ｂ）は、（ａ）の領域分離結果を示す図である。本発明の一実施形態に係る文字きりの一例を示す図である。本発明の一実施形態に係るＭＦＰのＵＩ画面に表示される一例を示す図である。本発明の一実施形態に係るベクトル化処理を説明するための図である。本発明の一実施形態に係るベクトル化処理を説明するための図である。本発明の一実施形態に係るメタデータの構成の一例を示す図である。本発明の一実施形態に係る領域分離の概略を説明するフローチャートである。（ａ）および（ｂ）は、本発明の一実施形態に係る下地除去を説明する図である。本発明の一実施形態に係る原稿の一例を示す図である。本発明の一実施形態に係るＭＦＰのＵＩ画面に表示される一例を示す図である。（ａ）〜（ｃ）は、本発明の一実施形態に係るＭＦＰのＵＩ画面に表示される一例を示す図である。本発明の一実施形態に係る領域分離処理の概略を説明するフローチャートである。（ａ）および（ｂ）は、本発明の一実施形態に係るＭＦＰのＵＩ画面に表示される一例を示す図である。

符号の説明

２０１画像読取部
２０２記憶部
２０３印刷部
２０４入力部
２０５ネットワークＩ／Ｆ
２０６データ処理部
２０７表示部

Claims

原稿画像を取得する取得手段と、
前記取得された原稿画像から該原稿画像を構成する領域を分離する第１の領域分離手段と、
前記第１の領域分離手段にて分離された領域から、誤った文章を含むテキスト領域を検出する検出手段と、
前記誤った文章の元文章の一部が重なっている第２の属性の領域を検出し、該検出された領域から、前記元文章の一部と前記第２の属性の領域とを分離する第２の領域分離手段と、
前記第２の領域分離手段にて分離された元文章の一部を前記誤った文章を含むテキスト領域に合成する合成手段と
を備えることを特徴とする画像処理装置。
前記第１の領域分離手段にて分離された領域を表示する表示手段をさらに備えることを特徴とする請求項１記載の画像処理装置。
前記検出手段は、前記第１の領域分離手段にて分離された領域のテキスト領域の各々に対して文章解析を行い、該文章解析の結果、文章が誤っているテキスト領域を、前記誤った文章を含むテキスト領域として検出することを特徴とする請求項１または２記載の画像処理装置。
前記第２の領域分離手段は、
前記誤った文章を含むテキスト領域の周囲に存在するテキスト領域以外の領域を抽出する手段と、
前記抽出された領域に対して領域の分離を行う手段と
を有することを特徴とする請求項１乃至３のいずれかに記載の画像処理装置。
前記表示手段に表示された領域に基づいてユーザが選択した、前記元文章の一部が重なっている第２の属性の領域に関する情報を入力する手段をさらに備え、
前記第２の領域分離手段は、該入力された情報に基づいて、前記元文章の一部が重なっている第２の属性の領域を検出することを特徴とする請求項２記載の画像処理装置。
前記表示手段に表示された領域に基づいてユーザが選択した、前記誤った文章を含むテキスト領域に関する情報を入力する手段をさらに備え、
前記検出手段は、該入力された情報に基づいて、前記第１の領域分離手段にて分離された領域から、前記誤った文章を含むテキスト領域を検出することを特徴とする請求項５記載の画像処理装置。
原稿画像を取得する取得手段と、
前記取得された原稿画像から該原稿画像を構成する領域を分離する第１の領域分離手段
と、
前記第１の領域分離手段にて分離された領域を表示する表示手段と、
前記表示手段に表示された領域に基づいてユーザが選択した、第１の属性の領域の少なくとも一部が重なっている第２の属性の領域に関する情報を入力する手段と、
前記入力された情報に基づいて、前記第１の属性の領域の少なくとも一部が重なっている第２の属性の領域を検出し、該検出された領域から、前記第１の属性の領域の少なくとも一部と前記第２の属性の領域とを分離する第２の領域分離手段と
を備えることを特徴とする画像処理装置。
前記表示手段に表示された領域に基づいてユーザが選択した、前記第１の属性の領域の少なくとも一部を合成すべき第１の属性の領域に関する情報を入力する手段と、
前記第１の領域分離手段による分離の結果、前記第１の属性の一部が前記第２の属性に重なっている場合、該入力された情報に基づいて、前記第１の領域分離手段にて分離された領域から、前記第１の属性の領域の少なくとも一部を合成すべき第１の属性の領域を検出する検出手段と、
前記検出手段にて検出された領域と、前記第２の領域分離手段にて分離された、前記第１の属性の領域の少なくとも一部とを合成する合成手段と
をさらに備えることを特徴とする請求項７記載の画像処理装置。
原稿画像を取得する取得工程と、
前記取得された原稿画像から該原稿画像を構成する領域を分離する第１の領域分離工程と、
前記第１の領域分離工程にて分離された領域から、誤った文章を含むテキスト領域を検出する検出工程と、
前記誤った文章の元文章の一部が重なっている第２の属性の領域を検出し、該検出された領域から、前記元文章の一部と前記第２の属性の領域とを分離する第２の領域分離工程と、
前記第２の領域分離工程にて分離された元文章の一部を前記誤った文章を含むテキスト領域に合成する合成工程と
を有することを特徴とする画像処理方法。
前記第１の領域分離工程にて分離された領域を表示する表示工程をさらに有することを特徴とする請求項９記載の画像処理方法。
前記検出工程では、前記第１の領域分離工程にて分離された領域のテキスト領域の各々に対して文章解析を行い、該文章解析の結果、文章が誤っているテキスト領域を、前記誤った文章を含むテキスト領域として検出することを特徴とする請求項９または１０記載の画像処理方法。
前記第２の領域分離工程は、
前記誤った文章を含むテキスト領域の周囲に存在するテキスト領域以外の領域を抽出する工程と、
前記抽出された領域に対して領域の分離を行う工程と
を有することを特徴とする請求項９乃至１１のいずれかに記載の画像処理方法。
前記表示工程にて表示された領域に基づいてユーザが選択した、前記元文章の一部が重なっている第２の属性の領域に関する情報を入力する工程をさらに有し、
前記第２の領域分離工程では、該入力された情報に基づいて、前記元文章の一部が重なっている第２の属性の領域を検出することを特徴とする請求項１０記載の画像処理方法。
前記表示工程にて表示された領域に基づいてユーザが選択した、前記誤った文章を含むテキスト領域に関する情報を入力する工程をさらに有し、
前記検出工程では、該入力された情報に基づいて、前記第１の領域分離工程にて分離された領域から、前記誤った文章を含むテキスト領域を検出することを特徴とする請求項１３記載の画像処理方法。
原稿画像を取得する取得工程と、
前記取得された原稿画像から該原稿画像を構成する領域を分離する第１の領域分離工程と、
前記第１の領域分離工程にて分離された領域を表示する表示工程と、
前記表示工程にて表示された領域に基づいてユーザが選択した、第１の属性の領域の少なくとも一部が重なっている第２の属性の領域に関する情報を入力する工程と、
前記入力された情報に基づいて、前記第１の属性の領域の少なくとも一部が重なっている第２の属性の領域を検出し、該検出された領域から、前記第１の属性の領域の少なくとも一部と前記第２の属性の領域とを分離する第２の領域分離工程と
を有することを特徴とする画像処理方法。
前記表示工程にて表示された領域に基づいてユーザが選択した、前記第１の属性の領域の少なくとも一部を合成すべき第１の属性の領域に関する情報を入力する工程と、
前記第１の領域分離工程による分離の結果、前記第１の属性の一部が前記第２の属性に重なっている場合、該入力された情報に基づいて、前記第１の領域分離工程にて分離された領域から、前記第１の属性の領域の少なくとも一部を合成すべき第１の属性の領域を検出する検出工程と、
前記検出工程にて検出された領域と、前記第２の領域分離工程にて分離された、前記第１の属性の領域の少なくとも一部とを合成する合成工程と
をさらに有することを特徴とする請求項１５記載の画像処理方法。
コンピュータを請求項１乃至８のいずれかに記載の画像処理装置として機能させることを特徴とするコンピュータプログラム。
コンピュータにより読み出し可能なプログラムを格納した記憶媒体であって、請求項１７記載のコンピュータプログラムを格納したことを特徴とする記憶媒体。