JP4960817B2 - 画像処理装置、および画像処理方法 - Google Patents

画像処理装置、および画像処理方法 Download PDF

Info

Publication number
JP4960817B2
JP4960817B2 JP2007242667A JP2007242667A JP4960817B2 JP 4960817 B2 JP4960817 B2 JP 4960817B2 JP 2007242667 A JP2007242667 A JP 2007242667A JP 2007242667 A JP2007242667 A JP 2007242667A JP 4960817 B2 JP4960817 B2 JP 4960817B2
Authority
JP
Japan
Prior art keywords
region
area
attribute
text
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007242667A
Other languages
English (en)
Other versions
JP2009077048A (ja
Inventor
修 飯沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2007242667A priority Critical patent/JP4960817B2/ja
Priority to US12/206,017 priority patent/US8126270B2/en
Publication of JP2009077048A publication Critical patent/JP2009077048A/ja
Application granted granted Critical
Publication of JP4960817B2 publication Critical patent/JP4960817B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Description

本発明は、画像処理装置、および画像処理方法に関し、より詳細には、原稿画像の領域分離を実行可能な画像処理装置、および画像処理方法に関する。
近年の複写機は、内部画像処理のデジタル化によって、目覚しいスピードで多機能化が進んでいる。基本的な機能を挙げるだけでも、原稿を複写するコピー機能、ホストコンピュータで作成した文書のプリントが可能なPDL機能に加え、ネットワークを介して原稿を複写機外部に送るSEND機能を有している。さらには、コピー機能やPDL機能によって生成される原稿画像を複写機内部に保存・再利用を可能とするBOX機能、BOX機能によって複写機内部に保存した原稿画像を利用する合成や製本といった編集機能など、数え切れないほどの機能を有している。
一方で、画像の品質に対する要求も高く、原稿の高い再現性を求めるあまり、複写機内部の画像処理解像度は600dpiから1200dpi、2400dpiへ、信号のビット数は8bitから10bit、12bitへと増加の一途を辿っている。よって、膨れ上がった情報量を持つ内部処理用のビットマップデータに耐えるだけのメモリやストレージの追加、高性能なCPUへの置き換えなどによって、機器や開発のコストの増加が無視できない状況になっている。
こうした中で、読み取った原稿を領域単位に分離し、再利用しやすいように保存し、編集機能で使用するという技術が考えられている。この技術は特許文献1に開示されており、原稿に含まれる各領域を例えば、テキスト、グラフィックス、イメージといった領域に分け、領域の属性に適した処理を行うものである。例えば、テキストとグラフィック領域とに関しては、ベクトル化処理を行うことによって、ベクトルデータとして保存し、イメージに関しては、JPEGに変換して保存し、編集機能で使用する。この技術によれば、非常に情報量の多い高解像度、多ビット数のビットマップデータを扱うことなく、また編集や変形が容易なベクトルデータを用いることで、コストの低下と操作性の向上が期待できるため、画質と利便性の向上を図ることができる。
一方、領域分離は、白黒2値となる2値化された画像に基づいて行われることが多い(特許文献2参照)。この2値化画像中の所定の黒画素の塊の集合と、所定の白画素の塊の集合とを抽出し、その集合体の形状、大きさ、集合状態から、テキスト領域、グラフィクス領域、イメージ領域等の抽出を行う。
このように、領域分離は2値化画像に対して行われるので、原稿画像がカラー画像の場合は、該カラー画像に対して予め2値化が行われる。このカラー画像に対する2値化においては、まず原稿画像のヒストグラムを求めて画素の明るさ(輝度)の分布から閾値を求める。次いで、原稿画像の各画素について、輝度と上記求められた閾値とを比較して白または黒への変換を行うことで、上記2値化が行われる。
ただし、スキャンしたり、PCから送信されたりして入力された原稿データからオブジェクト単位の領域分離の際に、場合によっては正しく分離できない問題がある。
この問題は、上述のように領域分離を2値化して行うので、例えば、図3(a)のような分離対象の領域に下地部分(色がついた部分領域)がある場合などに多く見られる。この問題に対して、特許文献2では、原稿の下地レベルを領域毎に調べて、それに応じて上記2値化の閾値を変更する構成が開示されている。
特開2005−159517号公報 特開2002−190957号公報
しかしながら、特許文献2では、以下のような課題が残る。
特許文献2では、カラー画像を2値化する際に、カラー画像から得られる輝度値のヒストグラムに基づいて、下地色の数だけ閾値を決定する。そして、該下地色分だけ求められた複数の閾値から下地色分の2値画像を作成している。よって、
[1]複数の下地レベルを持ち、処理するためには、下地の数分のページメモリが必要になる。すなわち、下地を飛ばし、分離を行うためのメモリと、分離した結果を保存するためのメモリとについて、A4原稿なら、A4原稿×下地の数分のメモリが必要になる。
[2]分離された結果を領域毎に別々に表示することを考えていない。したがって、ドキュメント単位でのプレビューでは、誤りがあっても目立たないあるいは気づかないが、領域単位で別々にUI表示すると、領域分割の誤りが非常に目立ってしまう。
[3]領域分離処理には、完璧はなく、自動的に分離できなかったケースでの解決策が望まれる。例えば、下地の色と重なっている領域の色が下地の色と近い場合には、自動的に分離するのは難しいため、この分離結果を修正できるようにすることが必要と考えられる。
本発明は、このような問題を鑑みてなされたものである。その目的とするところは、第1の属性の領域(例えばテキスト領域)と第2の属性の領域とが重なっている場合でも、要するメモリ量を低減し、良好に領域分離が可能な画像処理装置、および画像処理方法を提供することにある。
このような目的を達成するために、本発明は、画像処理装置であって、原稿画像を取得する取得手段と、前記取得された原稿画像から該原稿画像を構成する領域を分離する第1の領域分離手段と、前記第1の領域分離手段にて分離された領域から、誤った文章を含むテキスト領域を検出する検出手段と、前記誤った文章の元文章の一部が重なっている第2の属性の領域を検出し、該検出された領域から、前記元文章の一部と前記第2の属性の領域とを分離する第2の領域分離手段と、前記第2の領域分離手段にて分離された元文章の一部を前記誤った文章を含むテキスト領域に合成する合成手段とを備えることを特徴とする。
また、本発明は、画像処理装置であって、原稿画像を取得する取得手段と、前記取得された原稿画像から該原稿画像を構成する領域を分離する第1の領域分離手段と、前記第1の領域分離手段にて分離された領域を表示する表示手段と、前記表示手段に表示された領域に基づいてユーザが選択した、第1の属性の領域の少なくとも一部が重なっている第2の属性の領域に関する情報を入力する手段と、前記入力された情報に基づいて、前記第1の属性の領域の少なくとも一部が重なっている第2の属性の領域を検出し、該検出された領域から、前記第1の属性の領域の少なくとも一部と前記第2の属性の領域とを分離する第2の領域分離手段とを備えることを特徴とする。
また、本発明は、画像処理方法であって、原稿画像を取得する取得工程と、前記取得された原稿画像から該原稿画像を構成する領域を分離する第1の領域分離工程と、前記第1の領域分離工程にて分離された領域から、誤った文章を含むテキスト領域を検出する検出工程と、前記誤った文章の元文章の一部が重なっている第2の属性の領域を検出し、該検出された領域から、前記元文章の一部と前記第2の属性の領域とを分離する第2の領域分離工程と、前記第2の領域分離手段にて分離された元文章の一部を前記誤った文章を含むテキスト領域に合成する合成工程とを有することを特徴とする。
また、本発明は、画像処理方法であって、原稿画像を取得する取得工程と、前記取得された原稿画像から該原稿画像を構成する領域を分離する第1の領域分離工程と、前記第1の領域分離工程にて分離された領域を表示する表示工程と、前記表示工程にて表示された領域に基づいてユーザが選択した、第1の属性の領域の少なくとも一部が重なっている第2の属性の領域に関する情報を入力する工程と、前記入力された情報に基づいて、前記第1の属性の領域の少なくとも一部が重なっている第2の属性の領域を検出し、該検出された領域から、前記第1の属性の領域の少なくとも一部と前記第2の属性の領域とを分離する第2の領域分離工程とを有することを特徴とする。
本発明によれば、領域毎にかつ、各領域に対応したメタデータを記憶装置に保存することが可能である。また、その領域を再利用することが可能なカラーMFPにおいて、領域分離に失敗した箇所を自動的に発見し、その箇所を条件を変更して再度、領域分離することによって、領域分離の誤りを自動的に直すことが可能となる。
また、自動的に領域分離することができなかった場合にも、手動でユーザが分離したい領域を指定することにより、ユーザが望む領域分離方法を提供することが可能となる。
以下、図面を参照して本発明の実施形態を詳細に説明する。なお、以下で説明する図面で、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
本発明の一態様は、領域毎に記憶装置に保存することが可能で、その領域を再利用することが可能な画像処理装置(例えば、カラーMFPやパーソナルコンピュータなど)に適用することができる。本発明の一実施形態に係る画像処理装置は、原稿画像を領域分離した後に、テキスト領域に対して文章解析を行う。すなわち、原稿画像から各領域を分離する第1の領域分離処理を行い、各分離された領域のうちテキスト領域に含まれる文章に対して文章解析を行う。
そして、上記画像処理装置は、文章解析結果から文章の誤りが予想できた場合、あるいは文章の誤りを検出できた場合には、そのテキスト領域の周囲にある領域に対して、第2の領域分離処理を行う。上記文章の誤りが予想されたり検出されたりする際は、テキスト領域に含まれる元文章の一部が、イメージ領域やグラフィクス領域に重なっている場合である。よって、上記元文章の一部が重なっている他の属性の領域を検出し、該他の属性の領域について第2の領域分離を行い、上記元文章の一部と他の属性の領域とを分離するのである。具体的には例えば、上記周囲にある領域について下地レベルを調べ、十分な下地飛ばしを行い、領域分離が容易になるようにしてから、再度、領域分離を行う。
上記再度行った領域分離(第2の領域分離)でテキスト領域が分離された場合、画像処理装置は、該分離されたテキスト領域に、領域情報としてテキスト領域情報を付加する。この付加と共に、上記文章解析により誤りがあると判断されたテキスト領域(誤った文章を含むテキスト領域)に合成することにより、文章解析も正しくなり、UI表示上も正確に表示できるようにすることができる。すなわち、第2の領域分離により分離された元文章の一部を、誤りがあると判断された文章を含むテキスト領域(誤った文章を含むテキスト領域)に合成することによって、正しい文章に直すことができる。
また、本発明の一実施形態では、第1の領域分離処理により得られた各領域において、修正すべき領域をユーザが選択するようにしても良い。例えば、領域分離結果を領域毎に表示するモードにした場合、図4のように分離された領域ごとに別個に表示されるので、領域分離処理が誤っている場合、ユーザはその誤りを視認しやすい。この場合は、領域分離されたオブジェクト(領域)を表示部等のUI上に表示し、その中で、ユーザが、分離に誤りのある領域を選択し、選択された領域に対して、分離したい箇所と下地部分を選択する。これにより、分離したい箇所の支配的な色のみが残るような処理を施し、領域分離が容易になるようにし、上記第2の領域分離処理を行う。
また、このようにユーザが修正すべき領域を選択することは第2の領域分離処理の前に行うことに限らず、場合によっては第2の領域分離処理の後に行うようにしても良い。すなわち、第2の領域分離処理が正常に終わらなかった場合にも有効である。例えば、第2の領域分離処理を行った場合であっても、領域分離の設定によっては図4に示すような分離結果を示す場合があるかもしれない。この場合、ユーザが上記選択処理の指示を入力することによって、上記修正すべき領域を選択することができ、画像処理装置は、再度、領域分離(第3の領域分離)を行う。
また、上記選択処理は、第2の領域分離の対象がテキスト領域以外の領域にも有効である。
上述の第1の領域分離の結果を、ディスプレイ等の表示部にUI表示等してユーザに提示することが好ましい。例えば、図3(a)のような原稿画像301を領域分離すると図3(b)のようになる。すなわち、原稿画像301において、イメージ領域302(色の付いた下地領域)に文字である“あ”が一部重なっており、領域分離を行うと図3(b)に示すように、“あ”は、イメージ領域に含まれてしまう場合がある。このような場合に領域分離結果を領域毎に表示するモードにしていると、表示部のUI画面には、図4のような分離結果が表示されることになる。図4のように分離結果をUI表示することによって、分離された領域の誤り(例えば、テキスト領域に含まれる文章の誤りなど)をユーザは容易に認識することができる。このようにユーザが容易に領域分離の誤りを認識できることは、上記ユーザの選択の際に威力を発揮する。すなわち、ユーザが領域分離の誤りを容易に認識できるので簡単に上記ユーザによる選択を行うことができ、その結果、良好な領域分離を容易に行うことができる。
上述のように、本発明の一実施形態によれば、第1の領域分離の結果、2つの領域が重なっている場合であっても、該2つの領域が重なっている領域に対して再度、第2の領域分離を行う。よって、例えば原稿画像301のように、下地色が2個(図3(a)中の白と、イメージ領域302の色)ある場合であっても、従来のように2ページ分のメモリを必要としない。従って、使用するメモリを低減しつつ、良好に領域分離を行うことができる。
また、本発明の一実施形態では、上記ユーザによる選択を行うことにより、第1の属性の領域が第2の属性の領域に完全に含まれる場合であっても、第1の属性の領域と第2の属性の領域とを良好に分離することができる。すなわち、第1の属性の領域の少なくとも一部が重なっている第2の属性の領域をユーザが選択し、該ユーザが選択した領域について第2の領域分離を行うのである。
なお、本明細書において、「領域」とは、テキスト(文字)、グラフィクス、イメージなど、原稿画像を構成する、所定の特徴を有するオブジェクト部分である。よって、原稿画像において、テキストに対応する部分はテキスト領域となり、グラフィクスに対応する部分はグラフィクス領域となり、イメージに対応する部分はイメージ領域となる。
また、本明細書において、「属性(領域属性)」とは、領域がどのようにカテゴライズされたオブジェクトであるのかを示すものである。よって、属性が、テキストである領域はテキスト領域となり、グラフィクスである領域はグラフィクス領域となり、イメージである領域はイメージ領域となる。
(第1の実施形態)
図1は本実施形態の画像処理システムの構成を示すブロック図である。
この画像処理システムは、オフィス10がインターネット等のネットワーク104で接続された環境で実現することができる。
オフィス10内に構築されたLAN107には、複数種類の機能(複写機能、印刷機能、送信機能等)を実現する複合機であるMFP(Multi Function Peripheral)100が接続されている。また、LAN107には、MFP100を利用するクライアントPC102、データベース105、及びプロキシサーバ103が接続されている。さらに、オフィス10内のLAN107は、それぞれのオフィスのプロキシサーバ103を介してネットワーク104に接続されている。
尚、図1の構成は一例であり、オフィスはもっと複数存在してもよいし、ネットワーク104は、典型的にはインターネットやLANやWANや電話回線、専用デジタル回線、ATMやフレームリレー回線により実現することができる。また、この他に、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等のいずれか、またはこれらの組み合わせにより実現されるいわゆる通信ネットワークである。すなわち、データの送受信が可能であればいずれの形態を用いても良い。
また、クライアントPC102の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素(例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等)を有している。
次に、MFP100の詳細構成について、図2を用いて説明する。図2は本実施形態のMFPの詳細構成を示すブロック図である。
図2において、データ処理部206は、種々の演算、制御、判別などの処理動作を実行するCPU(不図示)を有する制御部(不図示)を備えている。該制御部は、該CPUによって実行される、図5、12、17等にて後述される本発明に係る処理などの制御プログラムなどを格納するROM(不図示)を有している。さらに、制御部は、上記CPUの処理動作中のデータや入力データなどを一時的に格納するRAM(不図示)などを有する。
データ処理部206には、画像読取部201、記憶部202、印刷部203、入力部204、ネットワークI/F205、および表示部207が接続されており、上記制御部は上記各構成を統合して制御する。
オートドキュメントフィーダ(ADF)を含む画像読取部201は、例えばスキャナとすることができる。画像読取部201は、束状のあるいは1枚の原稿画像を光源(不図示)で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からビットマップ状の画像読取信号を所定解像度(600dpi等)のビットマップデータとして得る。
また、MFP100は、画像読取信号に対応する画像を印刷部203で記録媒体に印刷する複写機能を有する。原稿画像を1つ複写する場合には、この画像読取信号をデータ処理部206で画像処理して記録信号を生成し、これを印刷部203によって記録媒体上に印刷させる。一方、原稿画像を複数複写する場合には、記憶部202に一旦一ページ分の記録信号を記憶保持させた後、これを印刷部203に順次出力して記録媒体上に印刷させる。このようにして、画像読取部201にて読取った画像に基づいて、データ処理部206は原稿画像を取得する。
また、ネットワークI/F205を介する通信機能においては、画像読取部201から得られるビットマップデータを後述する処理によってオブジェクトデータに変換してデータベース105に送信することができる。また、ネットワークI/F205を介して、データベース105に保存されているオブジェクトデータを再利用のため受信することもできる。さらに、ベクトルデータを格納可能なXPSやPDF等のファイル形式の画像ファイルへと変換してクライアントPC102に転送することもできる。この場合、ネットワークを介して、クライアントPC102等の外部装置から画像が入力され、データ処理部206は、該入力されたデータに基づいて原稿画像を取得する。
すなわち、本実施形態では、MFP100は、自身が有する画像読取部によって読取ったり、ネットワークや、磁気ディスク、光ディスク、フラッシュメモリ等の可搬メディアを介して入力された画像に基づいて、原稿画像を取得するのである。
また、印刷部203による印刷機能においては、例えば、クライアントPC102から出力された印刷データをネットワークI/F205経由でデータ処理部206が受信することができる。この場合、データ処理装置206は、その印刷データを印刷部203で印刷可能な記録信号に変換した後、印刷部203によって印刷媒体上に画像を形成する。
このように、本実施形態では、印刷部203を、プリンタ等の画像形成装置とすることができる。この画像形成方式も、感光体ドラムや感光体ベルトを用いた電子写真方式や、微少ノズルアレイからインクを吐出して用紙上に印字するインクジェット方式など、記録媒体に画像形成可能であればいずれの方式を用いても良い。
MFP100への操作者の指示は、MFP100に装備された入力部204から行われ、これらの動作はデータ処理部206内の制御部で制御される。また、操作入力の状態表示及び処理中の画像データの表示は、表示部207で行われる。
また、記憶部202は、後述する処理によって得られる領域データ(領域情報)を記憶する記憶領域と、データ処理部206において各種画像処理の際に利用される画像処理用バッファとが確保されている。さらに、記憶部202は、上記領域データに基づく画像編集を行う場合に領域データをコピーしたデータを画像編集用データとして記憶する画像編集用バッファが確保されている。
<原稿画像の領域分離>
図5は、本実施形態に係る原稿画像の第1の領域分離に関する処理を示すフローチャートである。
例えば、図6(a)のような原稿画像604がMFP100の画像読取部201で読み込まれたとする。
ステップS501では、データ処理部206は、画像読取部201にて読み込まれたビットマップ画像に対してスキャナ画像処理を施すことにより、原稿画像(スキャン画像)が得られる。スキャナ画像処理とは、色処理やフィルタ処理を指し、ノイズの低減等が行われる。
次にステップS502において、データ処理部206は、原稿画像の色値分布を調べるためにヒストグラムを生成する。生成されたヒストグラムから、次のステップS503において、データ処理部206は、ステップS504で使用する2値化閾値を所定の基準に従って決定する。このヒストグラム分布に基づく2値化閾値決定処理は、公知の技術を用いることが可能である。
ステップS504において、データ処理部206は、原稿画像に対して2値化処理して2値化画像を生成する。
ステップS505において、データ処理部206は、2値化画像から、上記2値化処理により黒く塗りつぶされた部分(黒領域)を検出する。この黒領域の検出は、黒画素が連結した領域である。
さらにステップS506では、データ処理部206は、その黒領域内部を解析する。この解析とは、黒下地に白文字の反転文字になっていないかを解析する。例えば、黒画素の画素密度を解析したり、黒領域内部に存在する白領域を調べたり、黒領域の大きさを調べたりすることにより、領域の属性などを決定することができる。領域の属性は、例えば、文字、イメージ、グラフィックス、表領域などであり、また反転文字領域であるかどうかも解析できる。
そして、ステップS507において、データ処理部206は、最終的な2値化画像(ビットマップ画像)を生成する。このとき、反転文字領域内部を白黒反転することで、OCR処理に適した文字画像に変換することができる。
ステップS508では、データ処理部206は、ステップ507にて取得された最終的な2値化画像から、各領域を分割して第1の領域分割を行う。なお、S506で文字属性と判断された黒連結画素は、行方向・列方向で近くに文字属性の黒連結画素があれば、これらは同じ文字領域に属すると判断し、1つの文字領域として分離する。例えば、図6(a)の画像に対して領域分離処理を行った場合、図6(b)に示すように、テキスト領域603とグラフィックス領域601とイメージ領域602とに分ける。なお、領域分離処理(領域分割処理)の手法はこれに限るものではない。
ステップS509では、データ処理部206は、ステップS508にて分離された領域に対して、それぞれの領域情報と領域に関連する情報とをメタデータとして生成し、該メタデータを最終的な2値化画像に付加する。すなわち、領域情報と領域に関連する情報とを関連付ける。
なお、本明細書において、「領域情報」とは、その領域がどの属性かを示す情報である。よって、例えば、ステップS508にて分離されたある領域がテキスト領域である場合は、領域情報は、対象となる領域がテキスト領域であることを示す情報となる。
また、本明細書において、「領域に関連する情報」とは、対象となる領域の原稿画像中の座標や、対象となる領域の大きさなど、領域の位置や特徴を示す情報である。
ステップS510において、データ処理部206は、上記メタデータを参照して、第1の領域分離された領域の各々について、該領域がテキスト領域なのか、イメージ領域なのか、グラフィクス領域なのかを判断する。
イメージ領域に関しては、ステップS514において、データ処理部206は、上記メタデータ中の領域に関連する情報に基づいて、ステップS501で得た元の原稿画像の対応する位置からイメージ領域を抽出する。そして、該抽出されたイメージ領域に対してJPEG圧縮を施す。次いで、ステップS515において、データ処理部206は、JPEG圧縮されたイメージ領域データを、保存ファイルに関連付けてBOX(記憶部202)に保存する。
ステップS510にて、グラフィックス領域と判断された領域に関しては、ステップS513において、データ処理部206は、ベクトル化処理を施す。すなわち、データ処理部206は、上記メタデータ中の領域に関連する情報に基づいて、上記最終的な2値化画像からグラフィクス領域を抽出し、該抽出されたグラフィクス領域に対してベクトル化処理を行う。このベクトル化処理は、公知の技術を使用することが可能であり、例えば、2値画像内の黒画素の輪郭に基づいてベクトルデータ(パス化されたデータ)へ変換する。また、当該グラフィックス領域の位置に対応する原稿画像の色に基づいて、代表色を決定して、当該ベクトルデータの色として採用する。データ処理部206は、該ベクトル化処理が施されたグラフィクス領域をパス化されたデータとして、ステップS515において、BOXに保存する。
ステップS510にて、テキスト領域と判断された領域に関しては、ステップS511において、データ処理部206は、図7に示すように、文字を一つずつ切り離す、文字切り(文字抽出)という作業を行う。すなわち、データ処理部206は、上記メタデータ中の領域に関連する情報に基づいて、上記最終的な2値化画像からテキスト領域を抽出し、該抽出されたテキスト領域に対して上記文字切り作業を行う。
次いで、ステップS512において、データ処理部206は、ステップS511にて文字切りされたテキスト領域(ビットマップ画像)に対してOCR処理を施し、文字コード情報を得る。データ処理部206は、ステップS512にてOCR処理されて得られたコード情報を、後にステップS515でBOXに保存することになる。更に、データ処理部206は、ステップS511にて文字きりされたテキスト領域に対して、ステップS513でベクトル化処理を施す。データ処理部206は、該ベクトル化処理が施されたテキスト領域をパス化されたデータとしてステップS515において、BOXに保存する。なお、テキスト領域をベクトル化する際は、以下の2つの方法を併用することとする。すなわち、該併用する第1の方法は、フォントの種類を認識してフォント情報(ベクトルフォント)と文字認識結果の文字コードとを対応付けることによりベクトルデータを生成する方法である。また、上記併用する第2の方法は、グラフィックス領域と同様に、文字画像の輪郭に基づいてベクトルデータを生成する方法である。
最後にステップS516において、データ処理部206は、領域分離された領域を領域別に表示部207に示す。表示部207に表示したUI画面の一例を図8に示す。
なお、本実施形態では、テキスト領域、グラフィクス領域についてはベクトル化処理を行い、イメージ領域についてはJPEG圧縮を行っているので、編集機能を行う際等、データ量が少なくて済むので、コスト削減、および操作性の向上が実現できる。
なお、本発明で特に重要なことは、領域分離に用いるメモリを低減し、効率よく領域分離を行うことである。すなわち、上記ベクトル化処理や圧縮処理を行わない場合にも本発明を適用することができる。この場合は、ステップS510において、データ処理部206が、メタデータに基づいて、最終的な2値化画像から各領域を抽出し、該抽出されたデータを記憶部202に保存すれば良い。
<領域分離(ステップS504〜ステップS508)の詳細>
まず、データ処理部206は、原稿画像を白黒に二値化し、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行って白画素の塊を抽出、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。
データ処理部206は、このようにして得られた黒画素の塊を、大きさ及び形状で分類し、異なる属性を持つ領域へ分類していく。例えば、縦横比が1に近く、大きさが一定の範囲の領域はテキスト相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分をテキスト領域とする。また、不定形の画素塊が散在している領域をイメージ領域、それ以外の任意形状の画素塊をグラフィックス領域とする。このようにして、原稿画像から該原稿画像を構成する領域を分離する(第1の領域分離処理)。
<OCR処理(ステップS512)の詳細>
ここでは公知のOCR処理技術を使用して、文字認識処理を行う。
『文字認識処理』
テキスト領域に対して文字認識処理を行う場合は、まず、該当文字ブロックに対し、横書き/縦書きの判定を行い、各々対応する方向に文字列を切り出し、その後、文字列から文字を切り出して文字画像を取得する。
横書き/縦書きの判定は、該当文字ブロック内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書き、垂直射影の分散が大きい場合は縦書きと判定する。文字列及び文字への分解は、横書きのテキスト領域である場合には、その水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことで行う。一方、縦書きのテキスト領域に対しては、水平と垂直を逆にすれば良い。なお、このときに、文字のサイズを検出することもできる。
文字認識処理では、データ処理部206は、テキスト領域から文字単位で切り出された文字画像に対し、パターンマッチの一手法を用いて文字認識を行い、対応する文字コードを取得する。特に、この文字認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルとを比較し、最も距離の近い字種を認識結果とするものである。
観測特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュブロック内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。
<ベクトル化処理(ステップS513)の詳細>
まず、文字領域に対するベクトル化処理について説明する。文字領域のベクトル化処理は、フォント認識を利用したベクトル化と文字画像の輪郭を利用したベクトル化とを併用することが可能である。
『フォント認識処理』
データ処理部206は、文字認識処理の際に用いる、字種数分の辞書特徴ベクトルを、文字形状種、即ち、フォント種に対して複数用意し、マッチングの際に文字コードとともにフォント種を出力することで、文字のフォントを認識することができる。
『文字のベクトル化処理』
データ処理部206は、上記文字認識処理及びフォント認識処理によって得られた、文字コード及びフォント情報を用いて、各々あらかじめ用意されたフォント毎のアウトラインデータ(ベクトルフォント)を用いて、文字部分の情報をベクトルデータに変換する。すなわち、文字コードとフォント種別とベクトルフォントとに基づいて、文字領域を再現することが可能である。尚、原稿画像がカラー画像の場合は、そのカラー画像から各文字の色を抽出してベクトルデータとともに記録する。
一方、文字認識結果が間違っている可能性が高い(類似度が低い)場合などは、フォントのアウトラインデータを使わずに、文字画像の輪郭に基づいてベクトルデータへ変換した方が正確に再現できる。文字画像の輪郭に基づくベクトル化処理は、グラフィックス領域のベクトル化処理と同様の処理であるので、以下では、グラフィックス領域のベクトル化処理について説明する。
『グラフィックス領域のベクトル化処理の詳細』
グラフィックス領域については、データ処理部206は、そのブロック中で抽出された画素塊の輪郭に基づいてベクトルデータに変換する。
具体的には、輪郭をなす画素列から所定間隔の点列を得て、その点列のうち角と看倣される点で区切って、各区間を部分的な直線あるいは曲線で近似する。角とは曲率が極大となる点であり、曲率が極大となる点は、図9に示すように、任意点Piに対し左右k個の離れた点Pi−k、Pi+kの間に弦Lを引いたとき、この弦LとPiの距離lが極大となる点として求められる。
また、Pi−k、Pi+k間の{(弦の長さ)/(弧の長さ)}をRとし、Rの値が閾値以下である点を角とみなすことができる。角によって分割された後の各区間は、直線は点列に対する最小二乗法等の計算式を用いて、また、曲線は3次スプライン関数等の関数を用いてベクトル化することができる。
また、対象が内輪郭を持つ場合(すなわち、黒画素塊の内部に白画素塊がある場合)、領域分離処理で抽出した白画素輪郭の点列を用いて、同様に部分的直線あるいは曲線で近似する。
以上のように、輪郭の区分線近似を用いれば、任意形状の図形のアウトラインをベクトル化することができる。尚、原稿画像がカラー画像の場合は、そのカラー画像から図形の色を抽出してベクトルデータとともに記録する。
また、図10に示すように、ある区間で外輪郭と、内輪郭あるいは別の外輪郭が近接している場合、2つの輪郭線をひとまとめにし、太さを持った線(線幅情報と1本の輪郭線)として表現することができる。
具体的には、ある輪郭の各点Piから別輪郭上で最短距離となる点Qiまで線を引き、各距離PQiが平均的に一定長以下の場合、注目区間はPQi中点を点列として直線あるいは曲線で近似し、その太さ(線幅)はPQiの平均値とする。線や線の集合体であるグラフィックス領域や表罫線などは、このような太さを持つ線の集合として効率よくベクトル表現することができる。
尚、前述したように、テキスト領域に対してベクトル化処理を行う場合、文字認識処理を用いたベクトル化を説明した。ここでは、該文字認識処理の結果、辞書からの距離が最も近い文字を認識結果として用いるが、この距離が所定値以上の場合(類似度が低い場合)は、形状が類似する他の文字として誤認識している場合が多い。
従って、本実施形態では、このようなテキスト領域に対しては、一般的なグラフィックス領域(線画)と同じに扱い、そのテキスト領域を文字画像の輪郭に基づいてアウトラインベクトル化する。即ち、従来の文字認識処理で誤認識を起こす文字に対しても誤った文字にベクトル化されず、可視的にイメージデータに忠実なアウトライン化によるベクトル化が行える。
なお、写真などのイメージ領域に対しては、複雑な形状をしていることが多く、ベクトル化するとデータ量が大きくなってしまう可能性が高いので、そのままイメージデータとしてJPEG圧縮等を扱い、ベクトル化は実行しない。
<メタデータ>
図11に示すように、メタデータの構成は、階層的とすることができる。例えば、基礎情報1101には、原稿画像が作成された日時や作成者等が記載されている。また、付加情報1102には、その原稿画像がどのような形をしているのか等が記載されている。本実施形態では、ステップS509にて作成された領域情報、領域に関連する情報は、付加情報としてメタデータに付加される。
メタデータを階層的な構成にするのは、階層に応じてセキュリティのレベルを変えることができ、誰でも見える情報や特定のユーザにしか見えない情報を区別するのに便利であるためである。
なお、メタデータの記載に関しては、XML等の記述言語が使用され、記述方式は、自由である。
<オブジェクト(領域)別UI画面表示>
図8に図6(a)の原稿画像604を領域分離して、メタデータを付加して、ベクトル化して、BOX保存された場合に分離された領域を表示しているMFPにおけるUI画面の一例を示す。
原稿画像604を構成している領域は3つで、テキスト領域603、イメージ領域602、グラフィックス領域601である。それぞれの領域をUI画面801に個別に表示する。個別に表示された領域を選択することにより、その領域が持っているメタデータに表記されている内容を参照することが可能である。
また、領域を複数選択し、編集ボタン802を押下すると自動的にレイアウトされ、再構成されたドキュメントを作成することが可能である。また、自分のPCに領域を送付したい時には、送信ボタン803を押下することにより、可能となる。
<本実施形態に係る領域分離の説明>
図12に本実施形態の領域分離の概要を示すフローチャートを示す。
ステップS1201では、データ処理部206は、スキャナ等の画像読取部201により読み込まれた原稿画像の画像データを、図5に示した第1の領域分離を行い、領域分離とベクトル化とを行う。
次に、ステップS1202において、データ処理部206は、S509にて付加されたメタデータを参照し、テキスト領域に関して、文章解析を行う。
ステップS1203において、データ処理部206は、上記テキスト領域に含まれる文章について、ステップS1202にて行われた文章解析の結果が正しいか否かの判断を行う。正しい場合には、領域分離処理が正しく行われたと判断して、ステップS1214にて、データ処理部206は、表示部207のUI画面に領域分割した結果を表示して終了する。
一方、ステップS1203の判断結果が正しくないと判断した場合には、ステップS1204に進む。例えば、図3(a)のような画像に領域分離処理を行ったときに図3(b)のように分離された場合、各領域別に表示すると、図4のテキスト領域402に示すように、テキスト領域に含まれる文章に誤りが生じている。このとき、テキスト領域402のOCR結果に対して文章解析を行うと、文章の意味が成立していないので、領域分離処理が正しく行われなかったと判断される。このようにして、データ処理部206は、第1の領域分離によって分離された領域のうち、誤った文章を含むテキスト領域を検出する。
ステップS1204において、データ処理部206は、メタデータを参照して、そのテキスト領域の周囲に存在するテキスト領域以外の領域を探索し、その個数をAとする。すなわち、データ処理部206は、メタデータに含まれる領域情報および領域に関連する情報に基づいて、当該テキスト領域の周囲(近傍)にあるテキスト領域以外の領域を抽出し、該領域の個数Aをデータ処理部206が有するRAMに記憶する。例えば、当該テキスト領域の上下左右に他の領域があるか探索し、探索された領域を処理対象領域とする。
検索の結果が0個の場合は、ステップS1214にて、データ処理部206は、表示部207のUI画面に領域分離した結果を表示して終了する。1個以上検索した場合は、ステップS1206に進み、カウンタNを1にする。なお、ステップS1206では、2回目以降は、データ処理部206は、カウンタNを1進める。すなわち、データ処理部206は、ステップS1205の次にステップS1206を行う場合は、“0”であるカウント値を“1”にし、該カウント値をデータ処理部206が有するRAMに記憶する。また、後述するステップS1213の次にステップS1206を行う場合は、データ処理部206は、RAMに記憶されているカウント値を1ずつ累積し、該累積されたカウント値をRAMに記憶する。なお、処理対象領域は、文字行の方向にある領域から順に選択され、その後、隣の文字行の位置にある領域が順に選択されていく。
なお、本実施形態において、テキスト領域の周囲に存在するテキスト領域以外の領域を抽出することは重要である。本実施形態において、S1204を行うということは、図4のテキスト領域402のようにテキスト領域に含まれる文章が正しくないからである。この場合、イメージ領域401の文字“あ”のように、上記文章に必要だったはずのテキスト(文字)が周囲の他の属性の領域に含まれていることが考えられる。すなわち、テキスト領域中の文章を構成する一部のテキストが、他の属性の領域に重なることで、第1の領域分離によって、上記重なった一部のテキストが、テキスト領域ではなく、他の属性の領域に含まれることがある。
上記重なったテキストを含む他の属性の領域は、第1の領域分離の結果、正しくない文章を含むテキスト領域の周囲にあるはずである。図3(b)において、イメージ領域303はイメージ領域401に対応し、テキスト領域304はテキスト領域402に対応しているが、正しくない文章を含むテキスト領域304の周囲に、“あ”が重なっているイメージ領域303が存在している。
テキスト領域304は文章解析の結果、正しくないと判断されるので、このテキスト領域の文字行方向(横書きなので水平方向)に存在する他の領域を探索し、その結果、イメージ領域303が対象領域となる。このように、正しくない文章を含むテキスト領域の周囲の領域を抽出し、この抽出した領域を対象として、後述の第2の領域分離により、文字を抽出し、これらの抽出された文字を合成することにより、正しい文章の復元を行うことができる。
なお、「テキスト領域の周囲に存在するテキスト領域以外の領域の抽出」とは、画像処理装置やシステムの設計に応じて様々な方法が考えられる。例えば、対象となるテキスト領域から所定の距離(所定の画素)内にある領域を、“周囲に存在するテキスト領域以外の領域”として抽出することができる。なお、他のテキスト領域も判断対象に含めて抽出するようにしても構わない。また、対象となるテキスト領域の4方や8方において、すぐ隣にある領域を、“周囲に存在するテキスト領域以外の領域”として抽出しても良い。
このように、データ処理部206は、文章解析の結果、正しくないと判断された文章があれば、その周囲の領域を検査することにより、他の領域に重なっている文字を含む領域を抽出して合成することになる。すなわち、データ処理部206は、第1の領域分離にて分離された領域のうち、テキスト領域の一部が重なっている、該テキスト領域以外の領域を検出する。
次に、ステップS1207において、データ処理部206は、1つめの対象領域(テキスト領域の周囲に存在するテキスト領域以外の領域のうちの1つ)に対して、図13(a)から図13(b)になるような強力な下地除去を行う。下地除去は公知技術を用いることが可能であり、例えば、当該対象領域の原稿画像の色に基づいて閾値を変更することにより、下地除去してもよい。この下地除去によって、対象領域とそれ以外の領域の区別がつきやすくなり、第2の領域分離がやりやすくする。例として図4では、上記対象領域はイメージ領域401である。
そして、ステップS1208において、上記下地除去された対象領域について、領域分離(第2の領域分離)を行い、対象領域に含まれる複数の領域の分離を行う。例えば、図4では、イメージ領域401に対して第2の領域分離を行い、イメージ領域である正方形部分から、テキスト領域である“あ”を分離する。データ処理部206は、この分離されたそれぞれの領域に対してベクトル化を行う。
本実施形態では、一度、第1の領域分離によって得られたイメージ領域401に対して、ステップS1207のような下地除去を行って、再度領域分離を行うので、文字が抽出されやすくなる。よって、下地の色と重なっている文字の色とが近い場合であっても、容易に第2の領域分離を行って文字を抽出することができる。
ステップS1209において、データ処理部206は、第2の領域分離により得られた領域がテキスト領域か、またはそれ以外の領域かの判定を行う。第2の領域分離で得られた領域がテキスト領域で無い場合には、ステップS1210にて、その領域の属性に応じて新たな領域情報をメタデータに付加する。第2の領域分離により得られた領域がテキスト領域の場合には、ステップS1211において、データ処理部206は、第2の領域分離にて得られた新たなテキスト領域について、テキスト属性の領域情報をメタデータに付加する。また、このテキスト領域に対してOCR処理をおこなって、文字認識結果を得る。
次にステップS1212において、データ処理部206は、メタデータを参照して、文章解析の結果が正しくなかったテキスト領域と第2の領域分離で得たテキスト領域とを比較して合成するかどうか判断する。各テキスト領域の文字認識結果を繋げて文章会席を行った場合、繋げた後の文章解析結果の方が良くなると判断した場合は、各テキスト領域の合成を行う。ステップS1213において、RAMに記憶されたカウント値に基づいて、ステップS1204で検出された領域の個数Aとカウンタの個数Nとを比較する。カウンタの個数Nが個数A以上となっていたら、検出された領域の再領域分離(第2の領域分離)が終了したことを意味するので、ステップS1214において、データ処理部206は、結果を表示部207のUI画面に表示する。このとき、データ処理部206は、RAMに累積された個数Nを0にリセットする。一方、ステップS1213において個数Aが個数Nよりも大きい場合は、抽出(検出)された領域の全てに対して処理が終了していないので、ステップS1206に進み、個数Nが個数A以上となるまで、ステップS1206〜ステップS1213を繰り返す。
<文章解析>
ステップS1202の文章解析において、通常は文字領域毎に文章解析を行うが、図14のように段組と判断される文字領域に関しては、段組間で繋げて文章解析を行うことにより、文章解析結果は正しいと判断される。図14の場合は、段組された文書で領域分離を行うとテキスト領域1401とテキスト領域1402との2つのテキスト領域として分割される。しかしながら、段組と判断して繋げて解析すると、文章としてのつながりを持っている領域なので、各テキスト領域の文章解析の結果がおかしくても、テキスト領域を再領域分離(第2の領域分離)の対象とはしない。
<結果の表示>
ステップS1214におけるUI画面の一例を図15に示す。
図4では、イメージ領域401において、テキスト領域402の一部が下地と重なり、うまく領域分離できず、一つの領域としてUIに表示されている。しかしながら、図15では、イメージ領域1501は下地と文字の分離が行われ、更には、テキスト領域1502では、正しい文章として、UIに表示することが可能となる。
なお、第1および第2の実施形態では、原稿画像の入力をスキャナ等の画像読取部201から行っているが、クライアントPC102等の外部装置から入力するようにしても良い。また、上述した可搬メディアを介して原稿画像を入力しても良い。
(第2の実施形態)
本発明は第1の実施形態に限った話ではない。本実施形態では、第2の領域分離を行うべき領域をユーザが選択する形態を説明する。
第2の実施形態に係る処理に関連するフローチャートを図17に示す。また、MFPのUI画面上に表示される画面の一例として図16(a)、図16(b)、図16(c)を示す。
ステップS1701において、データ処理部206は、図5に示す処理に従って、領域分離(第1の領域分離)された領域を領域毎に表示部207のUI画面に表示する。その画面の一例を図4に示す。ユーザは、この画面を見ながら、分離結果が正しいか否かを判断する。分離結果が正しい場合は、ユーザはマウスなどの入力部204を操作して、UI画面の「OK」ボタンを押す。すると、ユーザによる「OK」ボタンの押下に応じて、分離結果が正しいことを示す目視結果情報が画像処理装置に入力される。
一方、ユーザがUI画面に表示されている各々の領域から分離結果に誤りがあると判断する場合は、ユーザは入力部204を操作してその領域を選択し、再度の領域分離を行いたい領域を指定する。すると、ユーザによる選択に応じて、再度の領域分離をすべき領域を示す目視結果情報が画像処理装置に入力される。
ステップS1702において、データ処理部206は、入力された目視結果情報を解析して、分離結果が正しいか否かを判断する。すなわち、データ処理部206は、上記解析により目視結果情報が、分離結果が正しいことを示す情報である場合は、分離結果が正しいと判断し、処理を終了し、ステップS1711にて図4と同様の画面をUIに表示する。
しかし、ステップS1702において、データ処理部206は、目視結果情報が、再度の領域分離をすべき領域を示す情報であると解析した場合は、分離結果に間違いがあると判断する。例えば、目視結果情報の解析結果、ユーザがイメージ領域401を指定していると、ステップS1703において、データ処理部206は、図16(a)の再領域分離用UI(第2の領域分離用UI)を表示部207に表示する。図16(a)において、ユーザは除去したい色(下地の背景色)を指定する。該指定に応じて、除去色情報が画像処理装置に入力される。次に、図16(b)において、ユーザは残したい色(文字の色)を指定する。該指定に応じて、残したい色情報が画像処理装置に入力される。両者の指定が終了したら、ユーザが図16(c)のボタン1601を押下すると、該押下に応じてデータ処理部206は、再領域分離(第2の領域分離)を開始する。
このようにして、データ処理部206は、原稿画像に対する第1の領域分離により分離された領域から、ユーザの選択に応じて、再度分離したい領域を選択することになる。
ステップS1704において、データ処理部206は、除去色情報および残したい色情報から、二値化して残したい部分を強調するように色成分をコントロールする。ステップS1705において、データ処理部206は、ステップS1208と同様にして、イメージ領域401について第2の領域分離およびベクトル化を行う。
ステップS1706において、データ処理部206は、上記第2の領域分離により得られた領域がテキスト領域か、テキスト領域以外の領域かを判定する。テキスト領域以外と判定した場合には、ステップS1707にて、データ処理部206は、その領域の属性に応じて領域情報をメタデータに付加する。
テキスト領域と判定した場合には、まず、ステップS1708において、データ処理部206は、第2の領域分離にて得られた新たなテキスト領域について、テキスト属性の領域情報をメタデータに付加する。なお、このとき、文字認識処理を行って、文字認識処理結果をメタデータに付加してもよい。
次にステップS1709において、データ処理部206は、この分離されたテキストを合成したい領域を選択する図18(a)のようなUI画面を表示部207に表示する。この場合は、ユーザはテキスト領域1801を選択する。該ユーザが選択した、第2の領域分離にて分離されたテキストを合成すべき領域(ここでは、テキスト領域1801)を示す情報が画像処理装置に入力される。ユーザは合成したい領域としてテキスト領域1801を選択すると、ステップS1710において、データ処理部206は、このテキストと選択されたテキスト領域1801とを合成する。その際に、データ処理部206は、図18(b)のようなUI画面を表示し、ユーザがどの方向から合成するかを選択する。この例の場合、ユーザがボタン1802を押下することで正常な文章が再構成される。また、領域の合成を行った際、メタデータも合成され、更に文字認識結果も接続合成されてメタデータに格納してもよい。
最後に、ステップS1711において、データ処理部206は、図15に示すようなUI画面を表示部207に表示する。
本実施形態では、第1の実施形態のように、第1の領域分離および第1の領域分離により誤りがある領域の復元を全て自動的に行うわけではないが、ユーザが誤りのある領域(例えば、テキスト領域)を指定している。そして、該ユーザの指定に応じて、画像処理装置が指定された領域について再度領域分離(第2の領域分離)を行い、正しい領域の復元を行っている。よって、より確実に正しい領域分離を行うことができる。
このように、より確実な領域分離が可能ということを考慮すると、第1の実施形態の処理を行った後(図12のステップS1214の後)に、選択的に本実施形態2を適用しても良い。例えば、ステップS1214の結果、UI画面に図15のような領域分離結果ではなく、依然として図4のような領域分離結果が表示される場合に特に有効である。このような場合、ユーザに修正すべき領域を選択させれば、正しい領域分離を確実に行うことができる。
なお、本実施形態では、第1の領域分離の後にユーザが選択した領域について、第2の領域分離を行うことで、要するメモリを従来に比べて低減しつつ、良好な領域分離を行っている。よって、本実施形態では、第1の領域分離の結果、第1の属性の領域が第2の属性の領域に完全に含まれる場合でも、良好に領域分離を行うことができる。
例えば、第1の領域分離の結果、テキスト領域に含まれる元文章が、イメージ領域に完全に含まれる場合は以下のように処理すれば良い。
すなわち、画像処理装置に、ユーザが選択した、テキスト領域の全てが重なっているイメージ領域に関する目視結果情報が入力されると、データ処理部206は、第1の領域分離により得られた領域から、上記イメージ領域を検出する。次いで、データ処理部206は、検出されたイメージ領域から、テキスト領域とイメージ領域とを分離する(第2の領域分離処理)。このようにして、第1の属性の領域の少なくとも一部が重なった第2の属性の領域から、上記第1の属性の領域の少なくとも一部と、第2の属性の領域とを分離することができる。
(第3の実施形態)
本発明は、第1の実施形態、および第2の実施形態に限った話ではない。MFP本体のUI画面上での制御のみではなく、接続されているホストコンピュータの画面上で行ってもかまわない。すなわち、第1および第2の実施形態に係る処理を、MFP100に接続された外部装置(例えば、クライアントPC102)にて行うようにしても良い。この場合は、クライアントPC102等の外部装置が有するCPUが、該外部装置の記憶装置に記憶された、図5、12、17に示すような処理を実現させるためのプログラムを実行することにより、本発明に係る領域分離処理を行う。
なお、クライアントPC102等の外部装置は、画像読取部201を備えていないので、LAN107に接続されたスキャナ(不図示)や、MFP100により読取られた原稿画像を、LAN107を介して入力するようにすれば良い。また、原稿画像が記憶された上述した可搬メディアを、上記外部装置が備える専用ドライブし、該専用ドライブから原稿画像を取得するようにしても良い。
(その他の実施形態)
本発明は、複数の機器(例えばコンピュータ、インターフェース機器、リーダ、プリンタなど)から構成されるシステムに適用することも、1つの機器からなる装置(複合機、プリンタ、ファクシミリ装置など)に適用することも可能である。
前述した実施形態の機能を実現するように前述した実施形態の構成を動作させるプログラムを記憶媒体に記憶させることも上述の実施形態の範疇に含まれる。また、該記憶媒体に記憶されたプログラムをコードとして読み出し、コンピュータにおいて実行することにより、該コンピュータを各処理部として機能させることも上述の実施形態の範疇に含まれる。即ちコンピュータ読み取り可能な記憶媒体も実施例の範囲に含まれる。また、前述のコンピュータプログラムが記憶された記憶媒体はもちろんそのコンピュータプログラム自体も上述の実施形態に含まれる。
かかる記憶媒体としてはたとえばフロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、CD―ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。
また前述の記憶媒体に記憶されたプログラム単体で処理を実行しているものに限らず、他のソフトウエア、拡張ボードの機能と共同して、OS上で動作し前述の実施形態の動作を実行するものも前述した実施形態の範疇に含まれる。
本発明の一実施形態に係る画像処理システムの構成を示すブロック図である。 本発明の一実施形態に係るMFPの詳細構成を示すブロック図である。 (a)は原稿の一例を示す図であり、(b)は、(a)の領域分離結果を示す図である。 MFPのUI画面に表示される一例を示す図である。 本発明の一実施形態に係る第1の領域分離に関する処理を示すフローチャートである。 (a)本発明の一実施形態に係る原稿の一例を示す図であり、(b)は、(a)の領域分離結果を示す図である。 本発明の一実施形態に係る文字きりの一例を示す図である。 本発明の一実施形態に係るMFPのUI画面に表示される一例を示す図である。 本発明の一実施形態に係るベクトル化処理を説明するための図である。 本発明の一実施形態に係るベクトル化処理を説明するための図である。 本発明の一実施形態に係るメタデータの構成の一例を示す図である。 本発明の一実施形態に係る領域分離の概略を説明するフローチャートである。 (a)および(b)は、本発明の一実施形態に係る下地除去を説明する図である。 本発明の一実施形態に係る原稿の一例を示す図である。 本発明の一実施形態に係るMFPのUI画面に表示される一例を示す図である。 (a)〜(c)は、本発明の一実施形態に係るMFPのUI画面に表示される一例を示す図である。 本発明の一実施形態に係る領域分離処理の概略を説明するフローチャートである。 (a)および(b)は、本発明の一実施形態に係るMFPのUI画面に表示される一例を示す図である。
符号の説明
201 画像読取部
202 記憶部
203 印刷部
204 入力部
205 ネットワークI/F
206 データ処理部
207 表示部

Claims (18)

  1. 原稿画像を取得する取得手段と、
    前記取得された原稿画像から該原稿画像を構成する領域を分離する第1の領域分離手段と、
    前記第1の領域分離手段にて分離された領域から、誤った文章を含むテキスト領域を検出する検出手段と、
    前記誤った文章の元文章の一部が重なっている第2の属性の領域を検出し、該検出された領域から、前記元文章の一部と前記第2の属性の領域とを分離する第2の領域分離手段と、
    前記第2の領域分離手段にて分離された元文章の一部を前記誤った文章を含むテキスト領域に合成する合成手段と
    を備えることを特徴とする画像処理装置。
  2. 前記第1の領域分離手段にて分離された領域を表示する表示手段をさらに備えることを特徴とする請求項1記載の画像処理装置。
  3. 前記検出手段は、前記第1の領域分離手段にて分離された領域のテキスト領域の各々に対して文章解析を行い、該文章解析の結果、文章が誤っているテキスト領域を、前記誤った文章を含むテキスト領域として検出することを特徴とする請求項1または2記載の画像処理装置。
  4. 前記第2の領域分離手段は、
    前記誤った文章を含むテキスト領域の周囲に存在するテキスト領域以外の領域を抽出する手段と、
    前記抽出された領域に対して領域の分離を行う手段と
    を有することを特徴とする請求項1乃至3のいずれかに記載の画像処理装置。
  5. 前記表示手段に表示された領域に基づいてユーザが選択した、前記元文章の一部が重なっている第2の属性の領域に関する情報を入力する手段をさらに備え、
    前記第2の領域分離手段は、該入力された情報に基づいて、前記元文章の一部が重なっている第2の属性の領域を検出することを特徴とする請求項2記載の画像処理装置。
  6. 前記表示手段に表示された領域に基づいてユーザが選択した、前記誤った文章を含むテキスト領域に関する情報を入力する手段をさらに備え、
    前記検出手段は、該入力された情報に基づいて、前記第1の領域分離手段にて分離された領域から、前記誤った文章を含むテキスト領域を検出することを特徴とする請求項5記載の画像処理装置。
  7. 原稿画像を取得する取得手段と、
    前記取得された原稿画像から該原稿画像を構成する領域を分離する第1の領域分離手段
    と、
    前記第1の領域分離手段にて分離された領域を表示する表示手段と、
    前記表示手段に表示された領域に基づいてユーザが選択した、第1の属性の領域の少なくとも一部が重なっている第2の属性の領域に関する情報を入力する手段と、
    前記入力された情報に基づいて、前記第1の属性の領域の少なくとも一部が重なっている第2の属性の領域を検出し、該検出された領域から、前記第1の属性の領域の少なくとも一部と前記第2の属性の領域とを分離する第2の領域分離手段と
    を備えることを特徴とする画像処理装置。
  8. 前記表示手段に表示された領域に基づいてユーザが選択した、前記第1の属性の領域の少なくとも一部を合成すべき第1の属性の領域に関する情報を入力する手段と、
    前記第1の領域分離手段による分離の結果、前記第1の属性の一部が前記第2の属性に重なっている場合、該入力された情報に基づいて、前記第1の領域分離手段にて分離された領域から、前記第1の属性の領域の少なくとも一部を合成すべき第1の属性の領域を検出する検出手段と、
    前記検出手段にて検出された領域と、前記第2の領域分離手段にて分離された、前記第1の属性の領域の少なくとも一部とを合成する合成手段と
    をさらに備えることを特徴とする請求項7記載の画像処理装置。
  9. 原稿画像を取得する取得工程と、
    前記取得された原稿画像から該原稿画像を構成する領域を分離する第1の領域分離工程と、
    前記第1の領域分離工程にて分離された領域から、誤った文章を含むテキスト領域を検出する検出工程と、
    前記誤った文章の元文章の一部が重なっている第2の属性の領域を検出し、該検出された領域から、前記元文章の一部と前記第2の属性の領域とを分離する第2の領域分離工程と、
    前記第2の領域分離工程にて分離された元文章の一部を前記誤った文章を含むテキスト領域に合成する合成工程と
    を有することを特徴とする画像処理方法。
  10. 前記第1の領域分離工程にて分離された領域を表示する表示工程をさらに有することを特徴とする請求項9記載の画像処理方法。
  11. 前記検出工程では、前記第1の領域分離工程にて分離された領域のテキスト領域の各々に対して文章解析を行い、該文章解析の結果、文章が誤っているテキスト領域を、前記誤った文章を含むテキスト領域として検出することを特徴とする請求項9または10記載の画像処理方法。
  12. 前記第2の領域分離工程は、
    前記誤った文章を含むテキスト領域の周囲に存在するテキスト領域以外の領域を抽出する工程と、
    前記抽出された領域に対して領域の分離を行う工程と
    を有することを特徴とする請求項9乃至11のいずれかに記載の画像処理方法。
  13. 前記表示工程にて表示された領域に基づいてユーザが選択した、前記元文章の一部が重なっている第2の属性の領域に関する情報を入力する工程をさらに有し、
    前記第2の領域分離工程では、該入力された情報に基づいて、前記元文章の一部が重なっている第2の属性の領域を検出することを特徴とする請求項10記載の画像処理方法。
  14. 前記表示工程にて表示された領域に基づいてユーザが選択した、前記誤った文章を含むテキスト領域に関する情報を入力する工程をさらに有し、
    前記検出工程では、該入力された情報に基づいて、前記第1の領域分離工程にて分離された領域から、前記誤った文章を含むテキスト領域を検出することを特徴とする請求項13記載の画像処理方法。
  15. 原稿画像を取得する取得工程と、
    前記取得された原稿画像から該原稿画像を構成する領域を分離する第1の領域分離工程と、
    前記第1の領域分離工程にて分離された領域を表示する表示工程と、
    前記表示工程にて表示された領域に基づいてユーザが選択した、第1の属性の領域の少なくとも一部が重なっている第2の属性の領域に関する情報を入力する工程と、
    前記入力された情報に基づいて、前記第1の属性の領域の少なくとも一部が重なっている第2の属性の領域を検出し、該検出された領域から、前記第1の属性の領域の少なくとも一部と前記第2の属性の領域とを分離する第2の領域分離工程と
    を有することを特徴とする画像処理方法。
  16. 前記表示工程にて表示された領域に基づいてユーザが選択した、前記第1の属性の領域の少なくとも一部を合成すべき第1の属性の領域に関する情報を入力する工程と、
    前記第1の領域分離工程による分離の結果、前記第1の属性の一部が前記第2の属性に重なっている場合、該入力された情報に基づいて、前記第1の領域分離工程にて分離された領域から、前記第1の属性の領域の少なくとも一部を合成すべき第1の属性の領域を検出する検出工程と、
    前記検出工程にて検出された領域と、前記第2の領域分離工程にて分離された、前記第1の属性の領域の少なくとも一部とを合成する合成工程と
    をさらに有することを特徴とする請求項15記載の画像処理方法。
  17. コンピュータを請求項1乃至8のいずれかに記載の画像処理装置として機能させることを特徴とするコンピュータプログラム。
  18. コンピュータにより読み出し可能なプログラムを格納した記憶媒体であって、請求項17記載のコンピュータプログラムを格納したことを特徴とする記憶媒体。
JP2007242667A 2007-09-19 2007-09-19 画像処理装置、および画像処理方法 Expired - Fee Related JP4960817B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007242667A JP4960817B2 (ja) 2007-09-19 2007-09-19 画像処理装置、および画像処理方法
US12/206,017 US8126270B2 (en) 2007-09-19 2008-09-08 Image processing apparatus and image processing method for performing region segmentation processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007242667A JP4960817B2 (ja) 2007-09-19 2007-09-19 画像処理装置、および画像処理方法

Publications (2)

Publication Number Publication Date
JP2009077048A JP2009077048A (ja) 2009-04-09
JP4960817B2 true JP4960817B2 (ja) 2012-06-27

Family

ID=40454508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007242667A Expired - Fee Related JP4960817B2 (ja) 2007-09-19 2007-09-19 画像処理装置、および画像処理方法

Country Status (2)

Country Link
US (1) US8126270B2 (ja)
JP (1) JP4960817B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4960817B2 (ja) * 2007-09-19 2012-06-27 キヤノン株式会社 画像処理装置、および画像処理方法
US8103098B2 (en) * 2008-09-03 2012-01-24 Primax Electronics Ltd. Method for generating a non-graphical digital image from an original digital image
JP4600552B2 (ja) * 2008-09-16 2010-12-15 コニカミノルタビジネステクノロジーズ株式会社 アウトライン化方法およびそれを用いた画像圧縮方法、アウトライン化装置、ならびにアウトライン化プログラム
US8249343B2 (en) * 2008-10-15 2012-08-21 Xerox Corporation Representing documents with runlength histograms
JP5153676B2 (ja) * 2009-02-10 2013-02-27 キヤノン株式会社 画像処理装置、画像処理方法、プログラムおよび記憶媒体
KR20110021195A (ko) * 2009-08-25 2011-03-04 삼성전자주식회사 동영상에서 중요 정보를 검출하는 방법 및 그 장치
US8488213B2 (en) * 2010-01-29 2013-07-16 Sharp Laboratories Of America, Inc. Methods and systems for no-touch scanning
US8391602B2 (en) 2010-04-08 2013-03-05 University Of Calcutta Character recognition
US9251614B1 (en) * 2014-08-29 2016-02-02 Konica Minolta Laboratory U.S.A., Inc. Background removal for document images
JP6128092B2 (ja) * 2014-10-10 2017-05-17 コニカミノルタ株式会社 履歴生成装置及び履歴生成方法
CN106407919B (zh) * 2016-09-05 2019-09-10 珠海赛纳打印科技股份有限公司 基于图像处理的文本分离方法及装置和图像形成设备
US11615870B2 (en) * 2019-01-28 2023-03-28 Rivia Health Inc. System and method for format-agnostic document ingestion
US20220237932A1 (en) * 2019-05-08 2022-07-28 Vrije Universiteit Brussel Computer implemented method for segmenting a binarized document
US11438477B2 (en) * 2020-01-16 2022-09-06 Fujifilm Business Innovation Corp. Information processing device, information processing system and computer readable medium
CN111353503B (zh) * 2020-02-28 2023-08-11 北京字节跳动网络技术有限公司 一种用户界面图像中功能区域的识别方法及装置
KR20210148474A (ko) 2020-05-28 2021-12-08 삼성디스플레이 주식회사 표시 장치 및 그 구동 방법
US11854287B2 (en) * 2021-11-23 2023-12-26 International Business Machines Corporation Visual mode image comparison

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5038381A (en) * 1988-07-11 1991-08-06 New Dest Corporation Image/text filtering system and method
CA2077969C (en) * 1991-11-19 1997-03-04 Daniel P. Huttenlocher Method of deriving wordshapes for subsequent comparison
JPH087046A (ja) * 1994-06-22 1996-01-12 Matsushita Electric Ind Co Ltd 文書認識装置
JPH09204526A (ja) * 1996-01-29 1997-08-05 Canon Inc 画像像域分離装置及びその方法
JP3782225B2 (ja) * 1997-12-26 2006-06-07 株式会社東芝 画像処理システム
US6360010B1 (en) * 1998-08-12 2002-03-19 Lucent Technologies, Inc. E-mail signature block segmentation
JP2000113098A (ja) * 1998-10-06 2000-04-21 Canon Inc 文書処理装置、文書処理システム、文書処理方法及び記憶媒体
JP4366011B2 (ja) 2000-12-21 2009-11-18 キヤノン株式会社 文書処理装置及び方法
KR100449805B1 (ko) * 2001-12-26 2004-09-22 한국전자통신연구원 붙은 필기체 숫자열의 분할인식방법
US7218779B2 (en) * 2003-01-21 2007-05-15 Microsoft Corporation Ink divider and associated application program interface
US7272258B2 (en) * 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information
JP4185831B2 (ja) * 2003-08-11 2008-11-26 株式会社リコー 画像処理装置、画像処理方法、および画像処理プログラム
JP3796500B2 (ja) * 2003-11-21 2006-07-12 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
US7424151B2 (en) * 2004-06-04 2008-09-09 Xerox Corporation Method and system for image classification and halftone frequency detection
JP4176053B2 (ja) * 2004-06-18 2008-11-05 シャープ株式会社 画像処理方法、画像処理装置、画像形成装置及びコンピュータプログラム
US7260276B2 (en) * 2004-06-30 2007-08-21 Sharp Laboratories Of America, Inc. Methods and systems for complexity estimation and complexity-based selection
JP4334504B2 (ja) * 2005-05-20 2009-09-30 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、コンピュータプログラム及び記録媒体
US7826665B2 (en) * 2005-12-12 2010-11-02 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
JP4960817B2 (ja) * 2007-09-19 2012-06-27 キヤノン株式会社 画像処理装置、および画像処理方法
US7778982B2 (en) * 2007-09-20 2010-08-17 Baker Allen F System for processing and using electronic documents

Also Published As

Publication number Publication date
US20090074291A1 (en) 2009-03-19
JP2009077048A (ja) 2009-04-09
US8126270B2 (en) 2012-02-28

Similar Documents

Publication Publication Date Title
JP4960817B2 (ja) 画像処理装置、および画像処理方法
US8320019B2 (en) Image processing apparatus, image processing method, and computer program thereof
US7551753B2 (en) Image processing apparatus and method therefor
JP4012140B2 (ja) 画像処理装置、情報処理装置及びそれらの制御方法、プログラム
US7860266B2 (en) Image processing system and image processing method
EP1588293B1 (en) Image processing method, system, program, program storage medium and information processing apparatus
US8073255B2 (en) Keyword generation process
US8412705B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
US7596271B2 (en) Image processing system and image processing method
US7126612B2 (en) Image processing apparatus, image processing method, program, and storage medium
JP4960796B2 (ja) 画像処理装置、画像処理方法ならびにそのプログラム及び記憶媒体
US8181108B2 (en) Device for editing metadata of divided object
JP5132347B2 (ja) 画像処理システム
US8270722B2 (en) Image processing with preferential vectorization of character and graphic regions
JP4541770B2 (ja) 画像処理装置及びその制御方法、プログラム
JP2005151455A (ja) 画像処理装置、情報処理装置及びそれらの制御方法、プログラム
JP2007028181A (ja) 画像処理装置
JP6012700B2 (ja) 情報処理装置、情報処理方法、情報処理システム、コンピュータプログラム
JP5420032B2 (ja) 情報処理装置、情報処理方法、情報処理システム、コンピュータプログラム
JP2005165674A (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
JP2006146500A (ja) 画像処理装置及びその制御方法、画像処理システム、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100909

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120323

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4960817

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees