JP2010074368A - 画像処理装置、画像処理方法、およびプログラム - Google Patents

画像処理装置、画像処理方法、およびプログラム Download PDF

Info

Publication number
JP2010074368A
JP2010074368A JP2008237911A JP2008237911A JP2010074368A JP 2010074368 A JP2010074368 A JP 2010074368A JP 2008237911 A JP2008237911 A JP 2008237911A JP 2008237911 A JP2008237911 A JP 2008237911A JP 2010074368 A JP2010074368 A JP 2010074368A
Authority
JP
Japan
Prior art keywords
edge
area
candidate
intensity information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008237911A
Other languages
English (en)
Other versions
JP5046243B2 (ja
Inventor
Fumihiro Hasegawa
史裕 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008237911A priority Critical patent/JP5046243B2/ja
Publication of JP2010074368A publication Critical patent/JP2010074368A/ja
Application granted granted Critical
Publication of JP5046243B2 publication Critical patent/JP5046243B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Abstract

【課題】本発明は、文字列と図又は写真が混在する文書のラスターイメージデータについて、図又は写真を構成する領域のみを正確に特定することができる画像形成装置、画像処理方法、およびプログラムを提供することを目的とする。
【解決手段】ラスターイメージデータから検出したエッジ画素の連結成分を抽出し、当該連結成分の外接矩形によって画定される領域内に含まれる各画素のエッジ強度情報を特徴量として取得する構成において、当該エッジ強度情報を補正する手段を設けることによって、文字列や罫線のみしか含まない領域を図又は写真を構成する領域として誤って認識することが防止され、図又は写真を構成する領域のみを正確に特定することができる。
【選択図】図1

Description

本発明は、ラスターイメージデータの領域分割技術に関し、より詳細には、文字列と図又は写真が混在する文書のラスターイメージデータの中から図又は写真を構成する領域を識別して抽出する画像処理装置、画像処理方法、およびプログラムに関する。
従来、ユーザが文字列と図又は写真が混在する文書のラスターイメージデータの中から、この文書中に含まれる所望の図又は写真のみを取り出して利用することを考える場合、ユーザは、パーソナルコンピュータで実行される画像編集ソフトなどを利用し、ディスプレイに映し出されるイメージを目視で確認しながら、必要な領域をマウス等によって手動で指定しなければならなかった。
この点につき、ラスターイメージデータから図や写真を構成する領域のみを自動的に抽出するための技術が種々検討されている。特開2004−110434号公報(特許文献1)は、ラスターイメージデータから写真を構成する領域を抽出する方法を開示する。特許文献1が開示する方法においては、まず、イメージの背景色を求め、背景色以外の画素の連結成分を求める。次に、当該連結成分のうち、同色とみなせる画素をグループ化した等色連結成分の外接矩形を求め、当該等色連結成分の色の数、ならびに当該外接矩形の数およびその重なりの多寡に基づいて写真領域を決定する。
しかしながら、特許文献1が開示する方法では、対象領域を判断するための基準として、等色連結成分の色の数を採用しており、対象となる写真がカラーであることが前提となっているため、モノクロで表現された文書のラスターイメージデータに対して適用することができないという問題があった。
また、特許文献1が開示する方法では、対象領域の判断基準として、等色連結成分の外接矩形の重なりの多寡を採用しているが、たとえば、対象文書中に図14(a)に示すような「影付き文字」が含まれていた場合、図14(b)に示すように、文字の「影」の部分が等色連結成分(破線)として判断されるため、図14(c)に示すように、一つの文字について、外接矩形の数およびその重なり(黒で示す)が多くなり、その結果、このような「影付き文字」を多く含む領域が写真領域と判断される虞があった。
特開2004−110434号公報
本発明は、上記従来技術における課題に鑑みてなされたものであり、本発明は、文字列と図又は写真が混在する文書のラスターイメージデータについて、図又は写真を構成する領域のみを正確に特定することができ、対象文書がモノクロ、カラーのいずれであっても、自在に領域分割を実行することのできる画像形成装置、画像処理方法、およびプログラムを提供することを目的とする。
本発明者は、文書のラスターイメージデータにおける図又は写真に係る領域の分割技術につき鋭意検討した結果、対象イメージデータから検出したエッジ画素の連結成分を抽出し、当該連結成分の外接矩形によって画定される領域内に含まれる各画素のエッジ強度を特徴量として取得する構成において、当該エッジ強度情報を補正する手段を設けることによって、文字列や罫線のみしか含まない領域を図又は写真を構成する領域として誤って認識することが防止され、図又は写真を構成する領域のみを正確に特定することができる画像形成装置を想到し、本発明に至ったのである。
本発明における上記エッジ強度情報補正手段は、文字を構成する画素に係るエッジ強度情報、ならびに、罫線を構成する画素に係るエッジ強度情報を除外して特徴量としてのエッジ強度情報を算出する。
さらに、本発明者は、上記構成によって図又は写真を構成すると特定された領域について、当該領域内に存在する文字行の数を特徴量として取得し、これに基づいて再判定を実行する構成に想到し、本発明に至ったのである。
すなわち、本発明によれば、文字列と図又は写真が混在する文書のラスターイメージデータの中から図又は写真を構成する領域を抽出する画像処理装置であって、処理対象の前記ラスターイメージデータからエッジ画素を検出した後、該エッジ画素について二値化処理を施すエッジ検出手段と、前記エッジ画素の連結成分の外接矩形によって画定される領域を候補領域として抽出する候補領域画定手段と、前記候補領域内の画素のエッジ強度情報を取得する手段と、該エッジ強度情報を補正するエッジ強度情報補正手段とを備える特徴量取得手段と、前記特徴量に基づいて前記候補領域が図又は写真の構成要素を含むか否かを判定する判定手段と、前記判定手段によって図又は写真の構成要素を含むと判定された前記候補領域を統合する図写真要素領域統合手段とを含む画像処理装置が提供される。本発明においては、前記エッジ強度情報補正手段は、取得された前記エッジ強度情報から前記候補領域内に存在する文字および罫線の少なくとも一方を構成する画素のエッジ強度情報を除外する手段を含むことができ、取得された前記エッジ強度情報から前記候補領域内に存在する文字および罫線の少なくとも一方を構成する画素の周辺画素のエッジ強度情報を除外する手段をさらに含むことができる。本発明においては、前記エッジ強度情報補正手段は、前記文字を構成する画素を特定するための文字抽出手段と前記罫線を構成する画素を特定するための罫線抽出手段を含むことができる。さらに、本発明においては、前記特徴量取得手段は、さらに、前記図写真要素領域統合手段が統合した領域内に存在する文字行の数を特徴量として取得する手段を含むことができ、さらに、前記文字行の数を特徴量として取得する手段は、前記統合した領域をはみ出す形で存在する文字行の数を特徴量として取得する手段をさらに含むことができる。
また、本発明によれば、文字列と図又は写真が混在する文書のラスターイメージデータの中から図又は写真を構成する領域を抽出する画像処理方法であって、処理対象の前記ラスターイメージデータからエッジ画素を検出した後、該エッジ画素について二値化処理を施すステップと、前記エッジ画素の連結成分の外接矩形によって画定される領域を候補領域として抽出するステップと、前記候補領域内の画素のエッジ強度情報を取得し、取得した該エッジ強度情報を補正する特徴量取得ステップと、前記特徴量に基づいて前記候補領域が図又は写真の構成要素を含むか否かを判定するステップと、前記判定手段によって図又は写真の構成要素を含むと判定された前記候補領域を統合するステップとを含む画像処理方法が提供される。本発明においては、前記エッジ強度情報を補正するステップは、取得された前記エッジ強度情報から前記候補領域内に存在する文字および罫線の少なくとも一方を構成する画素のエッジ強度情報を除外するステップを含むことができる。
また、本発明によれば、コンピュータに文字列と図又は写真が混在する文書のラスターイメージデータの中から図又は写真を構成する領域を抽出する画像処理を実行させるためのコンピュータ実行可能なプログラムであって、コンピュータを、処理対象の前記ラスターイメージデータからエッジ画素を検出した後、該エッジ画素について二値化処理を施すエッジ検出手段と、前記エッジ画素の連結成分の外接矩形によって画定される領域を候補領域として抽出する候補領域画定手段と、前記候補領域内の画素のエッジ強度情報を取得する手段と、該エッジ強度情報を補正するエッジ強度情報補正手段とを備える特徴量取得手段と、前記特徴量に基づいて前記候補領域が図又は写真の構成要素を含むか否かを判定する判定手段と、前記判定手段によって図又は写真の構成要素を含むと判定された前記候補領域を統合する図写真要素領域統合手段として機能させるためのプログラムが提供される。本発明においては、前記エッジ強度情報補正手段は、取得された前記エッジ強度情報から前記候補領域内に存在する文字および罫線の少なくとも一方を構成する画素のエッジ強度情報を除外する手段を含むことができる。
本発明によれば、文字列と図又は写真が混在する文書のラスターイメージデータから図又は写真を構成する領域のみを正確に識別することができ、対象文書がモノクロ、カラーのいずれであっても、自在に領域分割を実行することのできる画像形成装置、画像処理方法、およびプログラムが提供される。
以下、本発明を、実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。
図1は、本実施形態の画像処理装置10の機能ブロック図を示す。以下、図1を参照しながら、画像処理装置10がラスターイメージデータから図又は写真を構成する領域のみを自動的に抽出する機能について説明する。
本実施形態の画像処理装置10は、イメージデータ取込手段11、エッジ検出手段12、候補領域画定手段13、特徴量取得手段14、図写真要素領域判定手段15、および図写真要素領域統合手段16とを含んで構成されている。本実施形態においては、例えば、文字列を構成する領域と図又は写真を構成する領域とが混在する紙文書をスキャニングして取得したラスターイメージデータ(以下、イメージデータとして参照する)等が、記憶装置18に記憶されており、画像処理装置10の上記機能手段は、そのイメージデータの中から、図又は写真を構成する領域のみを抽出する処理を実行する。
まず、ユーザが利用したい図写真を含んだ文書のイメージデータを選択し、画像処理装置10に対し当該イメージデータの領域分割を命令すると、イメージデータ取込手段11は、記憶装置18から該当するイメージデータをロードする。次に、エッジ検出手段12によって、ロードされたイメージデータからモノクロのエッジ画像が生成される。次に、候補領域画定手段13が生成されたモノクロのエッジ画像を利用して、図写真の構成要素である可能性がある領域(以下、候補領域として参照する)を画定すると、各候補領域について、特徴量取得手段14が所定の特徴量を取得する。次に、図写真要素領域判定手段15が、候補領域毎に取得された特徴量に基づいて、その候補領域が図写真の構成要素(以下、図写真要素として参照する)を含む領域であるか否かを判定する。最後に、図写真要素領域統合手段16が、図写真要素を含む領域であると判定された各領域をユーザが利用可能な単位に統合する。その結果、図写真に係る領域のみが抽出され、ユーザに提示される。
本実施形態においては、画像処理装置10は、システム・コントローラとして機能するCPU、アプリケーション・ソフトウェアの実行空間を与えるためのRAM、ならびに処理を行うためのデータまたはプログラムなどを記憶したROM等のメモリ、ハードディスク装置や光ディスク装置などの外部記憶装置、および各種インタフェース部を含んで構成することができ、WINDOWS(登録商標)、UNIX(登録商標)、LINUX(登録商標)、その他の適切なオペレーション・システム(OS)の管理下で、C、C++、VisualC++、VisualBasic、Java(登録商標)などのオブジェクト指向のプログラミング言語により記述された各種アプリケーション・プログラムを実行することによって、上述した各機能手段を実現する。
次に、本実施形態の画像処理装置10の上述した各機能手段について、より詳細に説明する。まず、本実施形態におけるエッジ検出手段12について説明する。一般に、写真は、ピントがひどくぼけてしまっているものでない限り、多くのエッジ画素を含むことが知られている。また、線画の場合は、当然に、多くのエッジ画素が存在する。したがって、このエッジ画素を手がかりにすれば、対象文書がカラーであるかモノクロであるかにかかわらず、確実に候補領域を特定することができる。この点に鑑み、本実施形態におけるエッジ検出手段12は、候補領域を特定するための前提として、対象となるイメージデータからエッジ画素を検出し、このエッジ画素を二値化してエッジ画像を生成する。
本実施形態において、エッジ検出手段12は、まず、ロードされたイメージデータについて画素の成分毎にエッジ画素を検出する。具体的には、エッジ画素の検出は、以下に示す手順によって実行することができる。すなわち、各画素を中心として、図2に示す空間フィルタを施し、その絶対値があらかじめ定めた閾値よりも大きい場合に、その中心画素をエッジ画素であると判定する。対象がカラー画像に係るイメージデータである場合は、一つの画素につきRGB成分ごとに図2に示す空間フィルタを施し、少なくとも一成分について予め定めた閾値を超えた場合に、当該画素をエッジ画素と判定する。
また、本実施形態においては、対象がカラー画像に係るイメージデータである場合、一つの画素につきRGB成分ごとに図3(a)および(b)に示す2種類の空間フィルタを施し、その絶対値和が予め定めた閾値よりも大きい場合に、当該画素をエッジ画素と判定することもできる。
図3に示す2つの空間フィルタを用いる方法は、図2に示す空間フィルタを用いる方法に比べて、細かいノイズに鈍感であるという傾向があるため、例えば、背景が細かいドットで構成される中間色である場合において、背景を構成する各ドットをエッジ画素として拾いにくいという利点がある。
続いて、エッジ検出手段12は、上述した手順で抽出したエッジ画素を黒画素に変換し、当該エッジ画素以外を白画素に変換する二値化処理を実行する。その結果、元の画像からモノクロのエッジ画像が生成される。
次に、候補領域画定手段13は、上述した手順でエッジ検出手段12が抽出したエッジ画素(黒画素)の連結成分を抽出する。次に、候補領域画定手段13は、抽出したエッジ画素の各連結成分について外接矩形を求め、当該外接矩形によって画定される領域を候補領域として記憶装置18に記憶する。
次に、上述した手順で候補領域画定手段13によって画定された各候補領域内のイメージデータについて、特徴量取得手段14が所定の特徴量を取得する。本実施形態において、特徴量とは、各候補領域が図又は写真の構成要素を含む領域であるか否かを判定するための指標となるパラメータであり、複数種類の特徴量を採用することができる。本実施形態の特徴量取得手段14は、少なくとも、エッジ強度に関する情報を特徴量として取得する。ここでエッジ強度とは、隣接する画素の濃淡変動の急峻さを示す値をいい、候補領域内の各画素に対しSobelなどの空間フィルタを施し、そのフィルタ値から算出することができる。
次に、上述した手順で取得された特徴量に基づいて、図写真要素領域判定手段15は、各候補領域が図写真要素を含むか否かを判定する。図写真要素領域判定手段15は、まず、記憶装置18から各候補領域を読み出し、各候補領域について判定を行った後、図写真要素を含むと判定された候補領域を記憶装置18に記憶する。
本実施形態においては、図写真要素領域判定手段15がエッジ強度に関する情報を特徴量として判定を行う方法として、以下の手順を採用することができる。すなわち、判定対象の候補領域内の全画素のエッジ強度の合計値を当該候補領域内の全画素数で除算して得られた値を評価値とし、これが所定の閾値より大きい値を示した領域を図写真要素を含む領域と判定することができる。あるいは、候補領域内の所定値以上のエッジ強度を持つ画素数をカウントし、このカウント値を評価値とし、これが所定の閾値より大きい値を示した領域を図写真要素を含む領域と判定することもできる。なお、実際には、図写真要素領域判定手段15は、複数の特徴量を用いて判定処理を行うものであり、上述したエッジ強度に関する情報などの各特徴量について、所定の閾値と比較し、すべての条件をクリアした場合に図写真要素を含む領域と判定することができ、あるいは、全ての特徴量の重み付き線型和を作り、これが所定の閾値を超える場合に図写真要素を含む領域と判定することもできる。
最後に、図写真要素領域統合手段16が、図写真要素を含む領域であると判定した各領域(以下、決定領域として参照する)を統合する。本実施形態においては、多くの場合、決定領域は、ユーザが利用を所望する図又は写真全体を包含するものではなく、全体を構成する各要素を画定するものなので、ユーザが利用を所望する図又は写真の全体領域は、多くの場合、複数の決定領域を統合することによって初めて生成される。
本実施形態においては、図写真要素領域統合手段16は、複数の決定領域について、例えば、一部又は全部が重複する領域を連鎖的に全て抽出し、これらを結合することによって、ユーザが利用を所望する図又は写真の全体を包含する領域を画定することができる。図写真要素領域統合手段16は、統合した領域毎のイメージデータを個別に利用できる態様で記憶装置18に記憶する。画像処理装置10は、ユーザからの要求に応答して、文書のイメージデータ中から図写真に係る領域のみを、枠線で囲むなどの視認可能な態様で提示する。ユーザは、提示された領域の中から所望の図又は写真を含む領域を適宜選択し、コピー&ペーストを行うなどして利用することができる。以上、本実施形態の画像処理装置10について説明してきたが、上述した特徴量取得手段14について、さらに、詳細に説明する。
上述したように、特徴量取得手段14は、特徴量のひとつとしてエッジ強度に関する情報(以下、エッジ強度情報という)を採用するものであり、エッジ強度情報に基づいて各候補領域が図写真要素を含む領域であるか否かを判定する。しかしながら、仮に、候補領域に、文字や罫線が含まれていた場合、その候補領域内のエッジ画素の数は、必然的に多くなり、また、全体的なエッジ強度も大きくなる。このような文字や罫線を構成する画素に由来するエッジ強度情報まで特徴量として用いると、文字や罫線のみを含む領域を図写真要素を含む領域であると誤って判定する虞がある。この点につき、本実施形態の画像処理装置10は、図1に示すように、特徴量取得手段14がエッジ強度情報補正手段20をさらに備えることができる。以下、本実施形態におけるエッジ強度情報補正手段20について説明する。
本実施形態における特徴量取得手段14は、上述した手順で候補領域内のエッジ強度情報を取得する。しかしながら、候補領域に文字や罫線が含まれていた場合、これに起因するエッジ強度情報は、誤判定を招く原因となるので排除する必要がある。この点につき、エッジ強度情報補正手段20は、特徴量取得手段14が取得したエッジ強度情報から文字または罫線に起因する情報を除外する。
エッジ強度情報補正手段20は、文字抽出手段21および罫線抽出手段22を含んで構成することができる。文字抽出手段21は、候補領域名内に存在する文字を構成する画素の位置情報を抽出する。一方、罫線抽出手段22は、同様に、候補領域内に存在する罫線を構成する画素の位置情報を抽出する。ここでは、エッジ強度情報補正手段20の説明に入る前に、文字抽出手段21および罫線抽出手段22のそれぞれについて説明する。
最初に、本実施形態における文字抽出手段21について説明する。本実施形態における文字抽出手段21は、例えば、本出願人が先に出願した特開2004−038530号公報に開示された構成を利用して実現することができ、下記の手順を実行することができる。
まず、文字抽出手段21は、候補領域から文字列の横行を抽出する。行候補の抽出は、候補領域画定手段13が先に画定した外接矩形を利用して行なうことができる。すなわち、抽出したい行の方向(ここでは横方向)の近傍に連結する外接矩形を抽出する。近傍とは例えば外接矩形の大きさ程度の距離とする。そして、連結する外接矩形についてそのサイズが似通っているかどうかを調べる。例えば、高さが近く、位置も近い場合にそれらは同一の行を構成するとみなす。この連結処理をすべての外接矩形について実行することによって横方向の文字行候補を抽出する。また、同様の方法によって、縦方向の文字行候補も抽出する。
横方向および縦方向の文字行候補を抽出した後、これら文字行候補の中から、位置が重なり合うものについて、重なり合う横方向の文字行候補と縦方向の文字行候補同士を1本ずつ取り出す。次に、取り出した2つの文字行候補のそれぞれについて、行らしさ(行尤度)を計算し、どちらかが正しい文字行であるかを判定する。行らしさ(行尤度)の計算方法は、以下の方法で行うことができる。
まず、対象文字行の長さ、高さを求め、求めた行の長さ、高さをもとに文字行候補の縦横比(長さ比)を計算する。また、行を構成する連結成分同士の距離(文字間隔)を計算する。さらに、行を構成する連結成分のサイズを考慮するため、連結成分のうち、文字らしいサイズの連結成分数を数える。上述した縦横比、文字間隔、および連結成分数を特徴量として用い、文字行らしさを表す尤度を計算する。行尤度は、各特徴量の典型値との差の絶対値の線型和とすることができる。文字抽出手段21は、上述した手順で求められた尤度に基づいて文字行を決定すると、当該文字行に係る外接矩形によって画定される領域を文字が含まれる領域として決定し、当該領域の位置情報をエッジ強度情報補正手段20に与える。
次に、本実施形態における罫線抽出手段22について説明する。罫線抽出手段22は、例えば、本出願人が先に出願した特願2007−183379号に開示された構成を利用して実現することができ、下記の手順を実行することができる。
まず、罫線抽出手段22は、候補領域画定手段13が先に生成したエッジ画素(黒画素)の連結成分の中から、水平または垂直方向に、ある一定以上の長さを持つ黒画素の連結成分を抽出し、その中から、縦横比で細長いものを罫線候補として抽出する。この抽出方法については、特開2005−348279号公報に詳しく記載されている。
次に、抽出された罫線候補を構成する画素の中から、当該罫線候補の外郭線を構成する画素(以下、境界画素として参照する)についてエッジ画素の検出を行う。具体的には、先に説明した図2に示す空間フィルタを掛け、得られた値の絶対値が所定の閾値より大きいものをエッジ画素とする。その結果、複数の境界画素のうち、一定の割合以上の数の画素がエッジ画素であった場合に、当該罫線候補を罫線であると判定する。罫線抽出手段22は、上述した手順で罫線を決定すると、当該罫線を構成する画素の位置情報をエッジ強度情報補正手段20に与える。
エッジ強度情報補正手段20は、文字抽出手段21から与えられた文字を構成する画素の位置情報を利用して、特徴量取得手段14が既に取得した候補領域のエッジ強度情報の中から、文字を構成する画素に係る情報を除外する。同様に、エッジ強度情報補正手段20は、罫線抽出手段22から与えられた罫線を構成する画素の位置情報を利用して、特徴量取得手段14が既に取得した候補領域のエッジ強度情報の中から、罫線を構成する画素に係る情報を除外する。
本実施形態においては、文字または罫線を構成する画素の周辺画素についても除外対象とすることが好ましい。なお、どこまでを周辺画素とするかについては、判定精度に鑑みて適宜設定することができる。上述したように、本実施形態においては、特徴量取得手段14がエッジ強度情報補正手段20を備えるので、文字や罫線のみを含む領域を図写真要素を含む領域として誤判定することが防止される。以上、本実施形態の画像処理装置10について機能ブロック図を参照して説明してきたが、次に、画像処理装置10の動作フローチャートをもとに、より詳細に説明する。
図4は、本実施形態の画像処理装置10の動作を示すフローチャートである。なお、以下の説明においては、理解を助けるために、処理フローと並列する形で図5〜10を適宜参照するものとする。
画像処理装置10では、まず、ステップ101において、処理対象となるイメージデータをロードする。図5は、処理対象となるイメージデータが表現する文書の画像30を例示する。以下の説明においては、図5に示す画像30を、例えば、RGBの各成分がそれぞれ複数ビットから構成されるカラー画像として参照されたい。画像30には、猫を描いた線図の領域32と、風景を写したカラー写真の領域34と、罫線に囲まれた説明文の領域36が含まれている。
次に、ステップ102において、ロードしたイメージデータからエッジ画素を抽出し、エッジ画素を黒画素とした二値化処理を施す。その結果、図5に示した画像30から、図6に示すモノクロのエッジ画像40が生成される。その後、処理はステップ103に進む。
ステップ103においては、図6に示すエッジ画像40の中からエッジ画素の連結成分を抽出し、この連結成分の外接矩形によって画定される領域を候補領域として抽出する。図7は、エッジ画像40について画定された候補領域を破線で示す。図7(a)には、エッジ画像40の上に、画定された候補領域が重ねて示されており、図7(b)には、説明の便宜のため、候補領域のみを抜き出して示している。図7(a)および(b)に示されるように、猫を描いた線図の領域32からは、符号32a、32b、32cが示す3つの候補領域が抽出され、風景を写したカラー写真の領域34からは、符号34a、34b、34cが示す3つの候補領域が抽出されている。さらに、説明文の領域36からは、符号36a、36b、36cが示す3つの候補領域が抽出されている。
全ての候補領域が抽出された後、ステップ104において、候補領域毎に特徴量が取得される。ここでは、特徴量としてエッジ強度情報を取得する場合について説明する。ステップ104の特徴量取得処理においては、誤判定を防止するためのエッジ強度補正処理が併せて実行される。
図8は、エッジ強度情報補正処理のフローチャートを示す。エッジ強度補正処理においては、まず、ステップ201において、候補領域内の文字列が抽出される。図7を参照して説明すれば、ステップ201において、候補領域36a内の文字列M1「わたしの名前は」と候補領域36b内の文字列M2「CATです」が抽出される。次に、ステップ202において、候補領域内の罫線が抽出される。図7を参照して説明すれば、候補領域36c内の罫線Kが抽出される。次に、ステップ203において、文字列M1およびM2を構成する画素の位置情報を利用して、既に取得した候補領域36a内のエッジ強度情報から、文字列M1およびM2を構成する画素および当該画素の周辺画素に係る情報を除外する。同様に、罫線Kを構成する画素の位置情報を利用して、罫線Kを構成する画素および当該画素の周辺画素に係る情報を除外して、処理を終了する。上述したエッジ強度情報補正処理によって、候補領域36a、36b、36c内のエッジ強度が補正される。
ステップ104の特徴量取得処理で取得された特徴量に基づき、ステップ105において、各候補領域が図写真要素を含むか否かが判定され、ステップ106において、図写真要素領域と判定された場合は(ステップ106、Yes)、ステップ107に進んで当該候補領域が記憶装置に記憶され、図写真要素領域でないと判定された場合は(ステップ106、No)、ステップ108に進み、全ての候補領域について判定が終了したか否かが判断される。全ての候補領域について判定が終了するまで(ステップ108、No)、ステップ104以降の処理が繰り返される。
図7を参照して説明すれば、候補領域32a、32b、32c、ならびに、候補領域34a、34b、34cは、いずれも、エッジ強度が高いエッジ画素を数多く含むため、図写真要素を含む領域と判定される可能性が高くなる。一方、上述したエッジ強度情報補正処理を経たのちの候補領域36aは、エッジ強度が高いエッジ画素をほとんど含まなくなるため、図写真要素を含まないものと判定される可能性が高くなる。図9は、ステップ105における判定後、図写真要素を含む領域と判定された決定領域を破線で示す。図9(a)には、説明の便宜のため、決定領域のみを抜き出して示しており、図9(b)には、元のカラー画像30の上に決定領域を重ねて示している。図9に示されるように、図7において、説明文の領域36に対応する候補領域36a、36b、36cは、いずれも決定領域と判定されることなく抹消されている。
ステップ108において、全ての候補領域について判定が終了すると(ステップ108、Yes)、ステップ109に進む。ステップ109においては、決定領域をユーザが利用可能な単位に統合する。その結果、図又は写真に係る領域(以下、統合図写真領域として参照する)が生成される。図9および図10を参照して説明すると、複数の決定領域のうち、決定領域42a、42b、42cが一部又は全部が連鎖的に重複する領域として抽出された後、統合される。その結果、図10に一点斜線で示すように、猫を描いた線図の領域32を包含する統合図写真領域52が生成される。同様に、決定領域44a、44b、44cが一部又は全部が連鎖的に重複する領域として抽出された後、統合される。その結果、図10に示すように、風景を写したカラー写真の領域34を包含する統合図写真領域54が生成される。
最後に、ステップ110において、処理対象のイメージデータについて生成された各統合図写真領域を当該イメージデータと関連付けて記憶装置に記憶する。以上、画像処理装置10に係る実施形態をもって、本発明を説明してきたが、本発明は、さらに、各候補領域が図写真要素領域であるか否かの判定に用いられる新規な特徴量およびその取得手段を開示する。以下、この点について、図11〜図13を参照して説明する。
図11および図12は、本発明の理解を助けるための概念図である。図11(a)においては、上述した画像処理装置10によって生成された統合図写真領域60を実線で示す。統合図写真領域60の内部には、文字行領域62および64が破線で示されている。ここで、文字行領域とは、文字行が存在すると推定される領域をいい、当該文字行領域は、先に説明した文字抽出手段21と同様の構成を用いて抽出することができる。
ここで、図11(a)に示されるように、統合図写真領域60の領域内に文字行領域62、64が存在する場合、統合図写真領域60内に、図又は写真に係る有意なデータが含まれると推定することには一定の理がある。なぜならば、統合図写真領域60には、例えば、図11(b)に示すように、胴体部分に文字行72「CAT」および文字行74「U.S.A」が描かれた猫の描画76が存在する可能性があるからである。一方、仮に、統合図写真領域60内により多くの文字行領域が含まれていたとしたら、そのような統合図写真領域に図又は写真に係る有意なデータが存在する可能性はずっと少なくなる。
さらに、図12(a)には、同じく、統合図写真領域60(実線)と文字行領域66および67(破線)が示されており、文字行領域66および67は、統合図写真領域60の領域内に収まらず、はみ出す形で存在している。ここで、図12(a)に示されるような態様で、統合図写真領域60の領域内に文字行領域66、67が存在する場合、例えば、図12(b)に示すように、猫の描画76の上に、この猫についての説明文である文字行77「近所の猫がこんなところに座っていますよ」および文字行78「おとなしいので子供も安心して遊べますね」が重層して描かれていると推定することは不自然である。むしろ、図12(a)に示されるような態様の場合は、図12(c)に例示するように、文字行79および文字行80からなる「寒さが身にしみる今日この頃、皆様いかがおすごしでしょうか。地球温暖化が喧伝され」という文章領域の背景の色ムラ82を統合図写真領域60として誤って認識した可能性が大きい。
以上、説明した点に鑑み、本発明は、統合図写真領域内に存在する文字行の数を特徴量として取得する画像処理装置を開示する。さらに本発明は、統合図写真領域内に存在する文字行であって、当該統合図写真領域をはみ出す形で存在する文字行の数を特徴量として取得する画像処理装置を開示する。この点につき、以下、図13を参照して説明する。
図13は、本実施形態の文字行数を利用した新規な特徴量取得処理手段の動作フローチャートを示す。まず、ステップ301において、統合図写真領域内に文字行が存在するか否かが判断される。統合図写真領域内に文字行が存在しない場合(ステップ301、No)、そのまま処理が終了する。一方、統合図写真領域内に文字行が存在する場合(ステップ301、Yes)、ステップ302に進み、統合図写真領域内に存在する文字行の数がカウントされ、このカウント値が特徴量として記憶装置に記憶される。次に、ステップ303において、文字行が存在すると判定された統合図写真領域について、さらに、当該統合図写真領域をはみ出す文字行が存在するか否かが判断される。統合図写真領域をはみ出す文字行が存在しない場合(ステップ303、No)、そのまま処理が終了する。一方、統合図写真領域をはみ出す文字行が存在する場合(ステップ303、Yes)、ステップ304に進み、統合図写真領域をはみ出す文字行の数がカウントされ、このカウント値が特徴量として記憶装置に記憶され、処理を終了する。
なお、上述した新規な特徴量取得処理は、図4に示したフローチャートを参照して説明すると、ステップ109(図写真要素領域統合処理)の後に挿入することができ、ここで取得した当該特徴量を利用して、ステップ109で生成した統合図写真領域をさらに再判定することによって、判定精度を向上させることが可能となる。
以上、本発明について実施形態をもって説明してきたが、上述した実施形態の各機能は、アセンブリ言語、C、Visual C、C++、Visual C++、Java(登録商標)、Java(登録商標)Beans、Java(登録商標)Applet、Java(登録商標)Script、Perl、Rubyなど、レガシープログラミング言語やオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に記憶して頒布することができる。
また、本発明は上述した実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
本実施形態の画像処理装置の機能ブロック図。 空間フィルタを示す図。 空間フィルタを示す図。 本実施形態の画像処理装置の動作を示すフローチャート。 ラスターイメージデータが表現する文書の画像を示す図。 モノクロのエッジ画像を示す図。 画定された候補領域を示す図。 エッジ強度補正処理のフローチャート。 図写真要素を含む領域と判定された決定領域を示す図。 統合図写真領域を示す図。 本発明の理解を助けるための概念図。 本発明の理解を助けるための概念図。 本実施形態の文字行数を利用した新規な特徴量取得処理のフローチャート。 特許文献1が開示する方法を概念的に示す図。
符号の説明
10…画像処理装置、11…イメージデータ取込手段、12…エッジ検出手段、13…候補領域画定手段、14…特徴量取得手段、15…図写真要素領域判定手段、16…図写真要素領域統合手段、18…記憶装置、20…エッジ強度情報補正手段、21…文字抽出手段、22…罫線抽出手段、30…文書の画像、32…猫を描いた線図の領域、34…風景を写したカラー写真の領域、36…罫線に囲まれた説明文の領域、40…モノクロのエッジ画像、42,44…決定領域、52, 54, 60…統合図写真領域、62,64,66,67…文字行領域、72,74,77,78,79,80…文字行、76…猫の描画、82…色ムラ

Claims (10)

  1. 文字列と図又は写真が混在する文書のラスターイメージデータの中から図又は写真を構成する領域を抽出する画像処理装置であって、
    処理対象の前記ラスターイメージデータからエッジ画素を検出した後、該エッジ画素について二値化処理を施すエッジ検出手段と、
    前記エッジ画素の連結成分の外接矩形によって画定される領域を候補領域として抽出する候補領域画定手段と、
    前記候補領域内の画素のエッジ強度情報を取得する手段と、該エッジ強度情報を補正するエッジ強度情報補正手段とを備える特徴量取得手段と、
    前記特徴量に基づいて前記候補領域が図又は写真の構成要素を含むか否かを判定する判定手段と、
    前記判定手段によって図又は写真の構成要素を含むと判定された前記候補領域を統合する図写真要素領域統合手段とを含む、
    画像処理装置。
  2. 前記エッジ強度情報補正手段は、取得された前記エッジ強度情報から前記候補領域内に存在する文字および罫線の少なくとも一方を構成する画素のエッジ強度情報を除外する手段を含む、
    請求項1に記載の画像処理装置。
  3. 前記エッジ強度情報補正手段は、取得された前記エッジ強度情報から前記候補領域内に存在する文字および罫線の少なくとも一方を構成する画素の周辺画素のエッジ強度情報を除外する手段をさらに含む、
    請求項2に記載の画像処理装置。
  4. 前記エッジ強度情報補正手段は、前記文字を構成する画素を特定するための文字抽出手段と前記罫線を構成する画素を特定するための罫線抽出手段を含む、
    請求項2に記載の画像処理装置。
  5. 前記特徴量取得手段は、前記図写真要素領域統合手段が統合した領域内に存在する文字行の数を特徴量として取得する手段をさらに含む、
    請求項1〜4のいずれか1項に記載の画像処理装置。
  6. 前記文字行の数を特徴量として取得する手段は、前記統合した領域をはみ出す形で存在する文字行の数を特徴量として取得する手段をさらに含む、
    請求項5に記載の画像処理装置。
  7. 文字列と図又は写真が混在する文書のラスターイメージデータの中から図又は写真を構成する領域を抽出する画像処理方法であって、
    処理対象の前記ラスターイメージデータからエッジ画素を検出した後、該エッジ画素について二値化処理を施すステップと、
    前記エッジ画素の連結成分の外接矩形によって画定される領域を候補領域として抽出するステップと、
    前記候補領域内の画素のエッジ強度情報を取得し、取得した該エッジ強度情報を補正する特徴量取得ステップと、
    前記特徴量に基づいて前記候補領域が図又は写真の構成要素を含むか否かを判定するステップと、
    前記判定手段によって図又は写真の構成要素を含むと判定された前記候補領域を統合するステップとを含む、
    画像処理方法。
  8. 前記エッジ強度情報を補正するステップは、取得された前記エッジ強度情報から前記候補領域内に存在する文字および罫線の少なくとも一方を構成する画素のエッジ強度情報を除外するステップを含む、
    請求項7に記載の画像処理方法。
  9. コンピュータに文字列と図又は写真が混在する文書のラスターイメージデータの中から図又は写真を構成する領域を抽出する画像処理を実行させるためのコンピュータ実行可能なプログラムであって、
    コンピュータを、
    処理対象の前記ラスターイメージデータからエッジ画素を検出した後、該エッジ画素について二値化処理を施すエッジ検出手段と、
    前記エッジ画素の連結成分の外接矩形によって画定される領域を候補領域として抽出する候補領域画定手段と、
    前記候補領域内の画素のエッジ強度情報を取得する手段と、該エッジ強度情報を補正するエッジ強度情報補正手段とを備える特徴量取得手段と、
    前記特徴量に基づいて前記候補領域が図又は写真の構成要素を含むか否かを判定する判定手段と、
    前記判定手段によって図又は写真の構成要素を含むと判定された前記候補領域を統合する図写真要素領域統合手段として機能させるための
    プログラム。
  10. 前記エッジ強度情報補正手段は、取得された前記エッジ強度情報から前記候補領域内に存在する文字および罫線の少なくとも一方を構成する画素のエッジ強度情報を除外する手段を含む、
    請求項9に記載のプログラム。
JP2008237911A 2008-09-17 2008-09-17 画像処理装置、画像処理方法、およびプログラム Expired - Fee Related JP5046243B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008237911A JP5046243B2 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008237911A JP5046243B2 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2010074368A true JP2010074368A (ja) 2010-04-02
JP5046243B2 JP5046243B2 (ja) 2012-10-10

Family

ID=42205770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008237911A Expired - Fee Related JP5046243B2 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5046243B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013030090A (ja) * 2011-07-29 2013-02-07 Brother Ind Ltd 画像処理装置、画像処理プラグラム
JP6105179B1 (ja) * 2016-06-30 2017-03-29 楽天株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
CN116485874A (zh) * 2023-06-25 2023-07-25 深圳市众翔奕精密科技有限公司 一种模切辅料切割间距智能检测方法及系统
CN116958646A (zh) * 2023-06-12 2023-10-27 北京声迅电子股份有限公司 基于x光图像的违禁物品检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001203876A (ja) * 2000-01-20 2001-07-27 Riso Kagaku Corp 文書修飾装置及び画像処理装置
JP2007193446A (ja) * 2006-01-17 2007-08-02 Konica Minolta Business Technologies Inc 画像処理装置および罫線抽出プログラム
JP2008011484A (ja) * 2006-06-02 2008-01-17 Nippon Telegr & Teleph Corp <Ntt> 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
JP2008099149A (ja) * 2006-10-13 2008-04-24 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法および画像処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001203876A (ja) * 2000-01-20 2001-07-27 Riso Kagaku Corp 文書修飾装置及び画像処理装置
JP2007193446A (ja) * 2006-01-17 2007-08-02 Konica Minolta Business Technologies Inc 画像処理装置および罫線抽出プログラム
JP2008011484A (ja) * 2006-06-02 2008-01-17 Nippon Telegr & Teleph Corp <Ntt> 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
JP2008099149A (ja) * 2006-10-13 2008-04-24 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法および画像処理プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013030090A (ja) * 2011-07-29 2013-02-07 Brother Ind Ltd 画像処理装置、画像処理プラグラム
JP6105179B1 (ja) * 2016-06-30 2017-03-29 楽天株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
WO2018003074A1 (ja) * 2016-06-30 2018-01-04 楽天株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
US11144777B2 (en) 2016-06-30 2021-10-12 Rakuten Group, Inc. Image processing apparatus, image processing method, and image processing program for clipping images included in a large image
CN116958646A (zh) * 2023-06-12 2023-10-27 北京声迅电子股份有限公司 基于x光图像的违禁物品检测方法
CN116958646B (zh) * 2023-06-12 2024-01-30 北京声迅电子股份有限公司 基于x光图像的违禁物品检测方法
CN116485874A (zh) * 2023-06-25 2023-07-25 深圳市众翔奕精密科技有限公司 一种模切辅料切割间距智能检测方法及系统
CN116485874B (zh) * 2023-06-25 2023-08-29 深圳市众翔奕精密科技有限公司 一种模切辅料切割间距智能检测方法及系统

Also Published As

Publication number Publication date
JP5046243B2 (ja) 2012-10-10

Similar Documents

Publication Publication Date Title
JP4960897B2 (ja) 画像処理装置、画像処理方法、プログラム、記憶媒体
US7724950B2 (en) Image processing apparatus, image processing method, computer program, and storage medium
US8665347B2 (en) Image processing device, image processing program, and imaging device computing brightness value and color phase value
US10007846B2 (en) Image processing method
JP4739870B2 (ja) サングラス検出装置及び顔中心位置検出装置
JP2011129114A (ja) 検出装置、検出方法、検出プログラム、および記録媒体
US10455163B2 (en) Image processing apparatus that generates a combined image, control method, and storage medium
US9361669B2 (en) Image processing apparatus, image processing method, and program for performing a blurring process on an image
JP2010218420A (ja) 文字認識装置、画像読取装置、およびプログラム
JP6021665B2 (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
JP5046243B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP4393411B2 (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
EP2782065B1 (en) Image-processing device removing encircling lines for identifying sub-regions of image
JP6183038B2 (ja) 領域抽出装置、領域抽出方法およびプログラム
US8885971B2 (en) Image processing apparatus, image processing method, and storage medium
JP2016027444A5 (ja)
JP4990876B2 (ja) 画像処理装置
US9489603B2 (en) Image processing apparatus, image processing method, and storage medium that determine whether a white character exists inside a graphics object and convert density information accordingly
JP2010074342A (ja) 画像処理装置、画像形成装置、及びプログラム
JP5067882B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP6191256B2 (ja) 画像処理装置及びプログラム
JP2009277001A (ja) 画像処理装置
JP2009140244A (ja) 画像処理プログラム及び画像処理装置
JP3772845B2 (ja) 画像処理プログラム、画像処理装置、および撮影装置
JP4767208B2 (ja) 顔部品位置検出装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110613

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120710

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5046243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees