JP2006253842A - 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法 - Google Patents
画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法 Download PDFInfo
- Publication number
- JP2006253842A JP2006253842A JP2005064513A JP2005064513A JP2006253842A JP 2006253842 A JP2006253842 A JP 2006253842A JP 2005064513 A JP2005064513 A JP 2005064513A JP 2005064513 A JP2005064513 A JP 2005064513A JP 2006253842 A JP2006253842 A JP 2006253842A
- Authority
- JP
- Japan
- Prior art keywords
- document image
- character element
- character
- extracting
- connected component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Editing Of Facsimile Originals (AREA)
- Facsimile Image Signal Circuits (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【課題】写真、図、罫線などの非文字要素からの悪影響を防止すると同時に、罫線があれば分離できるはずの狭い隙間の融合を防ぐことによって、所望の領域分割結果を得て、レイアウト解析処理の高効率化と高精度化を図る。
【解決手段】2値文書画像から非文字要素を抽出し(S2,S3)、非文字要素を削除した2値文書画像を領域分割することにより(S4,S5)、非文字要素からの悪影響を防止する。また、領域分割結果から先に抽出された非文字要素に含まれる罫線を削除することにより(S6)、罫線があれば分離できるはずの狭い隙間の融合を防ぐことができる。これにより、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
【選択図】 図2
【解決手段】2値文書画像から非文字要素を抽出し(S2,S3)、非文字要素を削除した2値文書画像を領域分割することにより(S4,S5)、非文字要素からの悪影響を防止する。また、領域分割結果から先に抽出された非文字要素に含まれる罫線を削除することにより(S6)、罫線があれば分離できるはずの狭い隙間の融合を防ぐことができる。これにより、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
【選択図】 図2
Description
本発明は、画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法に関する。
スキャナやデジタルカメラなどの画像入力機器を通してコンピュータに入力された文書画像を文書構成要素(例えば、文字、文字行、パラグラフ、コラムなど)に分離する処理は、通常、「幾何的レイアウト解析」や「ページセグメンテーション」と呼ばれる。この「幾何的レイアウト解析」や「ページセグメンテーション」は、多くの場合、2値文書画像上で行われる。また、「幾何的レイアウト解析」や「ページセグメンテーション」は、前処理として、入力の際に生じる傾きを補正する「スキュー補正」を伴う。このようにしてスキュー補正された2値文書画像の「幾何的レイアウト解析」や「ページセグメンテーション」は、大きく2通りのアプローチ(トップダウン解析及びボトムアップ解析)に分類される。
ここで、トップダウン解析について説明する。トップダウン解析は、ページを大きな構成要素から小さな構成要素に分離する。例えば、ページをコラムに、そして、コラムをパラグラフに、パラグラフを文字行に、というように、大きな構成要素から小さなものに分離してゆくアプローチである。トップダウン解析は、ページのレイアウト構造についての仮定に基づくモデル(例えば、マンハッタンレイアウトでは、文字行は直立矩形である)を利用して、効率的に計算ができる反面、仮定が成り立たないようなデータについては、とんでもない間違いを生じるという欠点がある。一般に、複雑なレイアウトはモデル化も複雑になるため、取り扱いが難しい。
次に、ボトムアップ解析について説明する。ボトムアップ解析は、特許文献1、2に記載されているように、近隣の構成要素の位置関係を参照して、要素を統合してゆく。例えば、連結成分を文字行、そして、文字行をコラムに、というように、小さな構成要素を大きなものにグループ化してゆくアプローチである。しかしながら、特許文献1に記載されているようなボトムアップ解析は、局所的な情報に基づく方法なので、ページ全体のレイアウトに関する仮定にあまり依存せずに多様なレイアウトに対応できる反面、局所的な判断の間違いが蓄積してゆくという欠点がある。例えば、2つの異なるコラム間にまたがる2つの文字が、誤って1つの文字行に統合されてしまえば、それらの2つのコラムも1つのコラムとして誤って抽出されてしまう。また、特許文献2に記載されているような構成要素の統合では、言語による文字の並び方の特性や、文字列方向(縦/横)などの知識が必要となる。
このように2つのアプローチは相補的であるが、これらの「隙間」を埋めるアプローチとして、文字でない部分、すなわち「背景」、あるいは2値文書画像で言うところの「白地」を利用する方法がある。背景や白地の利用の利点としては、
(1)言語に依存しない(多くの言語でも白地が区切りとして使われる)。また、行方向(横書き/縦書き)についての知識を必要としない。
(2)大局的な処理なので、局所的な判断間違いが累積する可能性が少ない。
(3)複雑なレイアウトにも、柔軟に対応できる。
などが挙げられる。
(1)言語に依存しない(多くの言語でも白地が区切りとして使われる)。また、行方向(横書き/縦書き)についての知識を必要としない。
(2)大局的な処理なので、局所的な判断間違いが累積する可能性が少ない。
(3)複雑なレイアウトにも、柔軟に対応できる。
などが挙げられる。
このような背景解析に属する代表的な方法としては、「極大白矩形系列によるページセグメンテーション」がある。ここで、「極大白矩形系列によるページセグメンテーション」について簡単に説明する。準備として、「最大白矩形問題」を定義する。まず、rbをページ全体に対応する矩形領域、そして、C=[r0,r1,・・・,rn](ri⊂rb;i=0,1,・・・,n)を、それぞれ2値文書画像黒連結成分をちょうど囲むような矩形領域とする。図18に、矩形領域の集合の一例を示す。さらに、矩形に対して、次のような性質を満たす評価関数Qを導入する。2つの矩形rとr′について、
r⊆r′ならば、Q(r)≦Q(r′)
を満たす評価関数Qである。例えば、関数Q(r)を矩形rの面積とすると、上記の性質は満たされる。「最大白矩形問題」とは、Cの要素r0,r1,・・・,rn(ri⊂rb;i=0,1,・・・,n)と重ならないような矩形のうち、Qの値が最大になるものを見つける問題である。図18に示すように、黒い矩形を2値文書画像黒連結成分、関数Qを矩形の面積とすると、最大白矩形は網掛けで示す矩形になる。この問題の拡張として、非特許文献1,2,3においては、「極大白矩形」、すなわち、それ以上拡張するとCの要素のいずれかと重なり合ってしまうような白矩形を、Qの値が大きい順に数え上げるアルゴリズムを提案している。
r⊆r′ならば、Q(r)≦Q(r′)
を満たす評価関数Qである。例えば、関数Q(r)を矩形rの面積とすると、上記の性質は満たされる。「最大白矩形問題」とは、Cの要素r0,r1,・・・,rn(ri⊂rb;i=0,1,・・・,n)と重ならないような矩形のうち、Qの値が最大になるものを見つける問題である。図18に示すように、黒い矩形を2値文書画像黒連結成分、関数Qを矩形の面積とすると、最大白矩形は網掛けで示す矩形になる。この問題の拡張として、非特許文献1,2,3においては、「極大白矩形」、すなわち、それ以上拡張するとCの要素のいずれかと重なり合ってしまうような白矩形を、Qの値が大きい順に数え上げるアルゴリズムを提案している。
このようにして極大白矩形の系列によって背景領域(2値文書画像の白領域)を被覆してゆくことにより、コラムや文字行などの文書構成要素を、「いずれの白矩形にも被覆されていない部分」として抽出できると期待できる。
また、本出願人は、特願2004−238026において、このような「極大白矩形」のセパレータとしての評価基準や、矩形系列抽出の終了条件を自動的に設定する方法を提示している。
しかしながら、「極大白矩形系列によるページセグメンテーション」を用いた背景解析によるアプローチには有望な点と同時に、解決せねばならない問題がいくつか存在する。
文書画像上には、文字のほかに、写真、図、罫線などが含まれていて、それらが「極大白矩形抽出」に悪影響を及ぼすことがある。以下において、具体的に説明する。
図19は、2値化された文書画像における矩形領域の集合の一例を示す説明図である。なお、図19においては、文字の部分は塗りつぶしてある。図19に示す2値文書画像では、左下の破線で囲んだ部分に写真が存在するほか、罫線がいくつか存在する。図19に示すような矩形領域の集合についての領域分割結果を図20に示す。図20においては、領域を破線の囲みで示している。さらに、図19に示すような矩形領域の集合についてページ全体で抽出された極大白矩形系列による領域分割結果を図21に示す。図21に示すように、図19に示す2値文書画像についてそのまま白背景部分を極大矩形で被覆することにより分割すると、罫線の影響により領域が十分に分割されずに誤った結果が得られてしまう。加えて、図21においては、左下の写真の部分と文字とが融合されてしまっている。
そこで、上述したような非文字要素による悪影響への対処として、写真、図、罫線などの非文字要素を削除した2値文書画像(図22)に対して極大白矩形系列による領域分割を行なうことが考えられる。図22に示す非文字要素を削除した2値文書画像に対する極大白矩形系列による領域分割結果を図23に示す。図23に示すように、図21で示したような罫線の影響による誤った結果を排除することができるが、図23中の矢印で示した部分のように、罫線があれば分離できるはずの狭い隙間が融合される不具合が生じてしまう。
また、文書画像上に表が含まれている場合についても、罫線を除いて極大白矩形系列による領域分割を行なった場合には、罫線があれば分離できるはずの狭い隙間が融合される不具合が生じてしまう。
このように、白背景部分の構造に着目した文書画像領域分割では、写真、図、罫線の取り扱いには注意が必要であり、単純に非文字要素を削除するというような方法では所望の結果が得られないことがある。
本発明は、上記に鑑みてなされたものであって、レイアウト解析処理にあたって写真、図、罫線などの非文字要素からの悪影響を防止すると同時に、罫線があれば分離できるはずの狭い隙間の融合を防ぐことによって、所望の領域分割結果を得て、レイアウト解析処理の高効率化と高精度化を図ることを目的とする。
本発明は、上記に鑑みてなされたものであって、レイアウト解析処理にあたって写真、図、罫線などの非文字要素及び表の枠線からの悪影響を防止すると同時に、罫線及び表の枠線があれば分離できるはずの狭い隙間の融合を防ぐことによって、所望の領域分割結果を得て、レイアウト解析処理の高効率化と高精度化を図ることを目的とする。
上述した課題を解決し、目的を達成するために、請求項1にかかる発明の画像処理装置は、文書画像のレイアウト解析処理を行う画像処理装置において、前記文書画像を2値化して2値文書画像を生成する2値化手段と、この2値化手段により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出手段と、この非文字要素抽出手段により抽出された前記非文字要素を前記2値文書画像から削除する非文字要素削除手段と、この非文字要素削除手段により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割手段と、この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除手段と、この非文字要素再削除手段により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、を備える。
また、請求項2にかかる発明の画像処理装置は、文書画像のレイアウト解析処理を行う画像処理装置において、前記文書画像から非文字要素を抽出する非文字要素抽出手段と、前記文書画像を2値化して2値文書画像を生成する2値化手段と、この2値化手段により生成された前記2値文書画像から前記非文字要素抽出手段により抽出された前記非文字要素を削除する非文字要素削除手段と、この非文字要素削除手段により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割手段と、この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除手段と、この非文字要素再削除手段により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、を備える。
また、請求項3にかかる発明の画像処理装置は、文書画像のレイアウト解析処理を行う画像処理装置において、前記文書画像を2値化して2値文書画像を生成する2値化手段と、この2値化手段により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出手段と、前記2値化手段により生成された前記2値文書画像から表の枠線を抽出する表枠線抽出手段と、前記非文字要素抽出手段により抽出された前記非文字要素と前記表枠線抽出手段により抽出された前記表の枠線とを前記2値文書画像から削除する非文字要素削除手段と、この非文字要素削除手段により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割手段と、この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除手段と、この非文字要素再削除手段により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、を備える。
また、請求項4にかかる発明の画像処理装置は、文書画像のレイアウト解析処理を行う画像処理装置において、前記文書画像から非文字要素を抽出する非文字要素抽出手段と、前記文書画像から表の枠線を抽出する表枠線抽出手段と、前記文書画像を2値化して2値文書画像を生成する2値化手段と、この2値化手段により生成された前記2値文書画像から前記非文字要素抽出手段により抽出された前記非文字要素と前記表枠線抽出手段により抽出された前記表の枠線とを削除する非文字要素削除手段と、この非文字要素削除手段により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割手段と、この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除手段と、この非文字要素再削除手段により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、を備える。
また、請求項5にかかる発明は、請求項1ないし4のいずれか一記載の画像処理装置において、前記領域分割手段は、前記2値文書画像の背景部分において、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形系列を抽出する極大白矩形系列抽出手段と、この極大白矩形系列抽出手段により抽出された極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分割して抽出する手段と、を備える。
また、請求項6にかかる発明の画像形成装置は、画像を用紙上に印刷する画像形成装置において、文書原稿を読み取る画像読取手段と、この画像読取手段により読み取られた文書画像を2値化して2値文書画像を生成する2値化手段と、この2値化手段により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出手段と、この非文字要素抽出手段により抽出された前記非文字要素を前記2値文書画像から削除する非文字要素削除手段と、この非文字要素削除手段により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割手段と、この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除手段と、この非文字要素再削除手段により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、を備える。
また、請求項7にかかる発明の画像形成装置は、文書画像のレイアウト解析処理を行う画像形成装置において、前記文書画像から非文字要素を抽出する非文字要素抽出手段と、前記文書画像を2値化して2値文書画像を生成する2値化手段と、この2値化手段により生成された前記2値文書画像から前記非文字要素抽出手段により抽出された前記非文字要素を削除する非文字要素削除手段と、この非文字要素削除手段により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割手段と、この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除手段と、この非文字要素再削除手段により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、を備える。
また、請求項8にかかる発明の画像形成装置は、画像を用紙上に印刷する画像形成装置において、文書原稿を読み取る画像読取手段と、この画像読取手段により読み取られた文書画像を2値化して2値文書画像を生成する2値化手段と、この2値化手段により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出手段と、前記2値化手段により生成された前記2値文書画像から表の枠線を抽出する表枠線抽出手段と、前記非文字要素抽出手段により抽出された前記非文字要素と前記表枠線抽出手段により抽出された前記表の枠線とを前記2値文書画像から削除する非文字要素削除手段と、この非文字要素削除手段により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割手段と、この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除手段と、この非文字要素再削除手段により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、を備える。
また、請求項9にかかる発明の画像形成装置は、画像を用紙上に印刷する画像形成装置において、文書原稿を読み取る画像読取手段と、この画像読取手段により読み取られた文書画像から非文字要素を抽出する非文字要素抽出手段と、前記文書画像から表の枠線を抽出する表枠線抽出手段と、前記文書画像を2値化して2値文書画像を生成する2値化手段と、この2値化手段により生成された前記2値文書画像から前記非文字要素抽出手段により抽出された前記非文字要素と前記表枠線抽出手段により抽出された前記表の枠線とを削除する非文字要素削除手段と、この非文字要素削除手段により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割手段と、この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除手段と、この非文字要素再削除手段により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、を備える。
また、請求項10にかかる発明は、請求項6ないし9のいずれか一記載の画像形成装置において、前記領域分割手段は、前記2値文書画像の背景部分において、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形系列を抽出する極大白矩形系列抽出手段と、この極大白矩形系列抽出手段により抽出された極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分割して抽出する手段と、を備える。
また、請求項11にかかる発明のプログラムは、文書画像のレイアウト解析処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記文書画像を2値化して2値文書画像を生成する2値化機能と、この2値化機能により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出機能と、この非文字要素抽出機能により抽出された前記非文字要素を前記2値文書画像から削除する非文字要素削除機能と、この非文字要素削除機能により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割機能と、この領域分割機能による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除機能と、この非文字要素再削除機能により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出機能と、この連結成分抽出機能により抽出された各連結成分を領域分割結果として出力する領域分割結果出力機能と、を実行させる。
また、請求項12にかかる発明のプログラムは、文書画像のレイアウト解析処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記文書画像から非文字要素を抽出する非文字要素抽出機能と、前記文書画像を2値化して2値文書画像を生成する2値化機能と、この2値化機能により生成された前記2値文書画像から前記非文字要素抽出機能により抽出された前記非文字要素を削除する非文字要素削除機能と、この非文字要素削除機能により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割機能と、この領域分割機能による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除機能と、この非文字要素再削除機能により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出機能と、この連結成分抽出機能により抽出された各連結成分を領域分割結果として出力する領域分割結果出力機能と、を実行させる。
また、請求項13にかかる発明のプログラムは、文書画像のレイアウト解析処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記文書画像を2値化して2値文書画像を生成する2値化機能と、この2値化機能により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出機能と、前記2値化機能により生成された前記2値文書画像から表の枠線を抽出する表枠線抽出機能と、前記非文字要素抽出機能により抽出された前記非文字要素と前記表枠線抽出機能により抽出された前記表の枠線とを前記2値文書画像から削除する非文字要素削除機能と、この非文字要素削除機能により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割機能と、この領域分割機能による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除機能と、この非文字要素再削除機能により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出機能と、この連結成分抽出機能により抽出された各連結成分を領域分割結果として出力する領域分割結果出力機能と、を実行させる。
また、請求項14にかかる発明のプログラムは、文書画像のレイアウト解析処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記文書画像から非文字要素を抽出する非文字要素抽出機能と、前記文書画像から表の枠線を抽出する表枠線抽出機能と、前記文書画像を2値化して2値文書画像を生成する2値化機能と、この2値化機能により生成された前記2値文書画像から前記非文字要素抽出機能により抽出された前記非文字要素と前記表枠線抽出機能により抽出された前記表の枠線とを削除する非文字要素削除機能と、この非文字要素削除機能により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割機能と、この領域分割機能による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除機能と、この非文字要素再削除機能により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出機能と、この連結成分抽出機能により抽出された各連結成分を領域分割結果として出力する領域分割結果出力機能と、を実行させる。
また、請求項15にかかる発明は、請求項11ないし14のいずれか一記載のプログラムにおいて、前記領域分割機能は、前記2値文書画像の背景部分において、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形系列を抽出する極大白矩形系列抽出機能と、この極大白矩形系列抽出機能により抽出された極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分割して抽出する機能と、を前記コンピュータに実行させる。
また、請求項16にかかる発明の記憶媒体は、請求項11ないし15のいずれか一記載のプログラムを記憶する。
また、請求項17にかかる発明の画像処理方法は、文書画像のレイアウト解析処理を行う画像処理方法において、前記文書画像を2値化して2値文書画像を生成する2値化工程と、この2値化工程により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出工程と、この非文字要素抽出工程により抽出された前記非文字要素を前記2値文書画像から削除する非文字要素削除工程と、この非文字要素削除工程により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割工程と、この領域分割工程による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除工程と、この非文字要素再削除工程により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出工程と、この連結成分抽出工程により抽出された各連結成分を領域分割結果として出力する領域分割結果出力工程と、を含む。
また、請求項18にかかる発明の画像処理方法は、文書画像のレイアウト解析処理を行う画像処理方法において、前記文書画像から非文字要素を抽出する非文字要素抽出工程と、前記文書画像を2値化して2値文書画像を生成する2値化工程と、この2値化工程により生成された前記2値文書画像から前記非文字要素抽出工程により抽出された前記非文字要素を削除する非文字要素削除工程と、この非文字要素削除工程により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割工程と、この領域分割工程による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除工程と、この非文字要素再削除工程により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出工程と、この連結成分抽出工程により抽出された各連結成分を領域分割結果として出力する領域分割結果出力工程と、を含む。
また、請求項19にかかる発明の画像処理方法は、文書画像のレイアウト解析処理を行う画像処理方法において、前記文書画像を2値化して2値文書画像を生成する2値化工程と、この2値化工程により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出工程と、前記2値化工程により生成された前記2値文書画像から表の枠線を抽出する表枠線抽出工程と、前記非文字要素抽出工程により抽出された前記非文字要素と前記表枠線抽出工程により抽出された前記表の枠線とを前記2値文書画像から削除する非文字要素削除工程と、この非文字要素削除工程により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割工程と、この領域分割工程による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除工程と、この非文字要素再削除工程により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出工程と、この連結成分抽出工程により抽出された各連結成分を領域分割結果として出力する領域分割結果出力工程と、を含む。
また、請求項20にかかる発明の画像処理方法は、文書画像のレイアウト解析処理を行う画像処理方法において、前記文書画像から非文字要素を抽出する非文字要素抽出工程と、前記文書画像から表の枠線を抽出する表枠線抽出工程と、前記文書画像を2値化して2値文書画像を生成する2値化工程と、この2値化工程により生成された前記2値文書画像から前記非文字要素抽出工程により抽出された前記非文字要素と前記表枠線抽出工程により抽出された前記表の枠線とを削除する非文字要素削除工程と、この非文字要素削除工程により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割工程と、この領域分割工程による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除工程と、この非文字要素再削除工程により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出工程と、この連結成分抽出工程により抽出された各連結成分を領域分割結果として出力する領域分割結果出力工程と、を含む。
また、請求項21にかかる発明は、請求項17ないし20のいずれか一記載の画像処理方法において、前記領域分割工程は、前記2値文書画像の背景部分において、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形系列を抽出する極大白矩形系列抽出工程と、この極大白矩形系列抽出工程により抽出された極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分割して抽出する工程と、を含む。
請求項1にかかる発明によれば、2値文書画像から非文字要素を抽出し、非文字要素を削除した2値文書画像を領域分割することにより、非文字要素からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線を削除することにより、罫線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
また、請求項2にかかる発明によれば、文書画像から非文字要素を抽出し、非文字要素を削除した2値文書画像を領域分割することにより、非文字要素からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線を削除することにより、罫線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
また、請求項3にかかる発明によれば、2値文書画像から非文字要素及び表の枠線を抽出し、非文字要素及び表の枠線を削除した2値文書画像を領域分割することにより、非文字要素及び表の枠線からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線と表の枠線とを削除することにより、罫線及び表の枠線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。また、表の領域分割は別途に表に特化した処理をかけることによって、領域分割の精度を向上させることができる。
また、請求項4にかかる発明によれば、文書画像から非文字要素及び表の枠線を抽出し、非文字要素及び表の枠線を削除した2値文書画像を領域分割することにより、非文字要素及び表の枠線からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線と表の枠線とを削除することにより、罫線及び表の枠線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。また、表の領域分割は別途に表に特化した処理をかけることによって、領域分割の精度を向上させることができる。
また、請求項5にかかる発明によれば、言語に依存せず(多くの言語でも白地が区切りとして使われる)、また、行方向(横書き/縦書き)についての知識を必要とせず、大局的な処理なので、局所的な判断間違いが累積する可能性が少なく、複雑なレイアウトにも、柔軟に対応できるような文書画像領域分割を行なうことができる。
また、請求項6にかかる発明によれば、2値文書画像から非文字要素を抽出し、非文字要素を削除した2値文書画像を領域分割することにより、非文字要素からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線を削除することにより、罫線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
また、請求項7にかかる発明によれば、文書画像から非文字要素を抽出し、非文字要素を削除した2値文書画像を領域分割することにより、非文字要素からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線を削除することにより、罫線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
また、請求項8にかかる発明によれば、2値文書画像から非文字要素及び表の枠線を抽出し、非文字要素及び表の枠線を削除した2値文書画像を領域分割することにより、非文字要素及び表の枠線からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線と表の枠線とを削除することにより、罫線及び表の枠線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。また、表の領域分割は別途に表に特化した処理をかけることによって、領域分割の精度を向上させることができる。
また、請求項9にかかる発明によれば、文書画像から非文字要素及び表の枠線を抽出し、非文字要素及び表の枠線を削除した2値文書画像を領域分割することにより、非文字要素及び表の枠線からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線と表の枠線とを削除することにより、罫線及び表の枠線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。また、表の領域分割は別途に表に特化した処理をかけることによって、領域分割の精度を向上させることができる。
また、請求項10にかかる発明によれば、言語に依存せず(多くの言語でも白地が区切りとして使われる)、また、行方向(横書き/縦書き)についての知識を必要とせず、大局的な処理なので、局所的な判断間違いが累積する可能性が少なく、複雑なレイアウトにも、柔軟に対応できるような文書画像領域分割を行なうことができる。
また、請求項11にかかる発明によれば、2値文書画像から非文字要素を抽出し、非文字要素を削除した2値文書画像を領域分割することにより、非文字要素からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線を削除することにより、罫線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
また、請求項12にかかる発明によれば、文書画像から非文字要素を抽出し、非文字要素を削除した2値文書画像を領域分割することにより、非文字要素からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線を削除することにより、罫線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
また、請求項13にかかる発明によれば、2値文書画像から非文字要素及び表の枠線を抽出し、非文字要素及び表の枠線を削除した2値文書画像を領域分割することにより、非文字要素及び表の枠線からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線と表の枠線とを削除することにより、罫線及び表の枠線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。また、表の領域分割は別途に表に特化した処理をかけることによって、領域分割の精度を向上させることができる。
また、請求項14にかかる発明によれば、文書画像から非文字要素及び表の枠線を抽出し、非文字要素及び表の枠線を削除した2値文書画像を領域分割することにより、非文字要素及び表の枠線からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線と表の枠線とを削除することにより、罫線及び表の枠線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。また、表の領域分割は別途に表に特化した処理をかけることによって、領域分割の精度を向上させることができる。
また、請求項15にかかる発明によれば、言語に依存せず(多くの言語でも白地が区切りとして使われる)、また、行方向(横書き/縦書き)についての知識を必要とせず、大局的な処理なので、局所的な判断間違いが累積する可能性が少なく、複雑なレイアウトにも、柔軟に対応できるような文書画像領域分割を行なうことができる。
また、請求項16にかかる発明によれば、請求項11ないし15のいずれか一記載のプログラムを記憶していることにより、この記憶媒体に記憶されたプログラムをコンピュータに読み取らせることで、請求項11ないし15のいずれか一記載の発明と同様の作用効果を得ることができる。
また、請求項17にかかる発明によれば、2値文書画像から非文字要素を抽出し、非文字要素を削除した2値文書画像を領域分割することにより、非文字要素からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線を削除することにより、罫線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
また、請求項18にかかる発明によれば、文書画像から非文字要素を抽出し、非文字要素を削除した2値文書画像を領域分割することにより、非文字要素からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線を削除することにより、罫線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
また、請求項19にかかる発明によれば、2値文書画像から非文字要素及び表の枠線を抽出し、非文字要素及び表の枠線を削除した2値文書画像を領域分割することにより、非文字要素及び表の枠線からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線と表の枠線とを削除することにより、罫線及び表の枠線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。また、表の領域分割は別途に表に特化した処理をかけることによって、領域分割の精度を向上させることができる。
また、請求項20にかかる発明によれば、文書画像から非文字要素及び表の枠線を抽出し、非文字要素及び表の枠線を削除した2値文書画像を領域分割することにより、非文字要素及び表の枠線からの悪影響を防止すると同時に、領域分割結果から先に抽出された非文字要素に含まれる罫線と表の枠線とを削除することにより、罫線及び表の枠線があれば分離できるはずの狭い隙間の融合を防ぐことができる。また、表の領域分割は別途に表に特化した処理をかけることによって、領域分割の精度を向上させることができる。
また、請求項21にかかる発明によれば、言語に依存せず(多くの言語でも白地が区切りとして使われる)、また、行方向(横書き/縦書き)についての知識を必要とせず、大局的な処理なので、局所的な判断間違いが累積する可能性が少なく、複雑なレイアウトにも、柔軟に対応できるような文書画像領域分割を行なうことができる。
[第1の実施の形態]
本発明の第1の実施の形態を図1ないし図8に基づいて説明する。
本発明の第1の実施の形態を図1ないし図8に基づいて説明する。
図1は、本実施の形態の画像処理装置1の電気的な接続を示すブロック図である。図1に示すように、画像処理装置1は、PCなどのコンピュータであり、画像処理装置1の各部を集中的に制御するCPU(Central Processing Unit)2、情報を格納するROM(Read Only Memory)3及びRAM(Random Access Memory)4等の一次記憶装置5、データファイル(例えば、カラービットマップ画像データ)を記憶する記憶部であるHDD(Hard Disk Drive)6等の二次記憶装置7、情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等のリムーバブルディスク装置8、ネットワーク9を介して外部の他のコンピュータと通信により情報を伝達するためのネットワークインターフェース10、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示装置11、並びに操作者がCPU2に命令や情報等を入力するためのキーボード12、マウス等のポインティングデバイス13等から構成されており、これらの各部間で送受信されるデータをバスコントローラ14が調停して動作する。
なお、本実施の形態においては、画像処理装置1として一般的なパーソナルコンピュータを適用して説明しているが、これに限るものではなく、PDA(Personal Digital Assistants)と称される携帯用情報端末、palmTopPC、携帯電話、PHS(Personal Handyphone System)等であっても良い。
このような画像処理装置1では、ユーザが電源を投入するとCPU2がROM3内のローダーというプログラムを起動させ、HDD6よりオペレーティングシステムというコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM7に読み込み、このオペレーティングシステムを起動させる。このようなオペレーティングシステムは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。オペレーティングシステムのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)等が知られている。これらのオペレーティングシステム上で走る動作プログラムをアプリケーションプログラムと呼んでいる。
ここで、画像処理装置1は、アプリケーションプログラムとして、画像処理プログラムをHDD6に記憶している。この意味で、HDD6は、画像処理プログラムを記憶する記憶媒体として機能する。
また、一般的には、画像処理装置1のHDD6等の二次記憶装置7にインストールされるアプリケーションプログラムは、CD−ROMやDVD−ROM等の光情報記録メディアやFD等の磁気メディア等の記憶媒体8aに記録され、この記憶媒体8aに記録されたアプリケーションプログラムがHDD6等の二次記憶装置7にインストールされる。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体8aも、画像処理プログラムを記憶する記憶媒体となり得る。さらには、画像処理プログラムは、例えばネットワークインターフェース10を介して外部から取り込まれ、HDD6等の二次記憶装置7にインストールされても良い。
画像処理装置1は、オペレーティングシステム上で動作する画像処理プログラムが起動すると、この画像処理プログラムに従い、CPU2が各種の演算処理を実行して各部を集中的に制御する。画像処理装置1のCPU2が実行する各種の演算処理のうち、本実施の形態の特長的な処理であるレイアウト解析処理について以下に説明する。
なお、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路(図示せず)を別途設け、論理回路の動作により各種の演算処理を実行するようにするのが望ましい。
ここで、画像処理装置1のCPU2が実行するレイアウト解析処理について説明する。ここで、図2はレイアウト解析処理の流れを示すフローチャートである。図2に示すように、文書画像が入力されると(ステップS1)、入力された文書画像に対して2値化処理を施すことにより2値文書画像を生成する(ステップS2:2値化手段)。なお、レイアウト解析処理が施される文書画像は、一般性を失うことなく、スキュー補正されたカラー画像やグレイ画像、あるいは、2値文書画像が与えられているものとする。
次いで、ステップS2で生成した2値文書画像から、文字でない部分である非文字要素(罫線・写真・図など)を抽出する(ステップS3:非文字要素抽出手段)。非文字要素の抽出手法としては、例えば特開平6−20092号公報に記載されている公知技術を用いることができる。概略的には、黒画素連結成分を、その大きさ、形状(縦横比等)等によって文字候補、縦横セパレータ(本来の黒画素からなる領域分割線)、写真または図等に分類判別する。
その後、2値化された文書画像から抽出された非文字要素(罫線・写真・図など)を削除する(ステップS4:非文字要素削除手段)。
続いて、ステップS4で非文字要素(罫線・写真・図など)を削除した2値化画像に対する領域分割処理を行なう(ステップS5:領域分割手段)。本実施の形態における領域分割処理の基本的アプローチは、図3に示すように、祖から密への再帰的分割による階層的処理を行うことにより、処理の効率化を図るようにしたものである。概略的には、まず、ページ全体に対して極大白矩形系列抽出の終了条件の下限値を大きく設定して、粗いスケールで処理する。この段階で、抽出された白矩形系列をセパレータとしてページ全体をいくつかの領域に分割する。次に、各領域について極大白矩形系列抽出の終了条件の下限値を前よりも小さく設定して、再び極大白矩形系列抽出を行い、より細かな分割を行う。このような処理を再帰的に繰り返してゆく。なお、階層的処理における極大白矩形系列抽出の終了条件である下限値は、領域のサイズなどに応じて設定するようにすれば良い。また、極大白矩形系列抽出の終了条件である下限値の他に、白矩形として望ましい形やサイズに関する拘束条件を導入するようにしても良い。例えば、領域のセパレータとして適当でない形をした白矩形を除外する等である。このように領域のセパレータとして適当でない形をした白矩形を除外するのは、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いからである。このような長さや幅について拘束条件は、領域内で推定される文字のサイズに応じて決めることができる。
ここで、図4は領域分割処理の流れを示すフローチャートである。図4に示すように、2値文書画像の黒連結成分をちょうど囲むような矩形領域の集合C=[r0,r1,・・・,rn](ri⊂rb;i=0,1,・・・,n)を求め、この集合Cをアルゴリズムへ入力する(ステップS11)。図5は、矩形領域の集合の一例を示す説明図である。
次に、ページ全体に対して、極大白矩形系列を抽出する(ステップS12)。極大白矩形系列の抽出は、白矩形rの評価関数Q(r)を白矩形rの面積とし、処理している領域のサイズに応じて決まる下限値tについて、Q(r)≧tを満たすような極大白矩形をQ(r)の値が大きい順に数え上げる。これには、前述した非特許文献3に記載の方法を使えば良い。また、下限値tは、例えばwとhを処理している領域のそれぞれ幅と高さ、aを定数として、
t=a・min(w,h)
とすれば良い。さらに、領域のセパレータとしての適当でない形をした白矩形、例えば、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いので、そのような白矩形を除外するための拘束条件を設定する。これには、領域内にある黒矩形の大きさの分布から文字のサイズsを推定し、例えば、bを定数として、幅も高さもb・sより小さいような極大白矩形を、数え上げの際に除外するようにすれば良い。
t=a・min(w,h)
とすれば良い。さらに、領域のセパレータとしての適当でない形をした白矩形、例えば、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いので、そのような白矩形を除外するための拘束条件を設定する。これには、領域内にある黒矩形の大きさの分布から文字のサイズsを推定し、例えば、bを定数として、幅も高さもb・sより小さいような極大白矩形を、数え上げの際に除外するようにすれば良い。
次いで、抽出された白矩形系列をセパレータとしてページ全体をいくつかの領域に分割し、白矩形系列により分割された領域を抽出し(ステップS13)、抽出された各領域をスタックに積む(ステップS14)。ここで、スタックは、最後に入力したデータが先に出力されるデータ構造である。図6は、図5の矩形領域の集合についてページ全体で抽出された極大白矩形系列により分割された領域を示す説明図である。
続くステップS15では、スタックが空であるか否かを判断する。
スタックが空でなければ(ステップS15のN)、スタックの最上部に積まれている領域を取り出し(ステップS16)、その領域に対応する2値文書画像内で極大白矩形系列を抽出した後(ステップS17)、抽出された白矩形系列をセパレータとして、その領域をいくつかの部分領域に分割し、白矩形系列により分割された領域を抽出した後(ステップS18)、ステップS15に進む。つまり、スタックが空でない限り、ステップS16〜S18の処理が繰り返されることになる。
一方、スタックが空である場合には(ステップS15のY)、領域分割結果を出力して(ステップS19)、処理を終了する。
以上のように本実施の形態においては、スタックを利用することにより、領域が「深さ優先」の順序に従い、評価関数Q(r)の下限値を決めながら祖から密へ階層的に分割が行われることになる。
本実施の形態においては第一階層までの領域分割処理について説明したが、これに限るものではなく、ステップS19での領域分割結果に基づいて再度ステップS11から再度領域分割処理することにより、祖から密への再帰的分割による階層的処理が実行されることになる。
以上が、領域分割処理(ステップS5)の説明である。これにより、言語に依存せず(多くの言語でも白地が区切りとして使われる)、また、行方向(横書き/縦書き)についての知識を必要とせず、大局的な処理なので、局所的な判断間違いが累積する可能性が少なく、複雑なレイアウトにも、柔軟に対応できるような文書画像領域分割を行なうことができる。
ところで、図5の矩形領域の集合に対する領域分割結果を示す図7中の矢印で示す部分のように、罫線があれば分離できるはずの狭い隙間が融合されるという不具合が生じている。また、特に図示しないが、文書画像上に表が含まれている場合についても、罫線を除いて極大白矩形系列による領域分割を行なった場合には、罫線があれば分離できるはずの狭い隙間が融合される不具合が生じてしまう。
そこで、ステップS6においては、ステップS3で抽出した罫線の情報を用い、領域分割結果を示す2値文書画像(ビットマップ)から罫線部分を削除する。図8は、図6の領域分割結果から罫線を削除した結果を示す説明図である。図8に示すように、図6の領域分割結果から罫線を削除したことにより、融合されてしまった狭い隙間が分離されることになる。ここに、非文字要素再削除手段の機能が実行される。
その後、領域分割結果を示す2値文書画像(ビットマップ)から罫線部分を削除した2値文書画像(ビットマップ)の連結成分を計算し(ステップS7:連結成分抽出手段)、各連結成分を領域分割結果として出力することにより(ステップS8:領域分割結果出力手段)、全体の処理は終了する。
このように本実施の形態によれば、白背景部分の構造に着目した文書画像領域分割において、2値文書画像から非文字要素(罫線・写真・図など)を削除することにより、非文字要素からの悪影響を防止すると同時に、いったん削除されてしまった罫線情報を領域分割の後に再び利用することによって、罫線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
[第2の実施の形態]
本発明の第2の実施の形態を図9ないし図17に基づいて説明する。なお、前述した第一の実施の形態と同一部分は同一符号で示し説明も省略する。第一の実施の形態のレイアウト解析処理におけるステップS3〜S4においては、2値化された文書画像から罫線・写真・図などの非文字要素を抽出して削除するようにしたが、本実施の形態においては、非文字要素(罫線・写真・図など)とともに表の枠線についても抽出して削除するようにしたものである。このように表の枠線を非文字要素に含めなかったのは、表については、文字要素となる場合と非文字要素となる場合とがあるからである。
本発明の第2の実施の形態を図9ないし図17に基づいて説明する。なお、前述した第一の実施の形態と同一部分は同一符号で示し説明も省略する。第一の実施の形態のレイアウト解析処理におけるステップS3〜S4においては、2値化された文書画像から罫線・写真・図などの非文字要素を抽出して削除するようにしたが、本実施の形態においては、非文字要素(罫線・写真・図など)とともに表の枠線についても抽出して削除するようにしたものである。このように表の枠線を非文字要素に含めなかったのは、表については、文字要素となる場合と非文字要素となる場合とがあるからである。
図9は、本発明の第2の実施の形態のレイアウト解析処理の流れを示すフローチャートである。図9に示すように、文書画像が入力されると(ステップS1)、入力された文書画像に対して2値化処理を施すことにより2値文書画像を生成する(ステップS2:2値化手段)。
次いで、ステップS2で生成した2値文書画像から、文字でない部分である非文字要素(罫線・写真・図など)及び表の枠線を抽出する(ステップS3´:非文字要素抽出手段、表枠線抽出手段)。非文字要素の抽出手法としては、例えば特開平6−20092号公報に記載されている公知技術を用いることができる。また、表の枠線の抽出手法としては、例えば特開2001−266068号公報に記載されている公知技術を用いることができる。概略的には、黒画素の連結成分から外接矩形を抽出し、抽出した外接矩形について文字候補の矩形か枠候補の矩形かの分類を行う。そして、文字候補に分類された矩形に対して、その矩形の位置を元画像上で白で埋め、枠候補として残った矩形の枠を抽出し、抽出した枠から表の枠線を抽出する。
その後、2値化された文書画像から抽出された非文字要素(罫線・写真・図など)及び表の枠線を削除する(ステップS4´:非文字要素削除手段)。
例えば、図10に示すような表が文書画像として入力された場合には、図11に示すような表の枠線が抽出されて削除されることになる。すなわち、後述する領域分割処理の対象となる表の枠線が削除された2値化画像は図12のようになる。
続いて、ステップS4´で非文字要素(罫線・写真・図など)及び表の枠線を削除した2値化画像に対する領域分割処理を行う(ステップS5:領域分割手段)。ここで、図13は図12に示した2値文書画像の領域分割結果を示す説明図である。
その後、ステップS3´で抽出した罫線の情報及び表の枠線の情報を用い、領域分割結果を示す2値文書画像(ビットマップ)から罫線部分及び表の枠線部分を削除する(ステップS6´:非文字要素再削除手段)。このような処理を行なうのは、図12の矩形領域の集合に対する領域分割結果を示す図14中の矢印で示す部分のように、表の枠線があれば分離できるはずの狭い隙間が融合されるという不具合が生じているからである。そこで、上述した処理を行なうことにより、図15に示すように、図13の領域分割結果から表の枠線を削除することにより、融合されてしまった狭い隙間が分離されることになる。
その後、領域分割結果を示す2値文書画像(ビットマップ)から罫線部分及び表の枠線部分を削除した2値文書画像(ビットマップ)の連結成分を計算し(ステップS7:連結成分抽出手段)、各連結成分を領域分割結果として出力することにより(ステップS8:領域分割結果出力手段)、全体の処理は終了する。
このように本実施の形態によれば、白背景部分の構造に着目した文書画像領域分割において、2値文書画像から非文字要素(罫線・写真・図など)及び表の枠線を削除することにより、非文字要素及び表の枠線からの悪影響を防止すると同時に、いったん削除されてしまった罫線情報及び表の枠線の情報を領域分割の後に再び利用することによって、罫線及び表の枠線があれば分離できるはずの狭い隙間の融合を防ぐことができるので、所望の領域分割結果を得られるようになり、レイアウト解析処理の高効率化と高精度化を図ることができる。
なお、入力された文書画像がカラーや多階調のグレースケールの場合には、各実施の形態における非文字要素(罫線・写真・図など)や表の枠線の抽出を、2値化処理の前に行なうようにしても良い。入力された文書画像がカラーや多階調のグレースケールの場合には、非文字要素(罫線・写真・図など)や表の枠線の抽出を、2値化の前に行なうほうが精度的に良い場合があるからである。
なお、各実施の形態においては、画像処理装置1としてPCなどのコンピュータを適用したがこれに限るものではない。例えば、図16に示すように、画像読取手段であるスキャナ部21及び画像印刷装置であるプリンタ部22を備えた画像形成装置であるデジタル複合機20に備えられる情報処理装置に画像処理装置1を適用し、デジタル複合機20のスキャナ部21で読み取ったスキャン画像に対してレイアウト解析処理を施すようにしても良い。
また、各実施の形態の画像処理装置1としては、ローカルなシステム(例えば、パーソナルコンピュータ単体)を適用したが、これに限るものではない。例えば、図17に示すように、サーバコンピュータSにネットワークNを介してクライアントコンピュータCが複数台接続されたサーバクライアントシステムを適用するようにしても良い。この場合、各クライアントコンピュータCからサーバコンピュータSに対して画像を送信し、サーバコンピュータS(画像処理装置1)において画像に対してレイアウト解析処理を施すことになる。
1 画像処理装置
6,8a 記憶媒体
20 画像形成装置
21 画像読取手段
6,8a 記憶媒体
20 画像形成装置
21 画像読取手段
Claims (21)
- 文書画像のレイアウト解析処理を行う画像処理装置において、
前記文書画像を2値化して2値文書画像を生成する2値化手段と、
この2値化手段により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出手段と、
この非文字要素抽出手段により抽出された前記非文字要素を前記2値文書画像から削除する非文字要素削除手段と、
この非文字要素削除手段により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割手段と、
この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除手段と、
この非文字要素再削除手段により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、
この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、
を備えることを特徴とする画像処理装置。 - 文書画像のレイアウト解析処理を行う画像処理装置において、
前記文書画像から非文字要素を抽出する非文字要素抽出手段と、
前記文書画像を2値化して2値文書画像を生成する2値化手段と、
この2値化手段により生成された前記2値文書画像から前記非文字要素抽出手段により抽出された前記非文字要素を削除する非文字要素削除手段と、
この非文字要素削除手段により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割手段と、
この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除手段と、
この非文字要素再削除手段により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、
この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、
を備えることを特徴とする画像処理装置。 - 文書画像のレイアウト解析処理を行う画像処理装置において、
前記文書画像を2値化して2値文書画像を生成する2値化手段と、
この2値化手段により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出手段と、
前記2値化手段により生成された前記2値文書画像から表の枠線を抽出する表枠線抽出手段と、
前記非文字要素抽出手段により抽出された前記非文字要素と前記表枠線抽出手段により抽出された前記表の枠線とを前記2値文書画像から削除する非文字要素削除手段と、
この非文字要素削除手段により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割手段と、
この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除手段と、
この非文字要素再削除手段により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、
この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、
を備えることを特徴とする画像処理装置。 - 文書画像のレイアウト解析処理を行う画像処理装置において、
前記文書画像から非文字要素を抽出する非文字要素抽出手段と、
前記文書画像から表の枠線を抽出する表枠線抽出手段と、
前記文書画像を2値化して2値文書画像を生成する2値化手段と、
この2値化手段により生成された前記2値文書画像から前記非文字要素抽出手段により抽出された前記非文字要素と前記表枠線抽出手段により抽出された前記表の枠線とを削除する非文字要素削除手段と、
この非文字要素削除手段により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割手段と、
この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除手段と、
この非文字要素再削除手段により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、
この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、
を備えることを特徴とする画像処理装置。 - 前記領域分割手段は、前記2値文書画像の背景部分において、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形系列を抽出する極大白矩形系列抽出手段と、この極大白矩形系列抽出手段により抽出された極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分割して抽出する手段と、を備えることを特徴とする請求項1ないし4のいずれか一記載の画像処理装置。
- 画像を用紙上に印刷する画像形成装置において、
文書原稿を読み取る画像読取手段と、
この画像読取手段により読み取られた文書画像を2値化して2値文書画像を生成する2値化手段と、
この2値化手段により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出手段と、
この非文字要素抽出手段により抽出された前記非文字要素を前記2値文書画像から削除する非文字要素削除手段と、
この非文字要素削除手段により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割手段と、
この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除手段と、
この非文字要素再削除手段により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、
この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、
を備えることを特徴とする画像形成装置。 - 画像を用紙上に印刷する画像形成装置において、
文書原稿を読み取る画像読取手段と、
この画像読取手段により読み取られた文書画像から非文字要素を抽出する非文字要素抽出手段と、
前記文書画像を2値化して2値文書画像を生成する2値化手段と、
この2値化手段により生成された前記2値文書画像から前記非文字要素抽出手段により抽出された前記非文字要素を削除する非文字要素削除手段と、
この非文字要素削除手段により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割手段と、
この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除手段と、
この非文字要素再削除手段により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、
この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、
を備えることを特徴とする画像形成装置。 - 画像を用紙上に印刷する画像形成装置において、
文書原稿を読み取る画像読取手段と、
この画像読取手段により読み取られた文書画像を2値化して2値文書画像を生成する2値化手段と、
この2値化手段により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出手段と、
前記2値化手段により生成された前記2値文書画像から表の枠線を抽出する表枠線抽出手段と、
前記非文字要素抽出手段により抽出された前記非文字要素と前記表枠線抽出手段により抽出された前記表の枠線とを前記2値文書画像から削除する非文字要素削除手段と、
この非文字要素削除手段により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割手段と、
この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除手段と、
この非文字要素再削除手段により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、
この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、
を備えることを特徴とする画像形成装置。 - 画像を用紙上に印刷する画像形成装置において、
文書原稿を読み取る画像読取手段と、
この画像読取手段により読み取られた文書画像から非文字要素を抽出する非文字要素抽出手段と、
前記文書画像から表の枠線を抽出する表枠線抽出手段と、
前記文書画像を2値化して2値文書画像を生成する2値化手段と、
この2値化手段により生成された前記2値文書画像から前記非文字要素抽出手段により抽出された前記非文字要素と前記表枠線抽出手段により抽出された前記表の枠線とを削除する非文字要素削除手段と、
この非文字要素削除手段により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割手段と、
この領域分割手段による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除手段と、
この非文字要素再削除手段により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出手段と、
この連結成分抽出手段により抽出された各連結成分を領域分割結果として出力する領域分割結果出力手段と、
を備えることを特徴とする画像形成装置。 - 前記領域分割手段は、前記2値文書画像の背景部分において、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形系列を抽出する極大白矩形系列抽出手段と、この極大白矩形系列抽出手段により抽出された極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分割して抽出する手段と、を備えることを特徴とする請求項6ないし9のいずれか一記載の画像形成装置。
- 文書画像のレイアウト解析処理をコンピュータに実行させるプログラムであって、前記コンピュータに、
前記文書画像を2値化して2値文書画像を生成する2値化機能と、
この2値化機能により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出機能と、
この非文字要素抽出機能により抽出された前記非文字要素を前記2値文書画像から削除する非文字要素削除機能と、
この非文字要素削除機能により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割機能と、
この領域分割機能による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除機能と、
この非文字要素再削除機能により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出機能と、
この連結成分抽出機能により抽出された各連結成分を領域分割結果として出力する領域分割結果出力機能と、
を実行させることを特徴とするプログラム。 - 文書画像のレイアウト解析処理をコンピュータに実行させるプログラムであって、前記コンピュータに、
前記文書画像から非文字要素を抽出する非文字要素抽出機能と、
前記文書画像を2値化して2値文書画像を生成する2値化機能と、
この2値化機能により生成された前記2値文書画像から前記非文字要素抽出機能により抽出された前記非文字要素を削除する非文字要素削除機能と、
この非文字要素削除機能により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割機能と、
この領域分割機能による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除機能と、
この非文字要素再削除機能により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出機能と、
この連結成分抽出機能により抽出された各連結成分を領域分割結果として出力する領域分割結果出力機能と、
を実行させることを特徴とするプログラム。 - 文書画像のレイアウト解析処理をコンピュータに実行させるプログラムであって、前記コンピュータに、
前記文書画像を2値化して2値文書画像を生成する2値化機能と、
この2値化機能により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出機能と、
前記2値化機能により生成された前記2値文書画像から表の枠線を抽出する表枠線抽出機能と、
前記非文字要素抽出機能により抽出された前記非文字要素と前記表枠線抽出機能により抽出された前記表の枠線とを前記2値文書画像から削除する非文字要素削除機能と、
この非文字要素削除機能により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割機能と、
この領域分割機能による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除機能と、
この非文字要素再削除機能により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出機能と、
この連結成分抽出機能により抽出された各連結成分を領域分割結果として出力する領域分割結果出力機能と、
を実行させることを特徴とするプログラム。 - 文書画像のレイアウト解析処理をコンピュータに実行させるプログラムであって、前記コンピュータに、
前記文書画像から非文字要素を抽出する非文字要素抽出機能と、
前記文書画像から表の枠線を抽出する表枠線抽出機能と、
前記文書画像を2値化して2値文書画像を生成する2値化機能と、
この2値化機能により生成された前記2値文書画像から前記非文字要素抽出機能により抽出された前記非文字要素と前記表枠線抽出機能により抽出された前記表の枠線とを削除する非文字要素削除機能と、
この非文字要素削除機能により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割機能と、
この領域分割機能による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除機能と、
この非文字要素再削除機能により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出機能と、
この連結成分抽出機能により抽出された各連結成分を領域分割結果として出力する領域分割結果出力機能と、
を実行させることを特徴とするプログラム。 - 前記領域分割機能は、前記2値文書画像の背景部分において、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形系列を抽出する極大白矩形系列抽出機能と、この極大白矩形系列抽出機能により抽出された極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分割して抽出する機能と、を前記コンピュータに実行させることを特徴とする請求項11ないし14のいずれか一記載のプログラム。
- 請求項11ないし15のいずれか一記載のプログラムを記憶することを特徴とする記憶媒体。
- 文書画像のレイアウト解析処理を行う画像処理方法において、
前記文書画像を2値化して2値文書画像を生成する2値化工程と、
この2値化工程により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出工程と、
この非文字要素抽出工程により抽出された前記非文字要素を前記2値文書画像から削除する非文字要素削除工程と、
この非文字要素削除工程により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割工程と、
この領域分割工程による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除工程と、
この非文字要素再削除工程により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出工程と、
この連結成分抽出工程により抽出された各連結成分を領域分割結果として出力する領域分割結果出力工程と、
を含むことを特徴とする画像処理方法。 - 文書画像のレイアウト解析処理を行う画像処理方法において、
前記文書画像から非文字要素を抽出する非文字要素抽出工程と、
前記文書画像を2値化して2値文書画像を生成する2値化工程と、
この2値化工程により生成された前記2値文書画像から前記非文字要素抽出工程により抽出された前記非文字要素を削除する非文字要素削除工程と、
この非文字要素削除工程により前記非文字要素が削除された前記2値文書画像を領域分割する領域分割工程と、
この領域分割工程による領域分割結果から先に抽出された前記非文字要素に含まれる罫線を削除する非文字要素再削除工程と、
この非文字要素再削除工程により前記非文字要素に含まれる罫線が再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出工程と、
この連結成分抽出工程により抽出された各連結成分を領域分割結果として出力する領域分割結果出力工程と、
を含むことを特徴とする画像処理方法。 - 文書画像のレイアウト解析処理を行う画像処理方法において、
前記文書画像を2値化して2値文書画像を生成する2値化工程と、
この2値化工程により生成された前記2値文書画像から非文字要素を抽出する非文字要素抽出工程と、
前記2値化工程により生成された前記2値文書画像から表の枠線を抽出する表枠線抽出工程と、
前記非文字要素抽出工程により抽出された前記非文字要素と前記表枠線抽出工程により抽出された前記表の枠線とを前記2値文書画像から削除する非文字要素削除工程と、
この非文字要素削除工程により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割工程と、
この領域分割工程による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除工程と、
この非文字要素再削除工程により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出工程と、
この連結成分抽出工程により抽出された各連結成分を領域分割結果として出力する領域分割結果出力工程と、
を含むことを特徴とする画像処理方法。 - 文書画像のレイアウト解析処理を行う画像処理方法において、
前記文書画像から非文字要素を抽出する非文字要素抽出工程と、
前記文書画像から表の枠線を抽出する表枠線抽出工程と、
前記文書画像を2値化して2値文書画像を生成する2値化工程と、
この2値化工程により生成された前記2値文書画像から前記非文字要素抽出工程により抽出された前記非文字要素と前記表枠線抽出工程により抽出された前記表の枠線とを削除する非文字要素削除工程と、
この非文字要素削除工程により前記非文字要素と前記表の枠線とが削除された前記2値文書画像を領域分割する領域分割工程と、
この領域分割工程による領域分割結果から先に抽出された前記非文字要素に含まれる罫線と前記表の枠線とを削除する非文字要素再削除工程と、
この非文字要素再削除工程により前記非文字要素に含まれる罫線と前記表の枠線とが再度削除された領域分割結果の2値文書画像から連結成分を抽出する連結成分抽出工程と、
この連結成分抽出工程により抽出された各連結成分を領域分割結果として出力する領域分割結果出力工程と、
を含むことを特徴とする画像処理方法。 - 前記領域分割工程は、前記2値文書画像の背景部分において、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形系列を抽出する極大白矩形系列抽出工程と、この極大白矩形系列抽出工程により抽出された極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分割して抽出する工程と、を含むことを特徴とする請求項17ないし20のいずれか一記載の画像処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005064513A JP2006253842A (ja) | 2005-03-08 | 2005-03-08 | 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法 |
US11/362,755 US7676089B2 (en) | 2005-03-08 | 2006-02-28 | Document layout analysis with control of non-character area |
EP06251116A EP1701292A3 (en) | 2005-03-08 | 2006-03-01 | Document layout analysis with control of non-character area |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005064513A JP2006253842A (ja) | 2005-03-08 | 2005-03-08 | 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006253842A true JP2006253842A (ja) | 2006-09-21 |
Family
ID=36582018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005064513A Pending JP2006253842A (ja) | 2005-03-08 | 2005-03-08 | 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7676089B2 (ja) |
EP (1) | EP1701292A3 (ja) |
JP (1) | JP2006253842A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010224612A (ja) * | 2009-03-19 | 2010-10-07 | Fuji Xerox Co Ltd | 画像処理装置、画像読取装置、画像形成装置及びプログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011079432A1 (en) * | 2009-12-29 | 2011-07-07 | Nokia Corporation | Method and apparatus for generating a text image |
CN106096592B (zh) * | 2016-07-22 | 2019-05-24 | 浙江大学 | 一种数字图书的版面分析方法 |
US10198626B2 (en) * | 2016-10-19 | 2019-02-05 | Snap Inc. | Neural networks for facial modeling |
JP7494510B2 (ja) * | 2020-03-25 | 2024-06-04 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5202933A (en) * | 1989-12-08 | 1993-04-13 | Xerox Corporation | Segmentation of text and graphics |
EP0461817A3 (en) * | 1990-06-15 | 1993-11-18 | American Telephone & Telegraph | Image segmenting apparatus and methods |
US5680479A (en) * | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
JP3253356B2 (ja) | 1992-07-06 | 2002-02-04 | 株式会社リコー | 文書画像の領域識別方法 |
US5444797A (en) | 1993-04-19 | 1995-08-22 | Xerox Corporation | Method and apparatus for automatic character script determination |
DE69519323T2 (de) * | 1994-04-15 | 2001-04-12 | Canon Kk | System zur Seitensegmentierung und Zeichenerkennung |
US5995659A (en) * | 1997-09-09 | 1999-11-30 | Siemens Corporate Research, Inc. | Method of searching and extracting text information from drawings |
JPH11203305A (ja) | 1998-01-12 | 1999-07-30 | Ricoh Co Ltd | 文書画像処理方法および記録媒体 |
JP3940491B2 (ja) | 1998-02-27 | 2007-07-04 | 株式会社東芝 | 文書処理装置および文書処理方法 |
JP3850995B2 (ja) | 1998-08-18 | 2006-11-29 | 株式会社リコー | 文書画像処理方法および文書画像処理方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体 |
JP2000113103A (ja) | 1998-09-30 | 2000-04-21 | Ricoh Co Ltd | 文書画像の方向判定方法、装置および記録媒体 |
JP4159720B2 (ja) | 2000-03-15 | 2008-10-01 | 株式会社リコー | 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体 |
JP2002236921A (ja) | 2001-02-07 | 2002-08-23 | Ricoh Co Ltd | 文書画像認識方法、文書画像認識装置及び記録媒体 |
US6943378B2 (en) | 2003-08-14 | 2005-09-13 | Agilent Technologies, Inc. | Opto-coupler |
-
2005
- 2005-03-08 JP JP2005064513A patent/JP2006253842A/ja active Pending
-
2006
- 2006-02-28 US US11/362,755 patent/US7676089B2/en not_active Expired - Fee Related
- 2006-03-01 EP EP06251116A patent/EP1701292A3/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010224612A (ja) * | 2009-03-19 | 2010-10-07 | Fuji Xerox Co Ltd | 画像処理装置、画像読取装置、画像形成装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP1701292A2 (en) | 2006-09-13 |
US20060204095A1 (en) | 2006-09-14 |
US7676089B2 (en) | 2010-03-09 |
EP1701292A3 (en) | 2009-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4856925B2 (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
US8645819B2 (en) | Detection and extraction of elements constituting images in unstructured document files | |
JP5659563B2 (ja) | 識別方法、識別装置およびコンピュータプログラム | |
JP4405831B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
JP4768451B2 (ja) | 画像処理装置、画像形成装置、プログラムおよび画像処理方法 | |
US7876471B2 (en) | Image processing apparatus, control method and program thereof which searches for corresponding original electronic data based on a paper document | |
US20060008113A1 (en) | Image processing system and image processing method | |
JP2004265384A (ja) | 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体 | |
JP4502385B2 (ja) | 画像処理装置およびその制御方法 | |
JP2006243942A (ja) | 画像処理装置およびその方法 | |
US10423851B2 (en) | Method, apparatus, and computer-readable medium for processing an image with horizontal and vertical text | |
JP2006085665A (ja) | 画像処理装置、画像処理プログラム、記憶媒体、画像処理方法および画像形成装置 | |
JP2006253842A (ja) | 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法 | |
JP4232679B2 (ja) | 画像形成装置およびプログラム | |
JP2006221569A (ja) | 文書処理システム、文書処理方法、プログラムおよび記憶媒体 | |
JP3837193B2 (ja) | 文字行抽出方法および装置 | |
JP2006023944A (ja) | 画像処理システム及び画像処理方法 | |
JP4275973B2 (ja) | 加筆画像抽出装置、プログラム、記憶媒体及び加筆画像抽出方法 | |
JP2008282149A (ja) | 画像処理装置、画像処理方法、画像処理プログラム | |
JP2023013501A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP4281236B2 (ja) | 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体 | |
JP2005157928A (ja) | スタンプ処理装置、電子承認システム、プログラム、及び記録媒体 | |
JP2004080341A (ja) | 画像処理装置、画像処理方法、プログラム、及び記録媒体 | |
JP2006072839A (ja) | 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体 | |
JP3187895B2 (ja) | 文字領域抽出方法 |