JP3285686B2 - 領域分割方法 - Google Patents

領域分割方法

Info

Publication number
JP3285686B2
JP3285686B2 JP33125293A JP33125293A JP3285686B2 JP 3285686 B2 JP3285686 B2 JP 3285686B2 JP 33125293 A JP33125293 A JP 33125293A JP 33125293 A JP33125293 A JP 33125293A JP 3285686 B2 JP3285686 B2 JP 3285686B2
Authority
JP
Japan
Prior art keywords
character
rectangle
rectangles
line
lines
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP33125293A
Other languages
English (en)
Other versions
JPH0773271A (ja
Inventor
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP33125293A priority Critical patent/JP3285686B2/ja
Publication of JPH0773271A publication Critical patent/JPH0773271A/ja
Application granted granted Critical
Publication of JP3285686B2 publication Critical patent/JP3285686B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書等の画像データよ
り文字領域や図表領域等の属性の異なる情報領域を分割
する領域分割技術に関する。
【0002】
【従来の技術】文字領域や図表領域等が混在した文書等
の文字認識をする場合、あるいは、そのような文書等の
画像を光ディスク等の記憶メディア上にファイリングし
たりファクシミリで送信したりする場合等に、属性の異
なる情報領域を分割し、各領域毎に最適な処理方法に切
り替える必要がある。
【0003】このような情報領域分割に関しては、周辺
分布を用いて文字領域とその他領域に切り分ける方法
(特開昭62−71379号)や、周辺分布を利用して
黒画素群の外接矩形を抽出し、その矩形の統合によって
文字領域を構成して他の領域と分割する方法(特開平3
−126181号)が知られている。
【0004】しかし、前者の方法は、画像のスキューへ
の対応が難しく、スキュー補正処理が必要となる。さら
に、文字領域において矩形の重なりがある場合や、囲み
記事の領域が含まれるような構造の複雑な文書への対応
が困難であるという問題がある。後者の方法は、対象と
する文書毎に、矩形を統合するためのパラメータを設定
・調整しなければならないという問題がある。さらに、
外接矩形の抽出に周辺分布を用いるので、スキューの程
度によっては前者と同様にスキユー補正処理が必要とな
る。
【0005】なお、本出願人による平成4年第2673
13号特許願に添付の明細書及び図面に、文字領域の抽
出に矩形統合を利用する改良された領域分割方法が開示
されている。この方法によれば、スキュー補正を不要に
でき、また、構造が複雑な文書や種々の文字サイズの文
書に対応することができる。しかし、文字矩形の行方向
への統合パラメータ(矩形間距離の閾値)の設定が不適
当であると、統合すべきでない隣合った領域が統合され
てしまったり、ある行方向の文字列から構成される本文
領域と、それに近接した異方向の文字列(本文に対する
タイトル等)が誤って統合される危険があった。
【0006】
【発明が解決しようとする課題】よって本発明の目的
は、領域分割に関する上述の如き問題点あるいは課題を
改善し、構造の複雑な文書類や文字サイズが様々な文書
類に対する領域分割の精度及び安定性の向上を図ること
にある。
【0007】
【課題を解決するための手段】本発明によれば、文書等
の画像を所定倍率で圧縮した画像より黒画素連結成分に
外接した矩形を抽出し、抽出した矩形を文字の矩形とそ
れ以外の矩形に分類し、文字の矩形を行方向へ統合する
領域分割方法の改良方法が提供される。
【0008】すなわち、請求項1記載の発明にあって
は、文字の矩形の高さと幅の比をとることにより画像の
圧縮による文字間の融合度合を推定し、この融合度合に
応じて、文字の矩形の該行方向への統合のための矩形間
距離の閾値を設定する。
【0009】請求項2記載の発明にあっては、文字の矩
形の高さと幅の比をとることにより画像の圧縮による文
字間の融合度合を推定し、文字の矩形の該行方向への統
合のための矩形間距離の閾値の設定方法として、該融合
度合により設定する方法、または、該行方向に近接した
文字の矩形間の距離の分布により設定する方法を、該融
合度合の大小に応じて選択する。
【0010】請求項3記載の発明にあっては、文字の矩
形の該行方向への統合処理中に、注目した文字の矩形が
句読点またはそれに類する特定の記号の矩形である否か
の判定をし、句読点またはそれに類する特定の記号であ
ると判定したときに、当該注目した矩形と次の文字の矩
形との統合に関する矩形間距離の閾値を、句読点または
それに類する特定記号以外の文字の矩形の統合の場合よ
り増大させる。
【0011】また、請求項4記載の発明にあっては、文
字の矩形の該行方向への統合処理中に、統合しようとす
る二つの矩形の一方の矩形と他方の矩形がそれぞれ異方
向の行の文字の矩形であるか否かの判定をして、異方向
の行の文字の矩形であると判定したときには当該二つの
矩形の統合を禁止する。
【0012】さらに、請求項5記載の発明にあっては、
請求項4記載の方法において、文字の矩形の該行方向へ
の統合によって得られた行の中に、該行方向の長さが短
い行が存在する場合に、該短い行より該行方向に対し垂
直な方向へ短い行を探索し統合する処理を行なう。
【0013】請求項6記載の発明は、文書等の画像を所
定倍率で圧縮した画像より黒画素連結成分に外接した矩
形を抽出し、抽出した矩形を文字の矩形とそれ以外の矩
形に分類し、文字の矩形を本文文字行方向へ統合し、こ
の矩形の統合によって得られた行を統合して文字部領域
を切り出すが、文字の矩形の本文文字行方向への統合に
よって得られた行を本文文字行と本文文字行以外の行と
に分類し、本文文字行以外の行に本文文字行とは別の固
有の属性を持たせることにより、行の文字部領域への統
合の際に本文行以外の行と本文文字行との統合を避け
る。また、矩形の分類によって文字、罫線以外の矩形に
分類された矩形の内部または周辺に存在する本文文字行
以外の行の中で、その周辺に本文文字行方向に対して垂
直の方向に統合可能な行がみつかるものと、見つからな
いものとに分類し、それぞれに固有の属性を持たせる。
【0014】請求項7記載の発明は、請求項6記載の発
明の方法において、本文文字行以外の行について、同じ
属性を持つ行同士を統合することを特徴とするものであ
る。
【0015】また、請求項8記載の発明は、請求項7記
載の発明の方法において、矩形の分類によって文字、罫
線以外の矩形に分類された矩形を、図の矩形と写真の矩
形とに細分類し、写真の矩形の内部にある本文文字行以
外の行を消去し、または写真の属性を持たせることを特
徴とするものである。
【0016】
【作用】文書等の文字間隔が広いか狭いかによって、文
書等の画像の圧縮画像上の文字間の融合度合に違いが生
じる。請求項1または2記載の発明は、この文字間の融
合度合を、文字矩形の縦横比より推定することによっ
て、処理対象文書等の文字間隔に適応させて、文字矩形
の行方向への統合のための矩形間距離の閾値を最適化す
ることができる。また、請求項2記載の発明は、文字間
の融合度合によっては閾値の精度が悪化しやすい文字間
隔が広い文書等でも、文字矩形間の距離の分布に基づい
て閾値を高精度に最適化することができる。したがっ
て、請求項1または2記載の発明によれば、文字間隔の
異なる多様な文書等に対応可能である。
【0017】また、請求項1記載の発明によれば閾値の
決定処理の高速化を期待できることがあり、他方、行方
向に近接した矩形間の距離の分布を測定し、該分布に基
づいて、文字の矩形の該行方向への統合のための矩形間
距離の閾値を設定するようにすれば、より高精度の閾値
の最適化を期待できる。請求項2記載の発明によれば、
そのような二つの閾値決定方法を、処理文書の文字間隔
の広狭に応じて使い分けることができる。
【0018】ワープロ文書等では、句読点や特定の記号
と、後続文字との間隔が、通常の文字の間隔より相当に
広いことがあるため、例えば請求項1または2記載の発
明の方法によって適応的に決定した、あるいは手動で設
定した文字矩形統合のための閾値が多少ずれている場合
に、通常の文字と同一行に統合されるべき句読点や特定
記号が統合されずに分離してしまう虞がある。請求項3
記載の発明によれば、句読点等と次の文字との統合のた
めの閾値を増大させることによって、句読点等の分離を
防止することができる。
【0019】縦書き文書では、本文の文字行の端に、横
書きのヘッダやフッタの文字列が接近している場合があ
る。請求項4記載の発明によれば、このようなヘッダや
フッタの文字と本文行の文字との誤統合を防止すること
ができる。また、請求項5記載の発明によれば、ヘッダ
やフッタの文字列を本文文字領域とは別の文字領域
(行)として統合することができる。
【0020】さて、写真等のハーフトーン原稿や細かな
線図形で構成される一塊の図等を矩形分類で完全に文字
以外として分類できるほど、矩形分類処理の精度が高く
ない場合が多い。というのも、文字サイズ程度の大きさ
の矩形の中には、文字認識をしないと、文字であるかそ
うでないか分からないものが多く含まれているからであ
る。矩形分類で失敗する割合が多いと、ノイズやハーフ
トーン等で不要な小領域が文字領域として発生する。し
かし、文字認識の結果に基づいて矩形を厳密に分類する
のは、処理速度の点で得策でない。
【0021】請求項6乃至8記載の発明は、矩形の大き
さからは文字の矩形か図その他の矩形か判別し難い場合
にも、周囲にある領域の情報から判断を行なうことがで
きることに着目し、文字矩形の統合された行について分
類を行なうことにより、本文文字領域に他の領域が統合
されることを防止し、またハーフトーンの写真領域等で
不要な小領域の発生を防止する。
【0022】ここで、請求項6の発明では、文字矩形を
行に統合した後で、行を本文文字行とそれ以外の行とに
分類する。また、文字、罫線以外の矩形との位置関係に
着目して、本文文字行以外の行をさらに分類する。この
ような分類は、行の大きさや、次の行との行間距離、他
の文字矩形との距離等の情報から判定するので、その処
理自体は高速に行なうことが可能であるとともに、矩形
単独では判定が難しい文字矩形を判別できる割合が増
し、また行方向の異なる文字矩形も判別できる割合が高
くなるため、より的確な本文文字領域の抽出が可能にな
る。そして、請求項7の発明によれば、本文文字行以外
の行に分類された行を、同じ属性のもの毎に統合しまた
は消去するので、余分な小領域の発生を防止できる。さ
らに、請求項8の発明によれば、写真領域の内部に文字
列があっても、その文字列によって写真領域がばらばら
にならない。
【0023】
【実施例】図1に本発明を実施したシステム例の概略構
成を示す。図1において、スキャナ1によって読み取ら
れた文書画像のデータは、画像入力部2によって画像メ
モリ3に格納される。画像メモリ3内の文書画像データ
は、領域識別部6の画像圧縮部7に読み出され、ここで
所定の圧縮率のOR圧縮を施されてから画像メモリ3に
戻される。画像メモリ3内の文書画像データは、画像表
示部4によってディスプレー5に表示させることができ
る。なお、画像入力部7より文書画像データを画像圧縮
部7へ直接入力し、ここで圧縮した画像データを画像メ
モリ3に格納することも可能である。
【0024】領域識別部6は、前記の画像圧縮部7と、
外接矩形検出部8、矩形分類部9、文字領域統合部10
からなる。
【0025】外接矩形検出部8は、画像メモリ3内の圧
縮された文書画像データより、黒画素の繋りを調べて黒
画素連結成分に外接する矩形を抽出する部分である。こ
こで抽出された矩形には、文字(1文字または2文字以
上の文字列)の矩形のほかに罫線、ノイズ、表、グラ
フ、図その他、様々な属性の矩形が含まれる。矩形分類
部9は、このような様々な矩形を、矩形の形状情報及び
内部データから分類する部分である。この矩形分類の処
理方法は様々なものが考えられるが、その一例について
後に詳述する。
【0026】文字領域統合部10は、矩形分類部9で文
字矩形に分類された矩形に対して統合処理を施して文字
領域に統合するもので、これが本発明の要旨に直接関係
する部分である。
【0027】本実施例においては、領域識別部6による
領域識別の結果は、文字認識部11による文字認識処理
に利用される。つまり、領域識別部6は光学的文字認識
の前処理部として利用される。しかし、これは一例に過
ぎない。
【0028】図2に文字領域統合部10の内部構成の一
例を示す。図2において、パラメータ設定部10Aは文
字矩形間統合のための閾値となるパラメータを設定する
部分であり、その処理内容については後に図3乃至図5
を参照して説明する。文字間統合部10Bは、文字矩形
を行方向に統合する処理を行なう部分であり、その処理
内容については後に図6乃至図8を参照して説明する。
領域統合部10Cは、文字間統合部10Bの処理によっ
て統合された行を、行と垂直な方向へ統合する部分であ
り、その処理内容については図9に関連し後述する。
【0029】 パラメータ設定部10Aのパラメータ設定処理の例1 一般的な文書は行方向に文字が詰まっているので、OR
圧縮後の文書画像上では隣合った文字が融合されて行方
向に長い矩形となる。これに対して、ワープロ文書では
文字間が離れていることが多く、OR圧縮後においても
文字間の融合は起きにくい。
【0030】このように文字間の融合度合は、原文書画
像上の文字間距離に依存する関係がある、つまり、OR
圧縮による文字の行方向の融合度合から文字間距離を推
定可能である。したがって、予め実験によって、文字間
融合度合に対応した最適な文字間統合パラメータ(閾
値)を求めておき、これをテーブル形式あるいは一般式
として設定しておくことにより、測定した文字間融合度
合に基づき最適なパラメータを自動的に設定することが
できる。これが本例における処理原理である。
【0031】図3に示した概略フローチャートに沿っ
て、本例での処理内容を具体的に説明する。ステップ3
0Aでは、横書き文書の場合として、圧縮画像より抽出
された矩形中の文字矩形に分類された矩形に関して、矩
形高さ(行方向に対して垂直な方向の矩形サイズ)のヒ
ストグラムをとり、最も頻度が大きい矩形高さを標準文
字サイズとする。次に、矩形高さが標準文字サイズ以下
の文字矩形について矩形幅(行方向の矩形サイズ)を調
べる。そして、標準文字サイズ以下の矩形高さを持つ文
字矩形の総数と、矩形幅が標準文字サイズ以下の矩形
(矩形高さは標準文字サイズ以下)の総数との比(文字
矩形の縦横比)を求める。
【0032】この比率は、おおよその文字間融合度合を
示している。前述のように新聞等の文字間が詰まった文
書の場合には、この比率はかなり小さな値となるが、ワ
ープロ文書のように文字間が空いている文書では、この
比率は1に近い値となる。
【0033】次のステップ30Bにおいて、前ステップ
で求められた比率を、前述の最適パラメータ(文字間統
合閾値)のテーブルまたは一般式に当てはめることによ
り、最適パラメータを決定する。
【0034】文字間統合パラメータとして固定値を用い
る方法でも、処理対象文書を特化する場合には不都合は
ない。しかし、様々な文書を処理しようとする場合に
は、文書にあわせて最適パラメータを手動で設定し直す
必要があった。本例及び後記各例によれば、そのような
煩わしい手動設定を排除し、様々な文書に対して最適な
パラメータを設定し、適切な文字間統合を行なうことが
可能になる。
【0035】 パラメータ設定部10Aのパラメータ設定処理の例2 図4に示した概略フローチャートに沿って、本例での処
理内容を説明する。ここでは、これまでの説明と同様
に、文書画像上の行方向が水平であるとする。
【0036】ステップ40Aにおいて、圧縮画像より抽
出された矩形中で文字に分類された矩形に関し、行方向
(水平方向)に隣合った二つの文字矩形について、水平
距離(文字間隔)条件以外に統合するに不都合がないか
調べる。例えば、一方の文字矩形と他方の文字矩形の矩
形高さの差が所定の限度を越えている場合(例えば、縦
書き文書において、一方の文字矩形がある本文行上の文
字で、他方が本文に対するタイトル文字であるような場
合)は、両文字矩形を統合すべきでないと判断し、その
限度を越えない場合には、統合し得ると判断する。これ
を全ての隣合う文字矩形について行なう。
【0037】ステップ40Bにおいて、前ステップ40
Aで統合し得ると判断された隣合う文字矩形間の水平距
離を測定し、その水平距離のヒストグラムを求める。
【0038】ステップ40Cにおいて、予め実験的に用
意された文字間隔(水平距離)と最適な文字間統合パラ
メータとの関係を表わすテーブルまたは一般式に、前ス
テップ40Bで得られた水平距離ヒストグラムで頻度が
最高の水平距離値をあてはめることによって、最適な文
字間統合パラメータを決定する。
【0039】本例の方法は、前記パラメータ設定処理例
1では最適化が難しい、文字間隔が広いような特殊な場
合に対するパラメータ最適化能力に優れている。
【0040】 パラメータ設定部10Aのパラメータ設定処理の例3 図5に示した概略フローチャートに沿って、本例での処
理内容を説明する。なお、ここでは横書き文書を想定す
る。
【0041】ステップ50Aは、図3のステップ30A
と同じ内容の処理を行なうステップである。ステップ5
0Bは、前ステップ50Aで求められた比率(文字間融
合度合)によって次の処理方法を選択する。例えば、比
率が1に近い場合(文字間隔が広く、図3に示した処理
方法よりも図4に示した処理方法が適する場合)に、次
の処理としてステップ50Dを選び、そうでない場合に
ステップ50Cを選択する。ステップ50Cは図3のス
テップ30Bと同内容の処理ステップであり、ステップ
50D〜50Fは図4のステップ40A〜40Cと同内
容の処理ステップである。
【0042】文字領域統合または領域種類判別のための
処理に標準文字サイズを利用する場合(例えば前記特願
平4−267313号特許出願に係る装置の場合)に
は、図3に関連して説明した処理方法のほうが処理時間
を短縮できることがある。すなわち、本例は、図3の処
理方法で精度面に問題がない場合にはステップ50Cの
処理を選択して処理時間短縮の利益を期待できるように
し、文字間隔が広く精度の面で図4の処理方法が好まし
い場合にはステップ50D以下の処理に切り替えてい
る。
【0043】 文字間統合部10Bによる文字間統合処理の例1 ある文字矩形と他の文字矩形とを同じ行として統合する
か否かの判定には、行方向の文字矩形間距離、及び、行
(仮想行)に対し垂直方向の文字矩形位置を考慮するの
が一般的である。ここで、行方向の文字矩形間距離に関
する閾値(統合パラメータ)が固定値で最適化されてい
ない場合は勿論のこと、それが前述のように自動的に最
適化される場合でも多少のくるいがあったときに、ワー
プロ文書等では、本来一行に統合されるべき句読点や、
それに類する特定の記号の統合を失敗する虞がある。こ
れは、ワープロ文書等では、句読点あるいは、それに類
する特定の記号(句読点等と総称する)と、その次の文
字との間隔が、普通の文字の間隔に比べ広過ぎることが
あるからである。
【0044】本例によれば、かかる句読点等の統合の失
敗を回避することができる。以下、図6のフローチャー
トに沿って、本例の処理内容について説明する。
【0045】ステップ60Aにおいて、統合すべきか注
目している文字矩形が句読点等であるか判定する。この
判定には、注目した文字矩形の形状、大きさ、仮想行上
の位置関係等の情報を用いることができる。例えば、注
目した文字矩形が、他の文字矩形に比べ極端に小さい、
あるいは細長いときに、句読点等と判定する。
【0046】ステップ60Aで、注目した文字矩形が句
読点等でないと判定した場合には、パラメータ設定部1
0Aで設定されたパラメータをそのままステップ60D
において行方向の文字矩形間距離の閾値として用いる。
しかし、句読点等であると判定した場合には、ステップ
60Cにおいて、パラメータ設定部10Aで設定された
パラメータを、例えば文字サイズ程度だけ増加させ、こ
れをステップ60Dで当該注目矩形に関する行方向の文
字矩形間距離の閾値として用いる。
【0047】ステップ60Dにおいては、注目している
文字矩形と、その右隣の(行の左端から右端へ向かって
処理するとして)文字矩形との統合条件を調べる。統合
条件が成立しない場合には、注目した文字矩形と、隣接
の文字矩形との統合をしない(ステップ60F)。統合
条件が成立する場合には、注目した文字矩形と、隣接の
次文字矩形とを統合する(ステップ60E)。
【0048】このように、注目した文字矩形が句読点等
である場合には、行方向の文字矩形間距離の閾値を増加
させるので、ワープロ文書等で句読点等と次文字との距
離が通常の文字の間隔より広過ぎる場合にも、同一行と
して統合することができる。また、パラメータ設定部1
0Aにより設定されるパラメータの多少のくるいを許容
できるという利益も期待できる。
【0049】 文字間統合部10Bによる文字間統合処理の例2 例えば縦書き文書の場合に、本文の行(本文行)の端
と、横書きのフッタ(ページ数等)やヘッダ(タイトル
等)とが接近していることが少なくない。本例によれ
ば、このような接近した本文行文字とフッタやヘッダの
文字との誤統合を防止できる。以下、図7に示すフロー
チャートに沿って処理内容を説明する。
【0050】ステップ70Aにおいて、注目した二つの
文字矩形の行方向(本文行方向)の距離に関する統合条
件を満たすか(距離がパラメータ設定部10Aにより設
定された閾値以下であるか)調べる。文字間距離の統合
条件を満たさない場合にはステップ70Fに分岐し、当
該文字矩形を統合せず次の文字矩形の処理に進むことに
なる。
【0051】統合条件が成立した場合には、ステップ7
0Bにおいて当該文字矩形のサイズ(例えば矩形高さ)
の差が所定値より小さいか調べる。サイズ差が大きい場
合にはステップ70Fに分岐し統合せずに次の文字矩形
の処理に進む。したがって、例えば図8(a)に示すよ
うに、縦書き文書上の本文行の文字矩形Bに接近して横
書きのページ数の文字列の統合された高さの大きな文字
矩形aが存在した場合に、その誤統合を防止できる。
【0052】ステップ70Bで矩形サイズ差が小さいと
判定された場合は、ステップ70Cにおいて、注目して
いる二つの文字矩形中の一方に、行(本文行)と垂直な
方向に近接した文字矩形が存在するか調べる。存在する
場合にはステップ70Fに分岐する。このようなチェッ
クによって、例えば図8(b)に示すように、本文行文
字矩形Bに接近して、フッタ(ページ数等)の文字矩形
bがあり、この文字矩形bの上下にフッタの文字矩形
a,cが存在するような場合に、文字矩形Bと文字矩形
bとの誤統合を防止できる。
【0053】ステップ70Cで垂直方向に近接した文字
矩形がないと判定した場合には、ステップ70Dにおい
て、一方の文字矩形の縦横比と通常の文字矩形の縦横比
との差が小さいか調べる。縦横比が普通であると判定さ
れた場合には、ステップ70Eにおいて当該文字矩形の
統合が行なわれ、次の文字矩形の処理に進むことにな
る。
【0054】しかし、縦横比の差が大きい場合には、ス
テップ70Fに分岐する。したがって、例えば図8
(c)に示すように、フッタの小さな文字列が統合され
た細長い文字矩形aが本文行文字矩形Bに接近して存在
する場合、文字矩形aと本文行文字矩形Bとの誤統合を
防止できる。
【0055】 領域統合部10Cの処理 大部分の文書では、本文行と行方向の異なるフッタやヘ
ッダの文字列は、本文行の文字との距離が大きいため
に、本文行に統合されることはない。また、本文行の文
字とフッタ等の文字との距離が小さい場合にも、図7に
示した文字間統合処理方法によれば、その統合が防止さ
れる。したがって、本文行と行方向の異なるフッタやヘ
ッダ等の文字列は、本文行に統合されずに、短い行とし
て残ることなる。
【0056】例えば図9において、a〜kは文字間統合
によって得られた行であり、その中でa〜iは本文行、
jとkはフッタ等の短い行である。
【0057】領域統合部10は、従来と同様の方法によ
って、図9のa〜iのような本文行を文字領域(図9の
破線枠90)に統合するが、この際に行の形状を調べ、
短い行が発生している場合には、その行より本文行と垂
直の方向に短い行を探索することによって、図9のj,
kのような短い行を本文領域とは行方向の異なる別の文
字領域(図9の破線枠91)に統合する。
【0058】 矩形分類部9の処理 矩形分類の一例を説明する。まず、矩形の大きさ及び形
状によって、矩形の種類を大雑把に分類する。例えば図
10の(a)に示すように、矩形の高さ(heigh
t)を、標準文字サイズ(size)との大小関係によ
ってクラス1からクラス3に分ける。また、矩形の幅
(width)を、標準文字サイズとの大小関係によっ
てクラス1からクラス3に分ける。標準文字サイズは、
予め分かっている場合には、その値を用いればよいし、
予め分かっていない場合には文書画像より抽出された矩
形の高さの分布から適応的に決定するような方法を採用
すればよい。
【0059】このようにして得られた矩形高さクラス及
び矩形幅クラスを、例えば図10の(b)に示す分類テ
ーブルにあてはめて、矩形分類を決定する。矩形幅がク
ラス1またはクラス2で、矩形高さがクラス1またはク
ラス2ならば、その矩形は文字候補または大文字候補に
分類される。矩形幅がクラス1で、矩形高さがクラス3
ならば垂直罫線候補に分類される。
【0060】表領域候補に分類された矩形については、
矩形領域内をスキャンして水平方向の所定値より長い黒
ランだけを抽出し、その接続したものを囲む外接矩形を
水平方向の架空罫線として抽出し、同様に垂直方向に長
い黒ランだけを抽出し、その接続したものを囲む外接矩
形を垂直方向の架空罫線として抽出する。そして、架空
罫線の数、位置、長さに着目し、当該矩形を<表>、<
囲み枠>または<図、グラフその他>に分類する。
【0061】また、水平罫線候補とされた矩形について
は、当該矩形領域をスキャンして水平方向に長い黒ラン
だけを抽出し、抽出した長い黒ランの接続したものを囲
む外接矩形を水平方向の架空罫線として抽出し、架空罫
線の数、位置、長さに着目して、当該矩形を<文字矩形
>または文字領域を上下に区切る<水平セパレータ>に
分類する。
【0062】垂直罫線候補に分類された矩形について
は、当該矩形領域をスキャンして垂直方向に長い黒ラン
だけを抽出し、抽出した長い黒ランの接続したものを囲
む外接矩形を垂直方向の架空罫線として抽出し、架空罫
線の数、位置、長さに着目し、当該矩形を<文字矩形
>、文字領域を左右に区切る<垂直セパレータ>、また
は<図、グラフその他>に分類する。
【0063】次に、本発明の他の実施例について説明す
る。本実施例のためのシステム構成は図1に示した前記
実施例のシステム構成と同様でよい。処理内容に関して
も、文字領域統合部10の処理以外は前記実施例と同様
でよい。以下、本実施例における文字領域統合部10の
処理内容について説明する。その処理の概略フローを図
11に示す。
【0064】矩形分類部9によって文字に分類された矩
形について、本文行の方向へ距離の小さいものを統合し
て行を抽出する(ステップ101)。統合する行の方向
は予め指定してもよいし、自動的に判別させてもよい。
また、この統合の際の矩形間距離の閾値は、予め指定し
てもよいし、前記実施例に述べた方法によって適応的に
設定してもよい。ここで行として抽出される矩形は、矩
形間距離が小さいものだけであって、特殊な処理を施す
必要はない。むしろ、距離が大きな矩形まで行に統合さ
れると悪影響が生じる心配がある。
【0065】この文字矩形統合により抽出された行の中
に、幅の小さいものが生じることがある。このような行
は、単独の文字であったり、行方向の異なる文字(例え
ば注目している行方向と垂直方向に近接している文字矩
形)であったり、あるいは文字以外の図、写真の一部
(例えば、キャプション、グラフの座標値等の文字等)
である可能性が高い。
【0066】そこで、本実施例においては、文字矩形の
統合により得られた行の中で幅の小さい行を、”本文文
字行以外の行”に分類し、他の幅の大きな行つまり”本
文文字行”とは別の属性を持たせる(ステップ10
2)。この分類をより一般的に述べるならば、文字矩形
の本文行方向への統合により得られた行を、その大き
さ、次の行との行間距離、文字以外に分類された矩形と
の距離等の情報から、”本文文字行”と、”本文文字行
以外の行”とに分類するということである。
【0067】矩形分類部9により文字でも罫線でもない
矩形に分類された矩形(”図その他矩形”と呼ぶ)の周
辺または内部に(つまり重なって)、前ステップで分類
された”本文文字行以外の行”が存在するか調べる(ス
テップ103)。
【0068】”図その他矩形”の周辺または内部に存在
する”本文文字行以外の行”について、その周辺に、本
文文字行方向に対し垂直の方向に統合し得る行を探索
し、そのような統合できる行が見つかれば、当該”本文
文字行以外の行”を”垂直行”に最終分類し(ステップ
104)、探索した行と統合し、さらに距離の近い”垂
直行”同士を統合する(ステップ105)。
【0069】”図その他矩形”の周辺または内部にあ
る”本文文字行以外の行”であっても、垂直方向に統合
できる行がみつからないものは、”図の行”に最終分類
し(ステップ104)、距離の近い”図の行”と統合す
るか、あるいは消去する(ステップ105)。
【0070】ステップ102で”本文文字行以外の行”
に分類された行の中で、”図その他矩形”の周辺または
内部に存在しないものは、”本文文字行以外の行”に最
終分類され(ステップ104)、接近した同じ属性の行
同士で統合する(ステップ105)。
【0071】次に、”本文文字行”について、接近した
もの同士を統合して、本文領域を生成する(ステップ1
06)。
【0072】なお、本実施例の一変形例によれば、矩形
分類部9において”図その他矩形”をさらに”図の矩
形”と”写真の矩形”とに細分類する。そして、ステッ
プ105において、”写真の矩形”の内部にある”本文
文字行以外の行”を消去し、あるいは写真の属性に変更
する。ハーフトーンの写真の領域は、線図形に比べて小
矩形の塊に分類されることが多いので、この変形例のよ
うにすれば、ハーフトーンの写真領域がばらばらになる
ことを防ぐうえで有効である。また、線図形領域内の文
字列を消去せず、文字列として抽出できる。
【0073】
【発明の効果】以上の説明から明らかなように、請求項
1乃至の発明によれば、人手を煩わすことなく、文字
間隔の異なる様々な文書等の領域分割を行なうことがで
き、また、ワープロ文書等の句読点やそれに類する特定
記号の行統合の失敗や、縦書き文書のヘッダやフッタの
ような文字列と本文行の文字列との誤統合を防止でき、
さらに、ヘッダやフッタのような文字列を本文領域と別
の文字領域として統合することができる等、多様な文書
等に対する高精度の領域分割が可能になる。また、請求
項6乃至8の発明によれば、本文文字行方向へ文字矩形
を統合した行について分類を行ない、本文文字行とそれ
以外の行に分類し、本文文字行以外の行をさらに分類す
ることによって、より正確な本文文字領域の抽出が可能
になり、また、矩形単位の矩形分類の失敗の割合が多い
場合にも、文字認識の結果に基づいて矩形を厳密に分類
し直すような非効率的な処理を行なわずに実質的に矩形
の分類精度を向上させ、不要な文字領域の発生を防止
し、さらに写真領域の無用な分割を防止できる。
【図面の簡単な説明】
【図1】本発明の一実施例に係るシステムの概略構成を
示す。
【図2】文字領域統合部の構成例を示す。
【図3】パラメータ設定処理の例1のフローを示す。
【図4】パラメータ設定処理の例2のフローを示す。
【図5】パラメータ設定処理の例3のフローを示す。
【図6】文字間統合処理の例1のフローを示す。
【図7】文字間統合処理の例2のフローを示す。
【図8】本文行の文字矩形との統合対象から排除される
文字矩形の例を示す。
【図9】領域統合処理の説明図である。
【図10】(a)矩形の高さ及び幅のクラス分けの説明
図である。(b)矩形の高さ及び幅による属性分類のテ
ーブルの説明図である。
【図11】本発明の他の実施例における文字領域統合部
の処理のフローを示す。
【符号の説明】
1 スキャナ 2 画像入力部 3 画像メモリ 4 画像表示部 5 ディスプレー 6 領域識別部 7 画像圧縮部 8 外接矩形検出部 9 矩形分類部 10 文字領域統合部 10A パラメータ設定部 10B 文字間統合部 10C 領域統合部 11 文字認識部

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書等の画像を所定倍率で圧縮した画像
    より黒画素連結成分に外接した矩形を抽出し、抽出した
    矩形を文字の矩形とそれ以外の矩形に分類し、文字の矩
    形を行方向へ統合する領域分割方法において、 文字の矩形の高さと幅の比をとることにより画像の圧縮
    による文字間の融合度合を推定し、この融合度合に応じ
    て、文字の矩形の該行方向への統合のための矩形間距離
    の閾値を設定することを特徴とする領域分割方法。
  2. 【請求項2】 文書等の画像を所定倍率で圧縮した画像
    より黒画素連結成分に外接した矩形を抽出し、抽出した
    矩形を文字の矩形とそれ以外の矩形に分類し、文字の矩
    形を行方向へ統合する領域分割方法において、 文字の矩形の高さと幅の比をとることにより画像の圧縮
    による文字間の融合度合を推定し、文字の矩形の該行方
    向への統合のための矩形間距離の閾値の設定方法とし
    て、該融合度合により設定する方法、または、該行方向
    に近接した文字の矩形間の距離の分布により設定する方
    法を、該融合度合の大小に応じて選択することを特徴と
    する領域分割方法。
  3. 【請求項3】 請求項1または2記載の領域分割方法に
    おいて、 文字の矩形の該行方向への統合処理中に、注目した文字
    の矩形が句読点またはそれに類する特定の記号の矩形で
    ある否かの判定をし、句読点またはそれに類する特定の
    記号であると判定したときには、当該注目した矩形と次
    の文字の矩形との統合に関する矩形間距離の閾値を、句
    読点またはそれに類する特定の記号以外の文字の矩形の
    統合の場合より増大させることを特徴とする領域分割方
    法。
  4. 【請求項4】 請求項1または2記載の領域分割方法に
    おいて、 文字の矩形の該行方向への統合処理中に、統合しようと
    する二つの矩形の一方の矩形と他方の矩形がそれぞれ異
    方向の行の文字の矩形であるか否かの判定をして、異方
    向の行の文字の矩形であると判定したときには当該二つ
    の矩形の統合を禁止することを特徴とする領域分割方
    法。
  5. 【請求項5】 請求項4記載の領域分割方法において、 文字の矩形の該行方向への統合によって得られた行の中
    に、該行方向の長さが短い行が存在する場合に、該短い
    行より該行方向に対し垂直な方向へ短い行を探索し統合
    する処理を行なうことを特徴とする領域分割方法。
  6. 【請求項6】 文書等の画像を所定倍率で圧縮した画像
    より黒画素連結成分に外接した矩形を抽出し、抽出した
    矩形を文字の矩形とそれ以外の矩形に分類し、文字の矩
    形を本文文字行方向へ統合し、この矩形の統合によって
    得られた行を統合して文字部領域を切り出す領域分割方
    法において、 文字の矩形の本文文字行方向への統合によって得られた
    行を本文文字行と本文文字行以外の行とに分類し、本文
    文字行以外の行に本文文字行とは別の固有の属性を持た
    せることにより、行の文字部領域への統合の際に本文行
    以外の行と本文文字行との統合を避けるとともに、 矩形の分類によって文字、罫線以外の矩形に分類された
    矩形の内部または周辺に存在する本文文字行以外の行の
    中で、その周辺に本文文字行方向に対して垂直の方向に
    統合可能な行がみつかるものと、見つからないものとに
    分類し、それぞれに固有の属性を持たせることを特徴と
    する領域分割方法。
  7. 【請求項7】 請求項6記載の領域分割方法において、 本文文字行以外の行について、同じ属性を持つ行同士を
    統合することを特徴とする領域分割方法。
  8. 【請求項8】 請求項6記載の領域分割方法において、
    矩形の分類によって文字、罫線以外の矩形に分類された
    矩形を、図の矩形と写真の矩形とに分類し、写真の矩形
    の内部にある本文文字行以外の行を消去し、または写真
    の属性を持たせることを特徴とする領域分割方法。
JP33125293A 1993-06-29 1993-12-27 領域分割方法 Expired - Lifetime JP3285686B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33125293A JP3285686B2 (ja) 1993-06-29 1993-12-27 領域分割方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP15919093 1993-06-29
JP5-159190 1993-06-29
JP33125293A JP3285686B2 (ja) 1993-06-29 1993-12-27 領域分割方法

Publications (2)

Publication Number Publication Date
JPH0773271A JPH0773271A (ja) 1995-03-17
JP3285686B2 true JP3285686B2 (ja) 2002-05-27

Family

ID=26486063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33125293A Expired - Lifetime JP3285686B2 (ja) 1993-06-29 1993-12-27 領域分割方法

Country Status (1)

Country Link
JP (1) JP3285686B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3653156B2 (ja) * 1997-01-29 2005-05-25 株式会社リコー 文書画像領域抽出方法
CN100382096C (zh) * 2003-08-20 2008-04-16 奥西-技术有限公司 文档扫描设备及方法
DE602004005216T2 (de) * 2003-08-20 2007-12-20 Oce-Technologies B.V. Dokumentenscanner
JP2006072839A (ja) * 2004-09-03 2006-03-16 Ricoh Co Ltd 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JP2006350867A (ja) 2005-06-17 2006-12-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体
JP2007166244A (ja) * 2005-12-14 2007-06-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体
JP2007299321A (ja) 2006-05-02 2007-11-15 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム、及び、情報記憶媒体
JP2011070529A (ja) * 2009-09-28 2011-04-07 Hitachi Solutions Ltd 文書処理装置

Also Published As

Publication number Publication date
JPH0773271A (ja) 1995-03-17

Similar Documents

Publication Publication Date Title
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
US6006240A (en) Cell identification in table analysis
US6909805B2 (en) Detecting and utilizing add-on information from a scanned document image
US5335290A (en) Segmentation of text, picture and lines of a document image
US5854854A (en) Skew detection and correction of a document image representation
EP0854434B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
EP0854433B1 (en) Caption and photo extraction from scanned document images
US5854853A (en) Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5774580A (en) Document image processing method and system having function of determining body text region reading order
CN111814722A (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
JP3278471B2 (ja) 領域分割方法
EP2545495B1 (en) Paragraph recognition in an optical character recognition (ocr) process
JPH0620092A (ja) 文書画像の領域識別方法
JPH0750483B2 (ja) 文書画像追加情報の蓄積方法
JP3411472B2 (ja) パターン抽出装置
JP3285686B2 (ja) 領域分割方法
JPH10214340A (ja) 矩形分類方法
JP3344774B2 (ja) 矩形分類方法
Winder et al. Extending page segmentation algorithms for mixed-layout document processing
JP3215163B2 (ja) 罫線識別方法及び領域識別方法
JP3607753B2 (ja) 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置
JP3787377B2 (ja) 文書方向判定方法及び装置及び文字認識方法及び装置
JP3187895B2 (ja) 文字領域抽出方法
JP3122476B2 (ja) 自動文書清書装置
EP0767941B1 (en) Automatic determination of landscape scan in binary images

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090308

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100308

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110308

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120308

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130308

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140308

Year of fee payment: 12

EXPY Cancellation because of completion of term