JP3737253B2 - 文書画像の領域抽出方法および記録媒体 - Google Patents
文書画像の領域抽出方法および記録媒体 Download PDFInfo
- Publication number
- JP3737253B2 JP3737253B2 JP27424397A JP27424397A JP3737253B2 JP 3737253 B2 JP3737253 B2 JP 3737253B2 JP 27424397 A JP27424397 A JP 27424397A JP 27424397 A JP27424397 A JP 27424397A JP 3737253 B2 JP3737253 B2 JP 3737253B2
- Authority
- JP
- Japan
- Prior art keywords
- region
- area
- value
- line
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
本発明は、複数の領域分割方法を用いることにより、文書画像を領域に分割する文書画像の領域抽出方法および記録媒体に関する。
【0002】
【従来の技術】
スキャナなどから入力した文書画像を領域に分割し、文字領域を自動的に抽出することは、文書認識の一連の処理の流れを自動化する場合に必要な処理である。このような文書画像の領域抽出方法として、従来から種々の方法が提案されているが、何れも一長一短があり、必ずしも最適な分離結果が得られるとは限らない。
【0003】
【発明が解決しようとする課題】
例えば、特開平6−301815号公報に記載された文字認識装置を挙げることができる。この装置では、読み順を含めて複数のレイアウト(領域分割結果)候補を提示し、この中から利用者に正しいレイアウト候補を選択させるものである。
【0004】
本発明の目的は、上記した領域分割結果の候補選択を自動的に行う文書画像の領域抽出方法および記録媒体を提供することにある。
【0005】
【課題を解決するための手段】
前記目的を達成するために、請求項1記載の発明では、複数の領域分割方法を用いて文書画像を領域に分割し、第一の領域分割方法によって得られた文書領域各々において、行頭の位置がしきい値以上異なる行の数Aを計測し、当該領域内における全行数中の該行数Aの比率がしきい値以上の場合に当該領域を不揃い領域と判定し、該不揃い領域の総数を第一評価値として算出し、第二の領域分割方法によって得られた文書領域各々において、行頭の位置がしきい値以上異なる行の数Bを計測し、当該領域内における全行数中の該行数Bの比率がしきい値以上の場合に当該領域を不揃い領域と判定し、該不揃い領域の総数を第二評価値として算出し、前記第一評価値と第二評価値を比較して小さい値をとる方の領域分割結果を採用することを特徴としている。
【0006】
請求項2記載の発明では、前記行頭の位置を比較する際に、しきい値以上行頭位置の差異がなく、行頭が左端にある行の先頭文字のサイズが行内全体の平均値に近い場合は箇条書き相当行と判断し、該箇条書き相当行の割合がしきい値以上の場合は当該領域を前記行数の計測に使用しないことを特徴としている。
【0007】
請求項3記載の発明では、複数の領域分割方法を用いて文書画像を領域に分割し、第一の領域分割方法によって得られた文書領域各々において、領域内の各行文字サイズの偏差値がしきい値以上の場合に当該領域内の行数もしくは行数の自乗値を当該領域の評価値として算出し、第一の領域分割方法によって得られた文書領域全てについて求めた該評価値の総計を第一評価値として算出し、第二の領域分割方法によって得られた文書領域各々において、領域内の各行文字サイズの偏差値がしきい値以上の場合に当該領域内の行数もしくは行数の自乗値を当該領域の評価値として算出し、第二の領域分割方法によって得られた文書領域全てについて求めた該評価値の総計を第二評価値として算出し、前記第一評価値と第二評価値を比較して小さい値をとる方の領域分割結果を採用することを特徴としている。
【0008】
請求項4記載の発明では、請求項1乃至3のいずれか1項に記載の文書画像の領域分割方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴としている。
【0009】
【発明の実施の形態】
以下、本発明の一実施例を図面を用いて具体的に説明する。
〈実施例1〉
図1は、本発明の実施例の構成を示す。図において、101は画像を入力する入力手段、102は文書画像を文字領域などの要素に分割すると共に、領域内の行情報も抽出する第1の領域分割手段、103は第1の領域分割手段とは異なる方法で文書画像を文字領域などの要素に分割すると共に、領域内の行情報も抽出する第2の領域分割手段、104は第1、第2の領域分割手段102、103によって得られた領域分割結果および各領域内の行情報を基に領域分割結果を評価し最終結果を決定する領域分割結果評価手段、105は全体の制御部、106は入力された画像データや領域データ、行データなど各種データを記憶するデータ記憶部、107はデータ通信路、108はネットワークなどを介してコンピュータなどと接続するデータ通信手段である。
【0010】
図2は、本発明の全体の処理フローチャートを示す。以下、図2を参照しながら本発明の処理動作を説明する。
まず、画像入力手段101は、文書を読み取ることによって文書画像を得る(ステップ201)。この画像入力手段は、例えばスキャナ、ファックスなどであり、またデータ通信手段108を介してネットワーク経由で別の機器から画像を得るようにしてもよい。
【0011】
次に、第1、第2の領域分割手段102、103は、入力された文書画像を文字領域と図や表や罫線等の要素に分割する(ステップ202、203)。本発明では、この領域分割手段は2つの方法を利用する例を示しているが、これに限定されるものではなく、3つ以上の領域分割方法を利用してもよい。
【0012】
第1、第2の領域分割手段としては、例えば特開平6−20092号公報、特公平8−3832号公報に記載されているような公知技術を用いればよい。すなわち、第1、第2の領域分割手段102、103としては、上記した公知技術のようにそれぞれ異なる方法を用いてもよいし、上記した何れかの公知技術の方法を用い、第1、第2の領域分割手段においてその処理パラメータを変更することによって異なる分離結果を得るようにしてもよい。このようにして抽出した領域は、属性として要素の種類(文字領域であるか表であるかなど)、位置(領域の外接矩形など)、領域番号などを持つ。
【0013】
上記した第1、第2の領域分割手段における各領域分割処理では、行情報も抽出する。領域抽出処理として、前掲した特開平6−20092号公報記載の技術を使用した場合には、領域を抽出した段階で行情報が得られているので、これを用いればよく、また電子通信学会論文「周辺密度分布、線密度、外接矩形特徴を利用した文書画像の領域分割」(秋山他、1986年8月、Vol.J69−D No.8)に記載されている射影を用いる方法を別途用いてもよい。
【0014】
領域分割結果評価手段104は、以上の処理によって得られた領域情報と各領域内の文字行情報を使用して領域分割結果の評価を行う(ステップ204)。図3は、領域分割結果の評価例を説明する図である。
【0015】
図3(a)は、入力された文書画像のレイアウトを示す。このような文書画像に対して、第1の領域分割手段が領域分割を行った結果を図3(b)に示し、第2の領域分割手段が領域分割を行った結果を図3(d)に示す。また、各領域からの行切り出し結果を図3(c)、(e)に示す。
【0016】
第1の領域分割手段(例えば、特開平6−20092号公報)は、文書画像内の黒画素連結成分を基本要素としてそれを統合することにより、文字領域を識別する方法を採っているので、図3(b)に示すように、図の一部分が文字要素と統合され、このために図3(c)に示すような行の切り出し結果となる場合がある。また、上記した方法では、領域間の空白も利用しているので、パラメータ(空白セパレータ検出のための閾値)の設定次第では、図3(e)のように所望の行切り出し結果が得られることもある。
【0017】
第2の領域分割手段(例えば、特公平8−3832号公報)も、領域間の空白を利用して領域分割を行う方法を採っているので、図3(e)のように正しい行切り出し結果が得られる。
【0018】
図3の例では、空白を利用することで誤った領域分割が行われず、問題が解決しそうであるが、しかし文字間の空白が広い日本語文書では、空白を利用するだけでは正しく領域分割できない場合もあり、一つの領域分割方法を用いて全文書に対応することには無理がある。そこで本発明では、領域分割結果評価手段104によって、複数の領域分割結果の評価を行い、最良の領域分割結果を得るようにしたものである。
【0019】
再び、図3の例を参照しながら説明する。評価手段104は、各領域分割結果内で評価指標となる特徴を抽出する。その特徴の一つは行頭の揃いであり、他の一つは文字サイズの行間の変動である。
【0020】
行頭の揃いの指標値Lheadは次のように求める。図5は、行頭揃いの指標値を求める処理フローチャートを示す。行方向が横方向であるとして以下、説明すると、行頭が領域の左端から、しきい値以上右にある行頭の本数L1を数える(ステップ103)。このしきい値はあらかじめ定めた絶対値でもよく、あるいは領域内の文字サイズの平均値と連動するような値でもよい。
【0021】
例えば、図3(c)の場合では、しきい値以上右にある行頭は4行であり、L1=4となる。指標値としては、この行数を全領域で計測して画像全体における該当行数値とすればよい(ステップ104)。つまり領域数をNとして、L1n(n=1,2,...N)の総和である。
【0022】
また、図6に示す処理フローチャートに従って、指標値Lheadを求めてもよい。前述したと同様にL1を求め(ステップ203)、領域内行数に占めるL1の割合が所定のしきい値以上であるか否かを調べる(ステップ204)。図3(c)の例では、6行中4行の行頭がしきい値以上右にあるので、4/6=約67%である。この値があらかじめ定めたしきい値以上の場合には該当領域を「行頭不揃いの領域Rire」とする(ステップ205)。画像中のRireの総数をLheadとする(ステップ207)。なお、Rireの総数を算出するとき、各領域内の行数に応じた重みをつけてもよい。
【0023】
図3の例では、一つの文字領域しか示されていないが、図5、6によって求められる何れの指標値Lheadを用いても、図3(c)のLheadの方が、(e)のそれよりも値が大きくなる。
【0024】
次に、文字サイズの変動指標値の求め方を説明する。図7は、文字サイズの変動指標値を求める処理フローチャートを示す。まず、領域内の各行毎に文字サイズを求める(ステップ303)。文字サイズとして、単純に行の高さを文字サイズとしてもよいし、行内の連結黒画素成分(1文字または文字の一部に相当)の内、最大の高さを文字サイズとしてもよい。
【0025】
次に領域内の、この行文字サイズの偏差値を求め(ステップ304)、その値がしきい値以上(文字サイズの変動が大きい)の場合には、その行数に応じた値L2を求める(ステップ305、306)。L2は行数そのものでもよいし、行数の二乗値でもよい。このL2を各領域毎に求め、その総数をLvarとする(ステップ308)。図3の例では一つの文字領域しか示していないが、図3(c)の方が(e)の方よりもLvarが大きくなる。
【0026】
最後に、上記した指標を利用して領域分割結果の評価を行う。例えば、Lhead、Lvarを重みを付けて足し合わせて、Lallという値を算出し、この値の小さい方の領域分割結果を最終の分割結果であると評価する。
【0027】
あるいは、一方の領域分割結果を基本として、Lhead、Lvarの値のどちらかまたは両方が、他方の領域分割結果よりもしきい値以上大きい場合には、その指標値の小さな方の領域分割結果を採用するという方法もある。
【0028】
上記した2つの評価方法では、第1の領域分割手段102、第2の領域分割手段103という異なる領域分割結果のどちらか一方を画像全体にわたって採用する方法である。本発明の評価方法はこれに限定されず、局所的に両者の分割結果を比較して、領域などの画像部分毎に、何れか一方の領域分割結果を採用するようにしてもよい。
【0029】
〈実施例2〉
上記した実施例では、行頭揃いの一つのしきい値を基に指標値Lheadを求めた。しかし、単純に一つのしきい値で判断すると、図4(b)のような箇条書きの場合にも行頭不揃いの指標値Lheadが大きくなってしまう。そこで、本実施例では、箇条書きの場合を考慮した、他のしきい位置を定める。
【0030】
すなわち、行頭揃いのしきい位置よりも右側にある行が多い場合でも、箇条書き判断のしきい位置より右側に行頭がない場合には、行頭が左端にある行(401〜404)の先頭状況を調べる。行の先頭にある文字矩形のサイズ(高さ、幅)が行内全体の平均値に近い場合は、箇条書き相当行とする。(b)の行403、404の場合は、箇条書き相当行と判定され、(a)の行401、402は、箇条書き相当行でないと判定される。
【0031】
当該行全てが箇条書き相当行であるか、あるいは、しきい値以上の割合の行が箇条書き相当行である場合に、当該領域は箇条書き相当であるとして行頭不揃いの値L1は0となる。
【0032】
〈実施例3〉
本発明は上記した実施例に限定されず、ソフトウェアによっても実現することができる。本発明をソフトウェアによって実現する場合には、図8に示すように、CPU、メモリ、表示装置、ハードディスク、キーボード、CD−ROMドライブ、スキャナなどからなるコンピュータシステムを用意し、CD−ROMなどのコンピュータ読み取り可能な記録媒体には、本発明の文書画像の領域抽出機能を実現するプログラムなどが記録されている。また、スキャナなどの画像入力手段から入力された文書画像などは一時的にハードディスクなどに格納される。そして、該プログラムが起動されると、一時保存された文書画像データが読み込まれて、領域抽出処理を実行し、最良の領域分割結果をディスプレイなどに出力する。
【0033】
【発明の効果】
以上、説明したように、本発明によれば、複数の領域分割方法を併用しているので、多様な文書画像に適用したときに、従来の一つの領域分割方法を使用する場合に比べて、より最適な領域分割結果を得ることができる。
【0034】
本発明によれば、領域分割結果である文字領域の整合性として、領域内の行頭の揃い、文字サイズの変動を調べているので、文字領域を精度よく切り出した分離結果を得ることができる。
【0035】
本発明によれば、箇条書きの場合の行頭の不揃いの影響を除いているので、領域が箇条書きである場合でも安定した処理を行うことができる。
【0036】
本発明によれば、複数の領域分割結果の内、局所的に最良な部分を採用できるので、最終的に最適な分離結果を得ることができる。
【図面の簡単な説明】
【図1】 本発明の実施例の構成を示す。
【図2】 本発明の処理フローチャートを示す。
【図3】 (a)〜(e)は、領域分割結果の評価例を説明する図である。
【図4】 (a)、(b)は、箇条書き行の判別を説明する図である。
【図5】 行頭揃いの指標値を求める第1の処理フローチャートを示す。
【図6】 行頭揃いの指標値を求める第2の処理フローチャートを示す。
【図7】 文字サイズの変動指標値を求める処理フローチャートを示す。
【図8】 本発明をソフトウェアによって実現する場合の構成例を示す。
【符号の説明】
101 画像入力手段
102 第1の領域分割手段
103 第2の領域分割手段
104 領域分割結果評価手段
105 制御部
106 データ記憶部
107 データ通信路
108 データ通信手段
Claims (4)
- 複数の領域分割方法を用いて文書画像を領域に分割し、第一の領域分割方法によって得られた文書領域各々において、行頭の位置がしきい値以上異なる行の数Aを計測し、当該領域内における全行数中の該行数Aの比率がしきい値以上の場合に当該領域を不揃い領域と判定し、該不揃い領域の総数を第一評価値として算出し、第二の領域分割方法によって得られた文書領域各々において、行頭の位置がしきい値以上異なる行の数Bを計測し、当該領域内における全行数中の該行数Bの比率がしきい値以上の場合に当該領域を不揃い領域と判定し、該不揃い領域の総数を第二評価値として算出し、前記第一評価値と第二評価値を比較して小さい値をとる方の領域分割結果を採用することを特徴とする文書画像の領域抽出方法。
- 前記行頭の位置を比較する際に、しきい値以上行頭位置の差異がなく、行頭が左端にある行の先頭文字のサイズが行内全体の平均値に近い場合は箇条書き相当行と判断し、該箇条書き相当行の割合がしきい値以上の場合は当該領域を前記行数の計測に使用しないことを特徴とする請求項1記載の文書画像の領域抽出方法。
- 複数の領域分割方法を用いて文書画像を領域に分割し、第一の領域分割方法によって得られた文書領域各々において、領域内の各行文字サイズの偏差値がしきい値以上の場合に当該領域内の行数もしくは行数の自乗値を当該領域の評価値として算出し、第一の領域分割方法によって得られた文書領域全てについて求めた該評価値の総計を第一評価値として算出し、第二の領域分割方法によって得られた文書領域各々において、領域内の各行文字サイズの偏差値がしきい値以上の場合に当該領域内の行数もしくは行数の自乗値を当該領域の評価値として算出し、第二の領域分割方法によって得られた文書領域全てについて求めた該評価値の総計を第二評価値として算出し、前記第一評価値と第二評価値を比較して小さい値をとる方の領域分割結果を採用することを特徴とする文書画像の領域抽出方法。
- 請求項1乃至3のいずれか1項に記載の文書画像の領域抽出方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27424397A JP3737253B2 (ja) | 1997-10-07 | 1997-10-07 | 文書画像の領域抽出方法および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27424397A JP3737253B2 (ja) | 1997-10-07 | 1997-10-07 | 文書画像の領域抽出方法および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11110482A JPH11110482A (ja) | 1999-04-23 |
JP3737253B2 true JP3737253B2 (ja) | 2006-01-18 |
Family
ID=17539003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27424397A Expired - Lifetime JP3737253B2 (ja) | 1997-10-07 | 1997-10-07 | 文書画像の領域抽出方法および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3737253B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5862260B2 (ja) * | 2011-12-09 | 2016-02-16 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
1997
- 1997-10-07 JP JP27424397A patent/JP3737253B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH11110482A (ja) | 1999-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5687253A (en) | Method for comparing word shapes | |
US5321770A (en) | Method for determining boundaries of words in text | |
US7324692B2 (en) | Character recognition method | |
JP3904840B2 (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
US5557689A (en) | Optical word recognition by examination of word shape | |
US5640466A (en) | Method of deriving wordshapes for subsequent comparison | |
KR19990072314A (ko) | 컬러화상처리장치및패턴추출장치 | |
JP2003271960A (ja) | 指紋照合装置および指紋照合方法とプログラム | |
US5835638A (en) | Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols | |
CN110503054A (zh) | 文本图像的处理方法及装置 | |
JPH09179942A (ja) | Ocrを利用しない文書画像中のドロップワードの自動認識方法 | |
US20090232400A1 (en) | Image evaluation apparatus, method, and program | |
US20130329263A1 (en) | Image processing apparatus, and image processing method and program therefor | |
JP3737253B2 (ja) | 文書画像の領域抽出方法および記録媒体 | |
JP3607753B2 (ja) | 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置 | |
US6351560B1 (en) | Apparatus, method, and program for locating an objective on a form and a recording medium for recording the program for locating the objective on the form | |
JP3835652B2 (ja) | 文書画像の日本語英語判定方法および記録媒体 | |
JP2000022943A (ja) | 画像領域判別装置および方法ならびに画像領域判別プログラムを記録した記録媒体 | |
EP4033376A1 (en) | Distributed computer system for document authentication | |
JPH11316797A (ja) | 文書画像の領域識別方法および装置 | |
JP2963508B2 (ja) | 文字切出し装置 | |
JP2671533B2 (ja) | 文字列認識方法及びその装置 | |
JP3400154B2 (ja) | 文書画像の領域抽出方法および装置 | |
JP3220226B2 (ja) | 文字列方向判別方法 | |
JPH04130979A (ja) | 文字画像切出し方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051025 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051026 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081104 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091104 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101104 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111104 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111104 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121104 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131104 Year of fee payment: 8 |
|
EXPY | Cancellation because of completion of term |