JPH0259979A - 文書画像処理装置 - Google Patents

文書画像処理装置

Info

Publication number
JPH0259979A
JPH0259979A JP63211840A JP21184088A JPH0259979A JP H0259979 A JPH0259979 A JP H0259979A JP 63211840 A JP63211840 A JP 63211840A JP 21184088 A JP21184088 A JP 21184088A JP H0259979 A JPH0259979 A JP H0259979A
Authority
JP
Japan
Prior art keywords
area
character string
document
image
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63211840A
Other languages
English (en)
Inventor
Shuichi Tsujimoto
辻本 修一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63211840A priority Critical patent/JPH0259979A/ja
Publication of JPH0259979A publication Critical patent/JPH0259979A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、イメージ情報として入力された文書から文字
列領域とイメージ領域とを分離抽出する文書画像処理装
置に関する。
(従来の技術) 一般に、文字情報を含む文書を保存する場合、文字情報
をコード化することにより、記憶容量の低減が図れると
ともに、文書を意味のある文字列の並びとして保存でき
るため、文書検索の際のキーワード検索が可能になる。
イメージ情報として入力された文書中の文字情報をコー
ド化するには、入力文書に対して文字認識の処理を行な
うことが必要である。この際、文字列情報とイメージ情
報とが混在する文書については、文書中の文字列領域(
テキスト領域)だけを抽出して文字認識を行なう必要が
ある。また、このような文書のうち文字列情報について
はコード化し、イメージ情報については所定の図形処理
をしてその意味を解析することにより、入力文書を単な
る画像としてではなく意味のある情報として効率良くフ
ァイリングすることもなされている。このため、文書中
からテキスト領域とイメージ領域とを効果的に分離抽出
する方法が望まれている。
従来、文書のテキスト領域とイメージ領域との分割は、
人手による書式定義に基づき行なわれていた。しかしな
がら、この方法では、1つ1つの文書の書式を予め登録
する必要があるうえ、処理すべき文書の種類を登録され
た文書から特定する必要がある等、処理に先立つ作業が
繁雑であるという問題かあった。
(発明か解決しようとする課題) このように、従来のテキスト領域とイメージ領域との分
離抽出方法では、処理に先立ち予め書式を登録しておか
なくてはならないこと、及び書式を指定しなければなら
ない等の繁雑な作業が必要であるという問題があった。
本発明は、上記の問題点に鑑みなされたもので、書式設
定や文書の指定をすることなく文字列情報とイメージ情
報とを正確に分割抽出することが可能な文書画像処理装
置を提供することを目的とする。
[発明の構成] (課題を解決するための手段) 本発明は、文字列領域とイメージ領域を含む文書をイメ
ージ情報として入力する文書入力手段と、この手段を介
して入力された文書から連結成分若しくはその纏まりが
存在する部分領域を抽出する部分領域抽出手段と、この
手段で抽出された部分領域の形状を解析して各部分領域
がイメージ領域であるか文字列領域であるかを判定する
形状解析手段と、この手段で文字列領域と判定された部
分領域からノイズ領域を削除して前記文書中のイメージ
領域と文字列領域とをそれぞれ決定する領域決定手段と
を具備したことを特徴としている。
(作用) 本発明によれば、入力された文書から連結成分若しくは
そのまとまりが存在する部分領域を抽出し、その部分領
域の形状を解析することにより文字列領域とイメージ領
域とを分割し、更に文字列領域であると判定された部分
領域の並び若しくはその部分領域の文字認識結果等によ
りノイズを排除して文字列領域を決定するようにしてい
るので、入力文書から正確に文字列領域とイメージ領域
とを分離抽出することができる。このため、予め各文書
の書式情報を登録する作業や文書の種類を特定する情報
を指定する作業を省略することができる。
(実施例) 以下、図面に基づいて本発明の一実施例に係る文書画像
処理装置について説明する。
7j41図は本実施例に係る文書画像処理装置の構成を
示すブロック図である。この装置は、テキスト領域とイ
メージ領域とを含む文書をイメージ情報として入力する
スキャナ11と、原画像、部分領域、イメージ領域、文
字領域、及び文字列領域を処理の過程に応じてそれぞれ
記憶する5つのメモリ、即ち画像メモリ12、部分領域
メモリ13、イメージ領域メモリ14、文字領域メモリ
15、及び文字列領域メモリ16と、これらメモリ12
〜16との間で必要な情報を授受しながらテキスト領域
とイメージ領域との分離抽出のための処理を行なう文書
処理部17とにより構成されている。
文書処理部17は、更に部分領域抽出部21、最小矩形
検出部22、形状解析部23、文字列判定部24、文字
認識部25、文字認識用辞書26、文字列作成部27、
単語照合部28、及び単語辞N29にて構成されている
。これら各部は、図示しないプログラムメモリに格納さ
れたプログラムとこれを実行するプロセッサとにより実
現される機能であっても、専用のハードウェアによって
構成されていても良い。
次に、上記文書画像処理装置の動作を第2図のフローチ
ャートに従って説明する。
まず、処理すべき入力文書は、スキャナ11によって例
えば2値の画像データに変換され画像メモリ12に取込
まれる(Sl)。画像メモリ12に格納された画像デー
タは部分領域抽出部21に与えられる。部分領域抽出部
21は、画像データから例えば各黒画素間の連結関係を
調べることにより、連結黒領域を抽出するラベリング処
理を行ない、抽出された連結黒領域を部分領域として抽
出する(S2) これにより、例えば第3図中31で示
すような連結成分が部分領域として抽出される。
抽出された部分領域は部分領域メモリ13に格納される
(S3)。最小矩形検出部22は、部分領域メモリ13
に格納された部分領域を取囲む最小の矩形を求める(S
4)。最小矩形の例を第4図に32で示す。
次に、形状解析部23は、検出された最小矩形の形状、
例えば幅、高さ、縦横比、黒画素濃度を171べ、各最
小矩形を文字列領域に含まれるものとイメージ領域に含
まれるものとに分類する(S5)。即ち、いま第5図に
示すように、最小矩形32の幅をW、高さをh1最小矩
形32内の黒画素面積をSとすると、例えば第6図に示
すような条件に従って分類操作か行われる。ここで、t
hl、 th2. th5. th6は、高さhに関す
る基桑値、th3. th4は幅Wに関する基準値、t
h7は縦横比に関する基準値、th8は面積に関する基
準値、th9は黒画素密度に関する基準値である。ここ
では、高さh、幅W、縦横比h / w、面積S、黒画
素密度S/ (hXw)がそれぞれ基準値と比較され、
その結果に応じて、文字領域、ノイズ、図形領域、写真
領域の4つの領域に分類される。上記の基準値は、予め
与えておくか、予め文書領域にはテキスト領域が多いと
いうことが分っているのであれば、全矩形について幅w
1高さh1縦横比、黒画素濃度などを計算しておき、ヒ
ストグラムにより基準値を求めておくことも可能である
。例えば第7図のように最小矩形が抽出されたとすると
、その高さh1幅Wに関するヒストグラムは、第8図(
a)、(b)にそれぞれ示す通りとなる。文字領域は高
さ、幅ともに小さい値で分布している。
それよりも更に小さい部分での分布はノイズであること
が予想される。図形は高さ、幅ともに大きな値で分布し
ている。又、横方向の直線は、高さが小さく幅が非常に
大きい値で分布している。これらの各分布の平均値と分
散とによって各領域決定のための基準値を求めることが
できる。また、入力画像がランで表現されている場合に
は、矩形内のランレングスのヒストグラムをとり、その
形状を領域分割の情報に用いることもできる。例えば、
長いランが多く存在する領域を写真領域に分類すること
も可能である。
ところで、図表中の文字については、それをイメージと
みるか文字とみるかで処理が変わってくる。イメージと
考えるとすれば、抽出されたイメジ領域を代表する矩形
内にある文字領域をカットするだけで済むか、文字と考
えるのであれば、その周辺領域との関わり合いを調べる
必要がある。
例えば表であれば、文字は罫線で囲まれているので、罫
線の内部の文字列領域と想定される矩形を抽出する必要
がある。
この形状解析における分類結果のうち文字領域は、文字
列判定部24にて判定される(S5)。
ここでは、ある基準に従って複数の矩形を文字列に統合
していく処理を行ない、その統合結果に文字列を求めて
いく。この方法としては、例えば第9図(a)に示すよ
うに、矩形間距離がある基準値よりも小さい矩形同士を
まとめて文字列とする方法、ピッチがほぼ一定した矩形
をまとめて文字列とする方法(文字列を単語として抽出
するのに有効)、中心位置のずれ(同図(a)) 、又
は基準位置のずれ(同図(b))等の垂直方向へのずれ
が所定の値に収まっている矩形をまとめて文字列とする
方法などが考えられる。例えば、第10図に示す様な、
i“の点や、“j″の点等は、形状解析部23において
ノイズと判定され易いが、上記のような文字列への統合
によって、統合されなかった部分のみをノイズとして排
除することにより、上記の判定誤りは解消できる。また
、“i“や“」 は、矩形間の水平・垂直位置関係や接
近の度合い、更にはその形状等から特定するようにして
も良い。
以上の処理の結果、イメージと判定された矩形の情報は
、イメージ領域メモリ14に格納される(S 6.  
S 7)。また、文字と判定された矩形とその内部の情
報は、文字領域メモリ15に格納される(S6.S8)
。文字領域メモリ15に格納された文字情報は、文字認
識部25において文字認識辞書26に基づき文字認識さ
れる(S9)。
そして、その認識結果に基づいて文字列の判定結果が修
正される(S 10)。更に認識結果から文字列作成部
27において例えば単語単位の文字列が作成され(S1
1)、単語照合部28において単語辞書29との照合が
行われる(S 12)。ここでは、その単語が意味をな
すものかどうかを調べることができる。入力文書の種類
が予め分っている場合には、単語辞書29として入力文
書に関係した専門辞書を用いることができる。この単語
認忠結果に基づいて文字列領域の判定結果が修正される
(S14)。そして、これらの処理が終了すると、文字
列領域メモリ16に文書中の正しい文字列領域を示す情
報が格納される(S14)。
全ての矩形についてこのような分類が行われたら処理は
終了する(S 15)。
この実施例では、領域決定手段として、文字列判定部2
4と、文字認識部25と、単語照合部28とを設けたが
、これらのうちの少なくとも一つの判定結果に基づいて
文字列を判定するようにしても高い精度が得られること
はもちろんである。
また、上記実施例では、部分領域として個々の連結成分
を抽出したが、ラベリングにより得られた連結黒領域の
うち、隣接するものをまとめて部分領域とすることも考
えられる。この際、例えば人力画像がランで表現されて
いる場合には、第11図に示すように、短い白ランを黒
ランに置換える操作を行なってからラベリング処理を行
なうようにすれば、処理が極めて簡単になる。この方法
によれば、置換える白ランの長さを適当な長さに設定す
ることにより、ラベリング結果かそのまま単語を表現す
る文字列として抽出でき、処理を格段に簡素化できると
いう利点がある。
[発明の効果] 以上述べたように、本発明によれば、人力された文書か
ら部分領域を抽出し、その部分領域の形状を解析するこ
とにより文字列領域とイメージ領域とを分類し、更に文
字列領域であると判定された部分領域が正しい文字列領
域であるかを判定しているので、入力文書から正確に文
字列領域とイメージ領域とを分離抽出することができる
。このため、予め各文書の書式情報を登録する作業や文
書の種類を特定する情報を指定する作業を省略すること
ができる。
【図面の簡単な説明】
第1図〜第11図は本発明の一実施例に係る文書画像処
理装置を説明するための図で、第1図は同装置のブロッ
ク図、第2図は処理の流れを示す流れ図、第3図は部分
領域抽出例を示す図、第4図は最小矩形抽出例を示す図
、第5図は形状解1斤の各パラメータを説明するための
図、第6図は形状解析の判定基準を示す図、第7図は最
小矩形の抽出例を示す図、第8図は抽出された最小矩形
の高さと幅のヒストグラムを示す図、第9図は文字列判
定の例を示す図、第10図は文字列判定によりノイズが
排除されることを説明するための図、第11図は本発明
の他の実施例に係る文書画像処理装置における部分領域
抽出例を示す図である。 11・・・スキャナ、12・・・画像メモリ、13・・
・部分領域メモリ、14・・・イメージ領域メモリ、1
5・・・文字領域メモリ、16・・・文字列領域メモリ
、17・・・文書処理部、21・・部分領域抽出部、2
2、・・最小矩形検出部、23・・・形状解析部、24
・・・文字列判定部、25・・・文字認識部、26・・
・文字認識用辞書、27・・・文字列作成部、28・・
・単語照合部、29・・・単語辞書。 出願人代理人 弁理士 鈴江武彦 (a) 第 図 (b) ヘ の 0

Claims (1)

  1. 【特許請求の範囲】 文字列領域とイメージ領域を含む文書をイメージ情報と
    して入力する文書入力手段と、 この手段を介して入力された文書から連結成分若しくは
    その纏まりが存在する部分領域を抽出する部分領域抽出
    手段と、 この手段で抽出された部分領域の形状を解析して各部分
    領域がイメージ領域であるか文字列領域であるかを判定
    する形状解析手段と、 この手段で文字列領域と判定された部分領域からノイズ
    領域を削除して前記文書中のイメージ領域と文字列領域
    とをそれぞれ決定する領域決定手段と を具備したことを特徴とする文書画像処理装置。
JP63211840A 1988-08-26 1988-08-26 文書画像処理装置 Pending JPH0259979A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63211840A JPH0259979A (ja) 1988-08-26 1988-08-26 文書画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63211840A JPH0259979A (ja) 1988-08-26 1988-08-26 文書画像処理装置

Publications (1)

Publication Number Publication Date
JPH0259979A true JPH0259979A (ja) 1990-02-28

Family

ID=16612456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63211840A Pending JPH0259979A (ja) 1988-08-26 1988-08-26 文書画像処理装置

Country Status (1)

Country Link
JP (1) JPH0259979A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728940A (ja) * 1993-06-30 1995-01-31 Internatl Business Mach Corp <Ibm> 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法
JPH08123901A (ja) * 1994-10-26 1996-05-17 Nec Corp 文字抽出装置及び該装置を用いた文字認識装置
US5696843A (en) * 1994-06-22 1997-12-09 Sharp Kabushiki Kaisha Automatic image quality controlling apparatus for use in an electronic copier

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728940A (ja) * 1993-06-30 1995-01-31 Internatl Business Mach Corp <Ibm> 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法
US5696843A (en) * 1994-06-22 1997-12-09 Sharp Kabushiki Kaisha Automatic image quality controlling apparatus for use in an electronic copier
JPH08123901A (ja) * 1994-10-26 1996-05-17 Nec Corp 文字抽出装置及び該装置を用いた文字認識装置

Similar Documents

Publication Publication Date Title
US5907631A (en) Document image processing method and system having function of determining body text region reading order
US7519226B2 (en) Form search apparatus and method
US6728403B1 (en) Method for analyzing structure of a treatise type of document image
JP2926066B2 (ja) 表認識装置
Saitoh et al. Document image segmentation and text area ordering
Saitoh et al. Document image segmentation and layout analysis
JPH0259979A (ja) 文書画像処理装置
JP2917427B2 (ja) 図面読取装置
JP2559356B2 (ja) 文書画像処理方法
JP2576350B2 (ja) 文字列抽出装置
JP2675303B2 (ja) 文字認識方法
JPH04287168A (ja) ファイリングの自動キーワード抽出方法
JPH0830734A (ja) 文字列認識装置
JP2550012B2 (ja) パタ−ン切り出し及び認識方法
JP2995825B2 (ja) 日本語文字認識装置
JPH0528310A (ja) フオーム型文書識別装置
JP3220226B2 (ja) 文字列方向判別方法
JPH1166230A (ja) 文書認識装置、文書認識方法及び媒体
JPH09269970A (ja) 文字認識方法とその装置
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP2963474B2 (ja) 類似文字識別方法
JPH01201789A (ja) 文字読取装置
JPH08129608A (ja) 文字認識装置
JP2570311B2 (ja) 文字列認識装置
JPH0589294A (ja) 英文字認識装置