JPH0747333B2 - 枠字処理方法 - Google Patents

枠字処理方法

Info

Publication number
JPH0747333B2
JPH0747333B2 JP63132524A JP13252488A JPH0747333B2 JP H0747333 B2 JPH0747333 B2 JP H0747333B2 JP 63132524 A JP63132524 A JP 63132524A JP 13252488 A JP13252488 A JP 13252488A JP H0747333 B2 JPH0747333 B2 JP H0747333B2
Authority
JP
Japan
Prior art keywords
block
character
image
character string
rectangle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63132524A
Other languages
English (en)
Other versions
JPH01320171A (ja
Inventor
イァ−シュアン・ファン
ウェン−ウェン・リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Priority to JP63132524A priority Critical patent/JPH0747333B2/ja
Publication of JPH01320171A publication Critical patent/JPH01320171A/ja
Publication of JPH0747333B2 publication Critical patent/JPH0747333B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Dot-Matrix Printers And Others (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は枠字処理方法に係り、詳しくは、光学読取装
置で読み取られた書類中の印刷体文字情報をデータベー
ス化する際に、これら印刷体文字情報(二値化資料)
を、先ず文字列、画像ブロック、図形ブロックに分離処
理し、次いで文字列中の文字に枠を付けて切り出す枠字
処理方法に関するものである。
(発明の概要) この発明の枠字処理方法は、一次走査ブロック・ラベリ
ング(One Path Blok Labeling)と構造化文字切出法
(Structvre Isolatin)を用いて、文字と図形とが併存
した情報、大文字と小文字とが混合した情報、文字間隔
が不均一な文字情報、漢字、英数字及び一般記号からな
る情報等、印刷体文字情報を、自動的にブロックに分離
し、次いで文字列の中の文字に枠を付けて切り出すこと
により、効率良くデータベース化するものである。
(従来の技術) コンピュータ化が進んだ今日では、書類中の文章(Tex
t)、画像(Image)、図形(Graphic)等の情報を、如
何に効率良くデータベース化するかが要求されている。
このため、書類中の文字、画像、図形等の情報を自動的
に区分し、それぞれを適当な技術で処理することによ
り、データの蓄積量を縮小することが書類分析システム
上重要となっている。また、枠を付けた文章の部分に対
し、如何に正しく文字や記号の領域を切り出して、認識
分析のために光学文字認識系(Optical Character Reco
gnition;OCR)に転送することも同様に重要となってい
る。
一般に、文字、画像、図形情報を自動的に区分するの
は、ブロック分離処理の範疇に属するが、枠を付けた文
字列から文字や記号を切り出すのは、文字切り出し処理
の範疇に属する。これらを枠字処理と称している。
この枠字処理の目的は、処理対象を区分することにあ
り、これは書類分析システムにおいて重要である。これ
までのブロック分離処理技術としては、次のものが知ら
れている。
(1) 射影法(Histogram);Avinash Kak and Azriel
Rasenfeld“Digital Picture Processing"参照。
(2) 膨張、収縮法(Expansion and Shrinking);
中村、氏家、岡本、南“ミックスモー通信のための文字
領域の抽出アルゴリズム”信学論(D)J67−D,No.11,P
P1277〜1284(1984)及び秋山、内藤、増田“縦・横書
き文字からの個別文字切り出し法”信技報,PRL−83−7,
PP49〜56(1983)参照。
(3) Constraint Run Lengt法(以下、CRLと略記す
る。);F.M.Yea,R.S.Casey;“Block Segmentation and
Text Extraction in Mixed Text/Image Documents",Com
puter Graphic & Image processing,20,PP375〜390(1
982)参照。
(4)小領域分離法;N.H.Yea,R.S.Leu and C.H.Lin“CH
ARACTER RECOGNITION Byl BOARD OCR RART:TRAINSEPARA
TION & CHARACTER EXTRACTION",Proceeding of Intern
ational Computer Bymposium,December 17−19,PP129〜
137(1986)参照。
(発明が解決しようとする課題) しかしながら、上記(1)〜(4)のブロック分離処理
技術には、いずれも一長一短があり、満足すべきもので
はなかった。
すなわち、(1) 射影法(Histogram)では、処理速
度が速い反面、文字資料等が傾斜している記録紙、又は
文章と図形が併存している記録紙には適用できない問題
があった。
また、(2) 膨張、収縮法及び(3)CRL法では、複
雑な書類の処理が可能である反面、処理速度が遅く、膨
大な画像演算スペースが必要となる問題があった。
また、(4) 小領域分離法では、処理速度が速く、文
字資料等が傾斜していても処理出来る反面、入力記録紙
のフオームが制限され、しかも文章と図形とが併存した
記録紙には適用出来ない問題があった。
この発明は上記従来技術の問題点を解消するもので、そ
の目的とするところは、文章資料等が傾斜して処理出来
ない問題や、複雑な書類の処理が出来ない問題等をなく
して、効率良くデータデース化出来る枠字処理方法を提
供することである。
(課題を解決するための手段) 第1の発明では、コンピュータに読み込まれた書類の画
像データを、ブロック分離処理法により、文字列(文字
ブロック)、画像ブロック及び図形ブロックに分離し、
次いで文字切出法により、分離された文字列から漢字、
英数字及び句読点記号に枠を付けて切り出す枠字処理方
法において、前記ブロック分離処理法を、ビットマップ
(bitmap)画像をラン・レングス・コード(Run Length
Code)に変換するためのCRLC(Cnstrained Run Length
Code)転換プロセスと、ラベリング(Labeling)法
で、隣接関係にあるCRLCを連続させることにより、一ブ
ロック(独立のブロック)として分離するブロック分離
プロセスと、独立したブロックに記録されたCRLCからも
とのビットマップ(bitmap)画像おける各対応位置(X,
Y)を算出することにより、各ブロックの画像を抽出す
る画像抽出プロセスと、ブロックの高さとラン・レング
ス(Run Length)平均値からブロックの種類を判別する
ブロック画像種類判別プロセスとからなる一次走査ブロ
ック・ラベリング法により構成したことを特徴としてい
る。
また、第2の発明では、前記文字切出法を、文字列の左
右に分離された矩形に枠を付ける矩形捜索プロセスと、
高さ得点法により漢字の高さを求める文字列高さ計算プ
ロセスと、属性により漢字や句読点を切り出す優先切出
プロセスと、比較的ゆるやかな条件により、切り出され
た全ての矩形の右、あるいは左側に位置する漢字矩形を
捜し出す右方向、左方向切出プロセスとを具備した構造
化文字切出法により構成したことを特徴としている。
また、第3の発明では、前記一次走査ブロック・ラベリ
ング法により、コンピュータに読み込まれた書類の画像
データを、文字列(文字ブロック)、画像ブロック及び
図形ブロックに分離処理し、次いで前記構造化文字切出
法により、分離された文字列から漢字、英数字及び句読
点記号に枠を付けて切り出すことを特徴としている。
この発明で「ラン(Run)」とは、画像列が一段で連続
した状態の黒(又は白)色の画素をいう。
また「ラン・レングス・コード(Run Length Code)」
とは、“Run"始点位置と長さを持つデータコードをい
う。
また、「コンストレンインド・ラン(Constrained Ru
n)」とは水平距離がある定数よりも小さい“Runs"をい
う。
また、「コンストレンインド・ラン・コード(Constrai
ned Run Code)」とは、“Constrained Run"の中に最左
端の始点位置と総長度を持つデータコードをいう。
(発明の作用) この発明では、記録紙の記録内容が傾斜したり、あるい
は文章と図形とが併存したりすると適用出来ない問題を
解決するため、従来のCSL法を改良した一次走査ブロッ
ク・ラベリングと称するブロック分離方法を採用してい
る。これにより、一回画像平面を走査するだけで全ての
ブロックを捜し出して変換することが出来る。すなわ
ち、三つの画像平面(元の画像平面、水平拡張平面及び
垂直拡張平面)を必要とし、そしてこの画像平面を複数
回走査しなければならなかったのを、元の画像平面を一
回走査するだけで済むようにしている。このため、処理
速度を速くすることが出来る。
また、文字切出処理については、通常、射影法により各
文字の外枠矩形を捜し出すが、文章の中に漢字、英文字
の共存している場合には漢字、英文字の矩形判定を行う
必要がある。この文字切出処理を困難にしている原因と
しては、次のものが考えられる。
(1) ピッチ(Pitch)が一致していないことによ
る。すなわち、印刷体文字の字形中のピッチが不一致の
ため、ピッチを標準として自動的に文字切出処理を行う
ことが出来ない。
(2) ノイズ干渉による。すなわち、紙面上の汚点が
ノイズを引き起こす可能性がある。
(3) 文字の分離による。例えば、双矩形構造の
“引”が“弓”、 という二文字として切り出される可能性がある。
(4) 文字の接触による。例えば、“我(僕)”と との二文字が活字で印字された場合には、字間のスペー
スが小さすぎるので、単一文字として切り出される可能
性がある。
この発明では、文字切出処理に使用する判断パラメータ
が全部入力記録紙から抽出するとの原則に基づき、“構
造化文字切出法”により矩形の属性(漢字又は英文字)
を判断する方法を採用することで、上述の文字切出処理
に伴う困難さを解消して、正確に文字切り出しを行うこ
とが出来る。
(実施例) 以下この発明の一実施例を図面を参照して詳細に説明す
る。
第3の発明は第1の発明の特徴部分であるブロック分離
処理法と第2の発明の特徴部分である文字切出法とを組
み合わせたものである。そこで、以下の実施例では、第
3の発明について詳細に説明する。第1、第2の発明に
ついての説明は、第3の発明を説明する過程で行う。
第1図は第3の発明の文字、画像、図形情報等の処理方
法を実行する装置を示すブロック図である。図中符号10
は光学読取装置、20は一次走査ブロック・ラベリング法
によりブロック分離するブロック分離手段、30は構造化
文字切出法により文字切出処理する文字切出手段であ
る。
光学読取装置10により書類を走査して、書類の画像デー
タである文字、画像、図形情報等の印刷体文字情報を読
み取って入力し、この入力データ(二値化資料)をブロ
ック分離手段20により文字列(文字ブロック)、画像ブ
ロック及び図形ブロックに分離し、次いで文字切出手段
20により前記ブロック分離手段20で分離された文字列の
中の文字を切り出す。
第2図は普通の書類で、文字列(文字ブロック)、ハー
フトーン(Halftone)画像、及び直線図形が含まれてい
る。光学読取装置10によりこの書類の画像データを読み
取って、ブロック分離手段20で処理すると、第3図に示
すように、文字列、画像ブロック、図形ブロックに分離
される。このブロック分離には、次のような特性があ
る。
(1) 白い影の部分はブロック分離の主な個所であ
る。
(2) 同じブロック内の余白距離が小さい。
(3) 異なるブロック間の余白距離が大きい。
ここで、一次走査ブロック・ラベリング法の基本原理は
次の通りである。
(1) ビットマップ(bitmap)画像をラン・レングス
・コード(Run Length Code)に変換する。
(2) 近隣の領域関係により近距離にある“Run"を同
一ブロックにラベリングする。
(3) 或るブロックの近隣の“Run"が存在しなくなれ
ば、このブロックを独立ブロックとする。
(4) 独立ブロック内の全ての“Run"をビットマップ
(bitmap)画像に戻して、ブロックの属性(文字列、画
像ブロック、図形ブロック)を決定する。
この一次操作ブロック・ラベリング法では、画面に対し
一回の走査を施すことにより、上記(1)〜(4)の操
作が実行されて、全てのブロックを分離することが出来
る。
第4図は、ブロック分離手段20で実行される一次走査ブ
ロック・ラベリング法による処理内容を示すフローチャ
ートである。
まず、CRLC(Constrained Run Length Code)転換プロ
セスで、文字読取装置10で読み取ったビットマップ(bi
tmap)画像をCRLC変換する。すなわち、データ量の多い
ビットマップ(bitmap)画像を、各Constrained Runの
開始位置と終了位置の値だけが記録されたCRLCに変換し
て、データ量を減らす。
このように、CRLCを採用するのは、水平方向への局部的
な拡張効果を発生させるためである。ここで、定数chの
選定は枠列結果の良否に大きな影響を与えるので、適切
な値に設定する必要がある。すなわち、定数chが大きす
ぎると、“局部的”な拡張効果の意義が無くなり、傾斜
角を持つ二つのブロックが重なり合ってしまう。また、
定数chが小さすぎると、拡張効果が得られないのみなら
ず、ブロック分離時のデータ処理量を増大させてしま
う。
次に、ブロック分離プロセスで、ラベリング(Labelin
g)の方法を採用して隣接関係にあるCRLCを連続させる
ことにより、一ブロックの位置を得る(独立のブロック
に分離する)。
ここで、ラベリング(Labeling)の方法を説明する。
まず、Constrained Runの“近隣領域”の内容について
説明する。この“近隣領域”は、第5図に示すように、
Constrained Run(同図中の黒色部分)から拡張された
部分、すなわち点線で囲まれた部分をいう。そして、こ
の近隣領域と接したブロックを、このRunの近隣ブロッ
クという。なお、同図中XGAPは水平拡張量、YGAPは垂直
拡張量である。
次に処理手順について説明する。
I,CRLC(StartingX,Length)を(StartingX,endingX)
に転換する。
II,(a)既に存在していたブロックの中からRunの近隣
ブロックを捜し出して記録する。
(b)既に存在した近隣ブロック以外の全てのブロック
を記録する。
III,(Case 1) 上記Runに近隣ブロックがない場合には、該Runを一つの
新しいブロックに組み入れる。
(Case 2) 上記Runに近隣ブロックがある場合には、該Runを最も高
い近隣ブロックMに組み入れる。そして、この近隣ブロ
ックMのCRLCを、残りの近隣ブロックで修正して形成し
た新ブロックMが、全ての近隣ブロックと連続関係をも
つようにする。
IV,既に存在した近隣ブロック以外の全てのブロックを
チェックし、どの新近隣ブロックとも接する可能性がな
ければ、ブロックのCRLCデータを、独立データとして次
の仕事ユニットに回す。
V,新CRLCを読み取り、走査が終わるまで、上記I〜IVの
作業を繰り返す。
以上の処理手順から明らかなように、ラベリング(Labe
ling)の方法は、“近隣ブロック”の定義に基づき、
縦、横方向への局部的な拡張を行わせることにより、CR
LCの不足を補うと共に、CRLCの密集領域(集合領域)を
独立ブロックとして分離するものである。
上記ラベリング(Labeling)の方法による処理の後、画
像抽出プロセスにより、独立ブロックに記録されたCRLC
から元のビットマップ(bitmap)画像における各対応位
置(X,Y)を算出して、一個のブロックの画像を抽出す
る。
この後、画像種類判別プロセスにより、各ブロックの画
像の種類(文字、画像、図形)の分析を行う。すなわ
ち、文字列、画像ブロック又は図形ブロックに分離す
る。ここでの分析の重点は、これまで得られたブロック
が文字列であるか否かを判断することであるが、この分
析結果から直線、幾何図形及びハーフトーン(Halfto
n)図等を判断することも出来る。
この分析には、ブロックの高さ(H)データと、走査方
向上の“平均ストローク幅”〔又は“平均Run Length"
値(BL)〕データが使用される。
ここで、RC=走査方向上の黒画素の総和/走査方向上の
Crossing Countである。Crossing Countは、走査方向上
で画素が白から黒に転換された回数の繰和をいう。
次に、分析内容(判断の原則)を第6図(a)、(b)
を参照して説明する。
なお、 H0=文字の可能な最大高さ H1=文字列の可能な最大高さ =H0+傾斜の最大偏差 =H0+W×SIN(認められる最大の傾斜角) W=ブロックの幅 TH1=ハーフトーン(Halfton)図形、幾何学図形又は縦
方向を区分出来る平均Run Lengthの実験値 TH2=横方向直線、文字列又は短い縦線を区分出来る平
均Run Lengthの実験値 TH3=垂直方向から文字列又は短い縦線を区分出来る平
均Run Lengthの実験値 TH4=垂直方向から幾何学図形又は縦方向直線を区分出
来る平均Run Lengthの実験値 である。
まず、ブロックの高さから判断して、次の二群に分け
る。
(1) 高さが文字列の範囲を越えたもの(H0>H1)。
これは幾何学図形、縦線又はハーフトーン(Halfton)
図の何れかであると判断することが出来る。
ここで、水平方向の平均ストローク幅から判断すれば、
幅の大きいもの(水平方向上のRC>TH1)は、ハーフト
ーン(Halfton)図である。また、垂直方向の平均スト
ローク幅から判断すれば、幅の大きいもの(垂直方向の
RC>TH3)は、縦線である。そして、残るものが幾何学
図形である。
(2) 高さが文字列の範囲内にあるもの(H0≧H1)。
これは文字列又は横線の一種であると判断することが出
来る。この外、高さが文字列のそれに相当したため混同
されるものもある。ごく少数の短い縦線、小さい幾何学
図形又はハーフトーン(Halfton)図等がこれに該当す
る。
ここで、水平方向の平均ストローク幅から判断すれば、
幅の大きいもの(水平方向上のRC>TH2)は、横線又は
この群に入れられたハーフトーン(Halfton)図であ
る。また、垂直方向の平均ストローク幅から判断すれ
ば、幅の大きいもの(垂直方向のRC>TH4)は、この群
に入れられた縦線である。そして、残るものが文字列で
ある。なお、例外として、文字列又は小さくて、高さが
文字列のそれに相当した幾何学図形であって、はっきり
区分できないものは、次の文字切出処理に回された後、
各部の長さと幅との比により、文字か否かの判断がなさ
れる。
このようにして文字列が分離されると、文字列が文字切
出手段30に送られ、ここで構造化文字切出法による文字
切出処理が施される。次に、この文字切出処理の内容に
ついて説明する。
文字切出処理の目的は、分離された各文字列毎に、文字
(漢字、英数字)及び記号(句読点記号、特殊記号)に
それぞれ矩形枠を付けることにある。例えば、 ように枠を付けることにある。
この場合、直接、射影法を採用すると、次の問題があ
る。すなわち、英数字及び一般記号の矩形は単一の矩形
に属するが、漢字の矩形は数(1個〜5個)が一定しな
い。このため、単一の矩形が漢字の条件を満足するか、
否かを調べないと、漢字に正しく枠を付けることが出来
ない。また、複数個の矩形につき、矩形を融合させて、
融合した矩形が漢字制限の条件に合致するか、否かを調
べる。合致した場合には、矩形中に入ったものが漢字で
あることを示しているため、矩形の融合動作を停止しな
ければならない。これをしないと、融合した矩形が制限
を越えるまで融合動作を続けてしまう。
ところで、統計によると、漢字には次のような特性を具
えていることが分かる。
(1) 5401個の常用漢字の中に、単一矩形構造に属す
るものが87%、双矩形構造に属するものが11%、このい
ずれにも属さないものが2%占めている。
(2) 漢字は一般に四方字形構造を呈し、その縦横比
は普通1:1であるが、単一構造の漢字は縦横比の変化が
大きく、例えば“日”は1.6:1、“皿”は0.77:1であ
る。なお、双矩形以上の構造の漢字は比較的安定で、98
%のものは縦横比が0.9:1〜1.1:1の間にある。
(3) 漢字は続けて出現する(漢字同士が常に隣合
う)。
この発明の構造化文字切出法は、このような漢字の特性
を取り入れて、上述の問題が生じることなく文字列中の
文字に枠を付けて切り出しを行うようにしたものであ
る。基本的な内容は次の通りである。すなわち、 (1) まず、全ての単一矩形構造の特性を調べて、厳
しい判断条件に合致した漢字矩形を切り出す。
(2) 漢字同士が常に隣合う特性に基づき、左右に切
り出されるものがあってもその間にものが未だ切り出さ
れていない場合には、緩めの条件で単一矩形及び融合矩
形の判断を行う。
(3) 全ての漢字が切り出された後、残って切り出さ
れていないものは、英数字又は記号とする。
第7図は文字切出手段30で実行される処理内容を示すフ
ローチャートである。
まず、矩形捜索プロセスでは、文字列中の全ての左右に
分離された矩形に枠を付ける。これは次のようにして行
う。
(1) 水平軸(X)における画像の投影から矩形左右
端の位置を探り(第8図のX1,X2を参照)、矩形の水平
方向の位置を捜し出す。
(2) 各矩形の左右端部の領域内の画像の垂直軸
(Y)への投影から矩形上下端の位置を探り(同図の
Y1,Y2を参照)、矩形の垂直方向の位置を捜し出す。
次に、文字列中の漢字の高さを算出する。これを行うの
は、矩形が漢字字形に合致するか、否かを判断するパラ
メータが全部漢字の高さに関係するからである。高さ得
点法により、文字列の高さを計算する場合の原則は次の
通りである。
(1) ある高さhが発生した時、hとその前後領域は
対応した高さ得点に対し、影響を与える。
(2) 漢字の矩形が英数字の矩形よりも大きいという
特性で漢字の得点比重を増大させる。
(3) 一文字列の中の最大得点の高さを漢字の高さと
する。
第9図(a),(b)は、ある単一矩形の高さの得点状
況を示している。同図に示すように、文字列の高さは、
該文字列における全ての矩形高さの得点から統計したも
のである。
次に、優先切出プロセスを実行する。この優先切出プロ
セスでは、単一矩形を処理し、三種類の安定で誤りの発
生し難い漢字及び句読点記号を切り出すと共に、それぞ
れに表示の属性を与える。
第1類は、きちとした漢字であり、属性を1とする。
切り出し条件は、 (1) len−S<矩形の長さ <len−L (2) wid−S<矩形の幅 <wid−L (3) rat−S<矩形の縦横比<rat−L (4) 左右矩形との間隔>bnk とする。
第2類は、読点(、)コンマ(,)、句点(。)であ
り、属性を2とする。
切り出し条件は、 (1) 左右の矩形との間隔>Comma (2) dat−S<矩形の長さ、幅<dat−L とする。
第3類は“−”、“−”、“=”であり、属性を3とす
る。
切り出し条件は、 (1) dat−S<矩形の長さ<(dat−S+dat−L)
>1 (2) 矩形の幅<wid−S とする。
ここで、len−Sは、きちんとした漢字の許容され得る
最小矩形の長さ、 len−Lは、きちんとした漢字の許容され得る最大矩形
の長さ、 wid−Sは、きちんとした漢字の許容され得る最小矩形
の幅、 wid−Lは、きちんとした漢字の許容され得る最大矩形
の幅、 rat−Sは、きちんとした漢字の許容され得る最小矩形
の縦横比、 rat−Lは、きちんとした漢字の許容され得る最大矩形
の縦横比、 Commaは、句、読点等矩形及び左右矩形の許容され得る
最小矩形の長さ、 dat−Sは、句、読点等矩形の許容され得る最小矩形の
長さ、 dat−Lは、句、読点等矩形の許容され得る最大矩形の
長さ、 bnkは、二漢字間の距離、即ち余白の幅 をいう。
第10図は、上記優先切出プロセスで処理された矩形と属
性との対応状況を示すものである。
次いで、右方向切出プロセスを実行する。この右方向切
出プロセスでは、漢字同士が隣合うという特性を活用し
て、左側矩形がすべに切り出されて、その隣(右側)の
矩形が未だ切り出されていないものに対し、比較的ゆる
やかな条件で単一矩形と融合矩形に関する構造的切出判
断を行い、切り出された全ての矩形に対し右側に位置す
る漢字矩形を捜し出す。
切り出しの条件は、 (1) length−S<(融合)矩形の長さ<length−L (2) width−S<(融合)矩形の幅<width−L (3) (融合)矩形と隣の切出矩形との中心間距離>
pitch−S (4) 単一矩形に対して、com−S<矩形の縦横比<c
om−L (5) 融合矩形に対して、mid−S<矩形の縦横比<m
id−L 上記条件を満足した(融合)矩形が複数個ある場合、
(融合)矩形の幅と漢字の高さとの差が最小のもの、す
なわち最も正方形に類似したものを選択し、これを切り
出す。
この後、左方向切出プロセスを実行する。このプロセス
では、右方向切出プロセスと同じ操作を行うが、対象と
なるのは、右側矩形が既に切り出されているが、その隣
(左側)の矩形が未だ切り出されていないものとする。
このようにして文字列から文字に枠を付けて切り出す
が、文字列の中には最左端の矩形と最右端の矩形が切り
出されないままのものがある。このような場合には、端
点切出プロセスにより、両端の矩形に対し特殊な処理を
施して、全ての漢字が正確に切り出されるようにする。
第11図は上記文字切出処理を施した結果を示すものであ
る。
この文字切出処理の後、光学文字認識系(Optical Char
acter Recognition;OCR)に転送される。
前記枠字方法の実用性を確認するため、C言語でPC−AT
で実験したところ次の表に示す結果が得られた。
なお、変数値は下記のものを使用した。なお、Sizeは文
字列の漢字の高さを表す。
len−L=1.25×size len−S=0.87×sise wid−L=1.15×size wid−S=0.83×size rat−L=1.37 rat−S=0.75 length−L=1.35×size length−S=0.58×size width−L=1.45×size width−S=0.57×size com−L=1.8 com−S=0.48 mid−L=1.55 mid−S=0.58 pitch−S=0.95×size comma=0.35×size dat−L=0.45×size dat−S=0.1×size また、処理対象は電子発展月刊誌及び他の雑誌等で、図
表、文章(漢字、英数字及び特殊記号が含まれ、かつ文
字間の距離が定まっていないもの)が含まれたもので、
頁数は10頁であった。
(発明の効果) 以上説明したように第1の発明によれば、一次走査ブロ
ック・ラベリング法を採用しているので、一回の走査で
文字列、画像ブロック、図形ブロックを分離処理でき、
効率良くデータベース化を図ることが出来る。また、第
2の発明によれば、構造化文字切出法を採用しているの
で、文字列から正確に文字に枠を付けて切り出すことが
でき、効率良くデータベース化を図ることが出来る。さ
らに、第3の発明によれば、一次走査ブロック・ラベリ
ング法により文字列、画像ブロック、図形ブロックを分
離した後、構造化文字切出法により文字列から文字に枠
を付けて切り出すようにしているので、ブロック分離に
際し時間がかからず、また文字切出しに際し正確に行
え、効率良くデータベース化を図ることが出来る。
【図面の簡単な説明】
第1図は第3の発明を実施する装置のブロック図、第2
図はブロック分離前の書類を示す図、第3図はブロック
分離処理後の書類を示す説明図、第4図は一次走査ブロ
ック・ラベリング法による処理内容を示すフローチャー
ト、第5図は“近隣領域”の内容を説明する説明図、第
6図(a),(b)は分析内容(判断の原則)を説明す
るブロック特性分布図、第7図は構造化文字切出法によ
る処理内容を示すフローチャート、第8図は我(僕)と
いう字をX,Y方向に投影する操作(矩形捜出プロセス)
の説明図、第9図(a),(b)は、ある単一矩形の高
さの得点状況を示す説明図とグラフ、第10図は優先切出
プロセスで処理された矩形と属性との対応状況を示す説
明図、第11図は文字切出処理を施した結果を示す説明図
である。 10……光学読取装置、 20……ブロック分離手段、 30……文字切出手段。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】コンピュータに読み込まれた書類の画像デ
    ータを、ブロック分離処理法により、文字列(文字ブロ
    ック)、画像ブロック及び図形ブロックに分離し、次い
    で文字切出法により、分離された文字列から漢字、英数
    字及び句読点記号に枠を付けて切り出す枠字処理方法に
    おいて、 前記ブロック分離処理法を、 ビットマップ(bitmap)画像をラン・レングス・コード
    (Run Length Code)に変換するためのCRLC(Cnstraine
    d Run Length Code)転換プロセスと、 ラベリング(Labeling)法で、隣接関係にあるCRLCを連
    続させることにより、一ブロック(独立のブロック)と
    して分離するブロック分離プロセスと、 独立したブロックに記録されたCRLCからもとのビットマ
    ップ(bitmap)画像における各対応位置(X,Y)を算出
    することにより、各ブロックの画像を抽出する画像抽出
    プロセスと、 ブロックの高さとラン・レングス(Run Length)平均値
    からブロックの種類を判別するブロック画像種類判別プ
    ロセスと、 とからなる一次走査ブロック・ラベリング法により構成
    したことを特徴とする枠字処理方法。
  2. 【請求項2】コンピュータに読み込まれた書類の画像デ
    ータを、ブロック分離処理法により、文字列(文字ブロ
    ック)、画像ブロック及び図形ブロックに分離し、次い
    で文字切出法により、分離された文字列から漢字、英数
    字及び句読点記号に枠を付けて切り出す枠字処理方法に
    おいて、 前記文字切出法を、 文字列の左右に分離された矩形に枠を付ける矩形捜索プ
    ロセスと、 高さ得点法により漢字の高さを求める文字列高さ計算プ
    ロセスと、 属性により漢字や句読点を切り出す優先切出プロセス
    と、 比較的ゆるやかな条件により、切り出された全ての矩形
    の右、あるいは左側に位置する漢字矩形を捜し出す右方
    向、左方向切出プロセスとを具備した構造化文字切出法
    により構成したことを特徴とする枠字処理方法。
  3. 【請求項3】コンピュータに読み込まれた書類の画像デ
    ータを、文字列(文字ブロック)、画像ブロック及び図
    形ブロックに区分する一次走査ブロック・ラベリング
    と、前記文字列から漢字、英数字及び句読点記号に枠を
    付けて切り出す構造化文字切出法とを具備し、 前記一次走査ブロック・ラベリング法を、 ビットマップ(bitmap)画像をラン・レングス・コード
    (Run Length Code)に変換するためのCRLC(Cnstraine
    d Run Length Code)転換プロセスと、 ラベリング(Labeling)法で、隣接関係にあるCRLCを連
    続させることにより、一ブロック(独立のブロック)と
    して分離するブロック分離プロセスと、 独立したブロックに記録されたCRLCからもとのビットマ
    ップ(bitmap)画像における各対応位置(X,Y)を算出
    することにより、各ブロックの画像を抽出する画像抽出
    プロセスと、 ブロックの高さとラン・レングス(Run Length)平均値
    からブロックの種類を判別するブロック画像種類判別プ
    ロセスとから構成し、 また、前記構造化文字切出法を、 文字列の左右に分離された矩形に枠を付ける矩形捜索プ
    ロセスと、 高さ得点法により漢字の高さを求める文字列高さ計算プ
    ロセスと、 属性により漢字や句読点を切り出す優先切出プロセス
    と、 比較的ゆるやかな条件により、切り出された全ての矩形
    の右、あるいは左側に位置する漢字矩形を捜し出す右方
    向、左方向切出プロセスとから構成したことを特徴とす
    る枠字処理方法。
JP63132524A 1988-05-30 1988-05-30 枠字処理方法 Expired - Fee Related JPH0747333B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63132524A JPH0747333B2 (ja) 1988-05-30 1988-05-30 枠字処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63132524A JPH0747333B2 (ja) 1988-05-30 1988-05-30 枠字処理方法

Publications (2)

Publication Number Publication Date
JPH01320171A JPH01320171A (ja) 1989-12-26
JPH0747333B2 true JPH0747333B2 (ja) 1995-05-24

Family

ID=15083319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63132524A Expired - Fee Related JPH0747333B2 (ja) 1988-05-30 1988-05-30 枠字処理方法

Country Status (1)

Country Link
JP (1) JPH0747333B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5745683A (en) * 1980-09-01 1982-03-15 Comput Basic Mach Technol Res Assoc Character read-in device
JPS6132187A (ja) * 1984-07-19 1986-02-14 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 文字認識方式
JPS6165378A (ja) * 1984-09-06 1986-04-03 Toshiba Corp 文字図形認識方法及び装置
JPH0721817B2 (ja) * 1986-03-26 1995-03-08 株式会社日立製作所 文書画像処理方法
JPS6378287A (ja) * 1986-09-22 1988-04-08 Matsushita Electric Ind Co Ltd 文字認識装置

Also Published As

Publication number Publication date
JPH01320171A (ja) 1989-12-26

Similar Documents

Publication Publication Date Title
Casey et al. Intelligent forms processing system
EP2545495B1 (en) Paragraph recognition in an optical character recognition (ocr) process
JP3253356B2 (ja) 文書画像の領域識別方法
US7705848B2 (en) Method of identifying semantic units in an electronic document
US5848184A (en) Document page analyzer and method
EP0544430B1 (en) Method and apparatus for determining the frequency of words in a document without document image decoding
EP0854434B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
KR101985612B1 (ko) 종이문서의 디지털화 방법
Casey et al. Intelligent forms processing
CN114299528B (zh) 一种针对扫描文档的信息提取和结构化方法
JPH05307638A (ja) ビットマップ・イメージ・ドキュメントのコード化データへの変換方法
CN116311259B (zh) 一种pdf业务文档的信息抽取方法
US7929772B2 (en) Method for generating typographical line
Lemaitre et al. A perceptive method for handwritten text segmentation
JP4232679B2 (ja) 画像形成装置およびプログラム
Shafait et al. Layout analysis of Urdu document images
Bataineh et al. Generating an arabic calligraphy text blocks for global texture analysis
Jindal et al. Segmentation of touching characters in upper zone in printed Gurmukhi script
Hirayama A block segmentation method for document images with complicated column structures
KR102324221B1 (ko) 이미지 문서의 비정형 레이아웃 인식 방법
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition
JPH0747333B2 (ja) 枠字処理方法
Kaur et al. TxtLineSeg: text line segmentation of unconstrained printed text in Devanagari script
JP3091278B2 (ja) 文書認識方式
Bouressace A Review of Arabic Document Analysis Methods

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees