JP2602259B2 - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JP2602259B2
JP2602259B2 JP62326231A JP32623187A JP2602259B2 JP 2602259 B2 JP2602259 B2 JP 2602259B2 JP 62326231 A JP62326231 A JP 62326231A JP 32623187 A JP32623187 A JP 32623187A JP 2602259 B2 JP2602259 B2 JP 2602259B2
Authority
JP
Japan
Prior art keywords
line
ruled
area
unit
ruled line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62326231A
Other languages
English (en)
Other versions
JPH01166184A (ja
Inventor
勝美 細川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd filed Critical Fuji Electric Co Ltd
Priority to JP62326231A priority Critical patent/JP2602259B2/ja
Publication of JPH01166184A publication Critical patent/JPH01166184A/ja
Application granted granted Critical
Publication of JP2602259B2 publication Critical patent/JP2602259B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 【産業上の利用分野】
この発明は、文章部分,表部分および図形部分に大別
される文書情報から前記表部分を特定し、この表部分を
構成する罫線を認識するとともに、この罫線内の文字を
文字認識部によって認識させる文書処理装置に関する。
【従来の技術】
従来、文書情報の認識処理は、その内の文章部分が主
な対象であり、まず文字の行または列に大分けし、つい
で個々の文字を分離(切り分け)した後に、光学的読取
り方式に基づいて文字認識するという手順でなされた。
【発明が解決しようとする問題点】
一般に文書情報は、文章部分,表部分および図形部分
に大別され、さらに表部分は、罫線とこの内にある文字
部(正確には、文字,数字,記号など)とからなる。そ
して、文章部分は、前記のように主として光学的読取り
方式に基づく文字認識手段によって、また図形部分も、
類似の方式に基づく図形認識手段によって、現在それぞ
れある水準の認識率で認識可能である。 ところが、表部分に属する文字部は、罫線内に記入さ
れる特殊条件から、行間隔や文字間隔が異なるために
その文字認識がし難い、たとえ認識できたとしても時
間が多くかかる、罫線で区切られた別々の文が、一つ
のつながった文として誤認識されるおそれがある、縦
書き,横書きが混同して誤認識のおそれがある。 例えば、第10図(a)に示した表部分において、罫線
の、中央左側の領域内に1行の文字「abc」があり、中
央の領域内に2行の文字「defg」と「hijk」とがある。
同図(b)のように罫線を除去した後、横方向に文字を
調べていったとき、1行の部分が2行の部分に分岐する
から判断に迷うことになる。また、第11図(a)のよう
に表部分において、「qrst」と「uvwxyz」とが隣接した
罫線内領域に記入されているとき、同図(b)のように
罫線を除去すると、あたかも1行の連続した文字群「qr
stuvwxyz」であるかのように誤認されるおそれが生じ
る。 すなわち、従来の技術では、個々の文字の認識は、か
なりの水準で正しくなされるが、表部分に含まれる文字
の認識としては不十分であり、認識率が低く、かつ認識
時間も多くかかる、という問題がある。 この発明の目的は、従来の技術がもつ以上の問題点を
解消し、文書情報の内の表部分を正確に、かつ迅速に認
識することのできる文書処理装置を提供することにあ
る。
【問題点を解決するための手段】
前記の目的を達成するために、本発明に係る文書処理
装置は、 文章部分,表部分および図形部分に大別される文書情
報から前記表部分を特定し、この表部分を構成する罫線
の区画領域を階層的に認識するとともに、罫線によって
区画された領域内に含まれる文字部を文字認識部によっ
て認識させる装置であって、 画像入力部を介して入力される前記文書情報の内の各
線分の始点,終点に関する各データを格納する線分デー
タ記憶部と; この線分データ記憶部の格納データに基づき前記各線
分が同一方向に連続するものを一つの罫線と認識する罫
線認識部と; この罫線認識部によって認識された前記各罫線の始
点,終点に関する各データを格納する罫線データ記憶部
と; 前記罫線認識部によって、まず表部分の最大領域を認
識し、次いでその中間領域を認識し、以下同様にしてそ
の最終領域までを階層的に認識することによりその区画
領域を決定したのち、 前記罫線データ記憶部の格納データと、前記画像入力
部からの映像信号に基づき、前記各罫線によって区間さ
れた領域内に含まれる前記文字部を前記文字認識部に送
出する罫線内文字出力部と; を備えてなる。
【作 用】
線分データ記憶部が、画像入力部を介して入力された
文書情報の内の各線分の始点,終点に関する各データを
格納する。罫線認識部が、線分データ記憶部の格納デー
タに基づき各線分が同一方向に連続するものを一つの罫
線と認識するとともに、この各罫線の始点,終点に関す
る各データを罫線データ記憶部に格納する。罫線認識部
が、表部分の最大領域を認識し、次いでその中間領域を
認識し、以下同様にしてその最終領域までを階層的に認
識することによりその区間領域を決定する。罫線内文字
出力部が、罫線データ記憶部の格納データと、画像入力
部からの映像信号とに基づき、罫線によって区画された
領域内に含まれる文字部を文字認識部に送出し、この文
字認識部によって文字認識がおこなわれる。
【実施例】
本発明に係る実施例を示す文書処理装置について、以
下に図面を参照しながら説明する。 第1図はこの文書処理装置の構成を示すブロック図
で、この文書処理装置20は大別すると、画像入力部1、
各種メモリ、および各種処理部から構成される。 各種メモリは、画像入力部1からの文書映像信号のデ
ータを格納する原イメージメモリ2、このデータを後述
する細線化処理部13によって細線化処理したものを格納
する細線化イメージメモリ3、罫線を構成する個々の線
分データを格納する線分データメモリ4、この線分デー
タで構成された罫線のデータを格納する罫線データメモ
リ5、および文書情報としての図形部のデータを格納す
る図形メモリ6である。なお、図形メモリ6は、この発
明に係る文書処理装置20では特には取り扱われない。 各種処理部は、先程の細線化処理部13、細線化イメー
ジメモリ3のデータに基づき罫線を構成する各線分の始
点,終点の座標を決定する線分座標決定部14、線分デー
タメモリ4のデータに基づき各罫線を認識するとともに
その始点,終点の座標を決定する罫線座標決定部15、罫
線内に含まれる文字を特定しこれを出力する罫線内文字
出力部16、およびこの文字出力を受けこれを認識する文
字認識部17である。 この文書処理装置20の動作について、基本的に第2図
のフローチャートを、補助的に第1図の構成図その他
を、それぞれ参照しながら以下に説明する。 第2図において、ステップS1で、画像入力部1(第1
図参照)からの文書情報の映像信号を原イメージメモリ
2に記憶,格納させる。ステップS2の「細線化処理」
は、原イメージメモリ2に格納されている映像信号デー
タに基づき細線化処理部13によってなされ、画像を所定
幅の細線に変換する一種の画像整形処理である。その結
果は細線化イメージメモリ3に格納される。 ステップS3で「線分座標の決定」がなされるが、この
「線分座標の決定」は、細線化イメージメモリ3の格納
データに基づき線分座標決定部14によってなされ、罫線
を構成する各線分の始点,終点の各座標を決める処理で
ある。ここで、線分とは、自由端部または交点で区分さ
れる直線部分であり、その始点,終点は自由端部または
交点に相当する。 線分座標の決定について、さらに第3図,第4図を参
照しながら具体的に説明する。なお、第3図は文書情報
における一表部分の例示図、第4図はこの表部分の罫線
を構成する各線分を示す図である。罫線内のアルファベ
ットは記入文字を示す。第4図のように、罫線は、その
各交点間の線分の集合として構成され、その各線分は、
各交点に付けられた番号ないしによって表される。
たとえば、線分L1は−、線分L2は−、以下同様
にして線分L21は−、である。各線分の始点,終点
の座標は、ないしの付けられた交点の座標に相当
し、この各交点の座標は、周知の画像処理技術によって
容易に求めることができるから、各線分の始点,終点の
各座標が決定する ステップS4で「罫線座標の決定」がなされるが、これ
は、線分データメモリ4からのデータに基づき罫線認識
部15によってなされ、表部分を構成する各罫線の始点,
終点の各座標を決める処理である。罫線は、同一方向を
もつ複数個の線分の集合として定義され、例えば表部分
を構成する罫線を示す第5図において、K1ないしK7で示
される。第5図において、各交点に付けた番号ないし
は、第4図におけるのと同じである。罫線をその始
点,終点の各番号で表すと、各罫線K1ないしK7は、第6
図に示す対応図のようになる。この第6図の対応図を求
めることが、罫線座標決定に相当する。 ところで、表部分の罫線には、既に説明した第3図の
ように、外側が閉じた枠状をなし、内部に縦,横の各罫
線が配置される形態の外に、第7図(a),同図
(b),同図(c)のような各種の形態のものがある。
すなわち、第3図の罫線と比べて、第7図(a)では左
右両側の各縦罫線がなく、第7図(b)では内部の各縦
罫線がなく、第7図(c)では各縦罫線がまったくな
い。 ステップS5で「罫線による区画領域の決定」がなされ
るが、これは、2個ないし4個の罫線によって区画され
る領域を決める処理であり、罫線認識部15によって前記
の「罫線座標の決定」に関連しておこなわれる。次に第
8図,第9図を参照しながら説明する。なお、第8図は
罫線によって区画された領域を示す図で、同図(a)は
罫線の全体図、同図(b)は罫線による最大領域の図、
同図(c)は同じくその中間領域の図、同図(d)は同
じくその最終領域の図である。 まず、第8図(b)に示すように、外側の枠を構成す
る4個の罫線K1,K2,K7,K8によって領域Moが決められ
る。次に、第8図(c)に示すように:前記の罫線K1,K
2,K7,K8とともに、2個の横罫線K3,K5によって、領域Mo
が細分される形で領域M1,M2,M3が決定される。次に、第
8図(d)に示すように、2個の縦罫線K4,K6によって
細分され、新たな領域が決定されるが、まず罫線K4によ
る段階と、次の罫線K6による段階との2段階をとる。す
なわち、罫線K4により、領域M1が領域M11,M12に、領域M
2が領域M21,M22(破線枠)に、領域M3が領域M31,M32
(破線枠)に、それぞれ細分される。次に罫線6によっ
て、領域M22が領域M23,M24に、領域M32が領域M33,M34
に、それぞれ細分される。 第9図は罫線によって区画された各領域の階層構造を
示す図で、前記の各領域を、決定される順序にしたがっ
て配置した図である。すなわち、丸印に付けた符号が前
記の領域符号で、例えば領域Moが領域M1,M2,M3に細分化
され、ついで領域M1が領域M11,M12に細分化されること
を表し、以下同様である。このように、罫線によって区
画された各領域を階層的に理解することにより、例えば
領域M11には領域M21,M31という要素があり、領域M21の
詳細内容は領域M23,M24にあるというごとく、表の意味
を理解することが可能となる。 さて第2図に戻り、ステップS6で、罫線で区画された
領域内の文字だけが、罫線データメモリ5からのデータ
と、原イメージメモリ2からのデータとに基づき罫線内
文字出力部16によって、文字認識部17へ送出され、ここ
で文字認識がおこなわれる(ステップS7)。 なお、この発明では直接関係ないが、原イメージメモ
リ2のデータと、罫線認識部15とに基づいて罫線内の図
形情報のデータが図形メモリ6に格納される。そして、
この図形メモリ6のデータに基づき図示してない罫線内
図形出力部と、図形認識部とによって罫線内の図形が認
識される。この処理が、ステップS8の「罫線内図形の出
力」とステップS9の「図形認識」である。
【発明の効果】
以上説明したように、この発明においては、線分デー
タ記憶部が、画像入力部を介して入力された文書情報の
内の各線分の始点,終点に関する各データを格納する;
罫線認識部が、線分データ記憶部の格納データに基づき
各線分が同一方向に連続するものを一つの罫線と認識す
るとともに、この各罫線の始点,終点に関する各データ
を罫線データ記憶部に格納する;罫線認識部が、表部分
の最大領域を認識し、次いでその中間領域を認識し、以
下同様にしてその最終領域までを階層的に認識すること
によりその区画領域を決定する;罫線内文字出力部が、
罫線データ記憶部の格納データと、画像入力部からの映
像信号とに基づき、罫線によって区画された領域内に含
まれる文字部を文字認識部に送出し、この文字認識部に
よって文字認識がおこなわれる。 したがって、この発明によれば、従来の技術に比べ次
のようなすぐれた効果がある。 (1) 罫線は、この発明装置の罫線認識部によって認
識され、罫線によって区画された領域内に含まれる文字
は、表部分に属するものとして文字認識部によって、文
章部分と混同されることなく認識されるから、結果とし
て表部分の認識率の向上を図ることができる。 (2) 同系統の罫線によって区切られた同一の階層に
属する文字は、関連性あるものとして、その認識処理速
度を向上させることができるから、全体的に表部分の認
識に要する時間を短縮することができる。 (3) 罫線によって区画された各領域を階層的に理解
することにより、各領域から認識された文字を市販を表
計算ソフトウェアやデータベース・ソフトウェア等のデ
ータとして再利用することができる。
【図面の簡単な説明】
第1図は本発明に係る実施例の構成を示すブロック図、 第2図はこの実施例の動作を示すフローチャート、 第3図は文書情報における一表部分の例示図、 第4図はこの表部分の罫線を構成する各線分を示す図、 第5図はこの表部分を構成する罫線を示す図、 第6図は各罫線とその始点,終点との対応を示す図、 第7図(a)は別の罫線の図、同図(b)はさらに別の
罫線の図、同図(c)はまたさらに別の罫線の図、 第8図は罫線によって区画された領域を示す図で、同図
(a)は罫線の全体図、同図(b)は罫線によって区画
された最大領域の図、同図(c)は同じくその中間領域
の図、同図(d)は同じくその最終領域の図、 第9図は罫線によって区画された領域の階層構造を示す
図、 第10図は従来の罫線内文字の認識において誤りを生じる
おそれのある一例の説明図で、同図(a)は罫線のある
場合、同図(b)は罫線を除去した場合、 第11図は同じくその別の例の説明図で、同図(a)は罫
線のある場合、同図(b)は罫線を除去した場合であ
る。 符号説明 1:画像入力部、2:原イメージメモリ、 3:細線化イメージメモリ、 4:線分データメモリ、5:罫線データメモリ、 6:図形メモリ、13:細線化処理部、 14:線分座標決定部、15:罫線認識部、 16:罫線内文字出力部、17:文字認識部、 20:文書処理装置。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文章部分,表部分および図形部分に大別さ
    れる文書情報から前記表部分を特定し、この表部分を構
    成する罫線の区画領域を階層的に認識するとともに、罫
    線によって区画された領域内に含まれる文字部を文字認
    識部によって認識させる装置であって、 画像入力部を介して入力される前記文書情報の内の各線
    分の始点,終点に関する各データを格納する線分データ
    記憶部と;この線分データ記憶部の格納データに基づき
    前記各線分が同一方向に連続するものを一つの罫線と認
    識する罫線認識部と;この罫線認識部によって認識され
    た前記各罫線の始点,終点に関する各データを格納する
    罫線データ記憶部と;前記罫線認識部によって、まず表
    部分の最大領域を認識し、次いでその中間領域を認識
    し、以下同様にしてその最終領域までを階層的に認識す
    ることによりその区画領域を決定したのち、前記罫線デ
    ータ記憶部の格納データと前記画像入力部からの映像信
    号に基づき、前記各罫線によって区間された領域内に含
    まれる前記文字部を前記文字認識部に送出する罫線内文
    字出力部と;を備えてなることを特徴とする文書処理装
    置。
JP62326231A 1987-12-22 1987-12-22 文書処理装置 Expired - Lifetime JP2602259B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62326231A JP2602259B2 (ja) 1987-12-22 1987-12-22 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62326231A JP2602259B2 (ja) 1987-12-22 1987-12-22 文書処理装置

Publications (2)

Publication Number Publication Date
JPH01166184A JPH01166184A (ja) 1989-06-30
JP2602259B2 true JP2602259B2 (ja) 1997-04-23

Family

ID=18185455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62326231A Expired - Lifetime JP2602259B2 (ja) 1987-12-22 1987-12-22 文書処理装置

Country Status (1)

Country Link
JP (1) JP2602259B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57211674A (en) * 1981-06-23 1982-12-25 Ricoh Co Ltd Frame recognizing method

Also Published As

Publication number Publication date
JPH01166184A (ja) 1989-06-30

Similar Documents

Publication Publication Date Title
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JPH1011531A (ja) 帳票読取装置
US6549662B1 (en) Method of recognizing characters
JP4704601B2 (ja) 文字認識方法,プログラム及び記録媒体
JP2602259B2 (ja) 文書処理装置
JPH0516632B2 (ja)
JPH10207981A (ja) 帳票認識方法
US5894525A (en) Method and system for simultaneously recognizing contextually related input fields for a mutually consistent interpretation
JPH09114925A (ja) 光学式文字読取装置
JP2682873B2 (ja) 表形式文書の認識装置
JPH07117967B2 (ja) 図面処理システム
JP2784004B2 (ja) 文字認識装置
JP2740506B2 (ja) 画像認識方法
JPH03240183A (ja) 認識文字自動修正方式
JPS58125183A (ja) 光学文字読取装置における認識不能文字表示方法
JPH0773228A (ja) 図面自動認識方法
JPH0554178A (ja) 文字認識装置及び修正用帳票
JPH06251187A (ja) 文字認識誤り修正方法及び装置
JPH0475185A (ja) 入力装置
JP2878772B2 (ja) 光学的文字読取装置
JPS5943486A (ja) 円抽出処理方式
JPH07160820A (ja) 文字認識方法
JPS62212888A (ja) 図面自動読取り装置の図面枠除去方式
JPS62224871A (ja) 文書画像処理方式
JPH04156694A (ja) 文字認識方式